CN112307955A

CN112307955A - 一种基于ssd红外图像行人检测的优化方法

Info

Publication number: CN112307955A
Application number: CN202011185664.1A
Authority: CN
Inventors: 王智文; 冯晶; 王宇航
Original assignee: Guangxi University of Science and Technology
Current assignee: Guangxi University of Science and Technology
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-02-02

Abstract

本发明公开了一种基于SSD红外图像行人检测的优化方法，包括，基于K‑means聚类分析策略对图像中的目标框进行聚类分析；通过迭代分析得到图像检测中最优的k值，并将default boxes的个数设为k；利用IOU重叠度，即两框交集与并集的比值作为优化判别标准，将MoblieNet V2网络替换VGG‑16，构建优化模型；所述优化模型引用所述优化判别标准进行检测优化。本发明采用MobileNet V2(1.4)，参数比MobileNet V2网络略高，但精度提高不少，可达到92.5％，而且耗时少比VGG‑16少很多，将VGG‑16替换为轻量级的MobileNet V2(1.4)网络结构进行特征提取，使网络在精度提升的同时更满足实时性需求，由K‑means算法对先验框的个数与长宽比进行调整，使网络更适用于行人检测，优化后的网络检测时间缩短，精度更高。

Description

一种基于SSD红外图像行人检测的优化方法

技术领域

本发明涉及行人检测优化的技术领域，尤其涉及一种基于SSD红外图像行人检测的优化方法。

背景技术

行人检测是指从输入的图像或视频序列中判断是否存在行人，并快速准确地确定其位置。目前行人检测技术已成为计算机视觉研究热点之一，在夜晚情况下，由于光照等条件不理想，可见光摄像机的成像效果较差，影响行人检测的效果。红外成像技术通过捕获物体发出的热量，所以不论白天或者夜晚，都能够获得物体成像信息，形成灰度图像。然而行人兼具刚性和柔性的物体特性，外表易受姿态、视角、遮挡等影响，使得基于红外图像的行人检测依然是一个极具挑战性的研究课题。

当前红外行人图像检测存在的难点和问题可以概括为5个方面，一、红外图像为灰度图像，没有色彩信息，而且图像深度有限，信噪比低，动态范围窄，这样对红外图像中的人体目标进行检测时，就不能像可见光那样通过对皮肤的颜色聚类；二、红外图像层次感差，纹理信息很少，而且边缘模糊，使得红外图像中的人体检测不能像可见光图像那样通过人的一些特征如眼睛、面部特点等对人体进行定位；三、由于红外图像是热成像，图像中存在很多干扰目标，如灯柱、动物、车辆、电器盒、建筑等热源，它们的红外成像比较容易与人体目标混淆；四、红外图像中目标的亮度还与目标表面特征、朝向、辐射波长有关，行人前进方向、服装成分厚重程度等都会对目标亮度产生影响，这些成像特征的不一致性，使得红外图像中人体目标的检测更加困难；五、行人兼具刚性和柔性的物特性，外表易受姿态、视角、遮挡等影响。因此研究红外图像中的人体检测具有重要的学术意义。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明解决的技术问题是：SSD网络采用VGG-16进行特征提取、VGG-16网络参数多、计算量大。

为解决上述技术问题，本发明提供如下技术方案：包括，基于K-means聚类分析策略对图像中的目标框进行聚类分析；通过迭代分析得到图像检测中最优的k值，并将default boxes的个数设为k；利用IOU重叠度，即两框交集与并集的比值作为优化判别标准，将MoblieNet V2网络替换VGG-16，构建优化模型；所述优化模型引用所述优化判别标准进行检测优化。

作为本发明所述的基于SSD红外图像行人检测的优化方法的一种优选方案，其中：进行所述检测优化包括，将红外行人图像输入网络中，经过不同的卷积层提取特征，共生成6个不同尺度的特征图；在每个特征图上生成尺度大小不同的先验框，预测出包含目标的边界框，分别进行检测和分类；通过非极大值抑制生成最终检测结果。

作为本发明所述的基于SSD红外图像行人检测的优化方法的一种优选方案，其中：所述VGG16包括，5组13个卷积层、5个最大池化层和3个全连接层，其中，所述卷积层的步长为1、卷积核为3×3、所述池化层步长为2、大小为2×2；所述MoblieNet V2添加宽度缩放因子α，使得每层网络都变薄，输入通道由D变为αD，输出通道由K变为αK，计算量变为：

F×F×αD×N×N+1×1×αD×αK×N×N

其中，计算量和参数个数缩小为原来的α²。

作为本发明所述的基于SSD红外图像行人检测的优化方法的一种优选方案，其中：还包括，所述MoblieNet为轻量级网络，采用深度可分解卷积将一个标准卷积分解为深度卷积和点卷积，其为2D卷积并作为卷积核深度为1的CNN卷积核，每个卷积核只对输入数据的一层做卷积运算，其计算量为：

F×F×D×N×N+1×1×D×K×N×N

其中，F为卷积核的维度，D为输入的深度，N为输入的宽度和高度，K为输出的深度。

作为本发明所述的基于SSD红外图像行人检测的优化方法的一种优选方案，其中：所述IOU重叠度包括，

d(box,centroid)＝1-IOU(box,centroid)

聚类目标函数定义如下：

其中，box为先验框，truth为真实框，k为先验框个数。

作为本发明所述的基于SSD红外图像行人检测的优化方法的一种优选方案，其中：包括，所述优化模型预测的边界框l是由先验框和真实边界框计算得出的，如下：

l^cx＝(b^cx-d^cx)/d^w/variance[0] l^cy＝(b^cy-d^cy)/d^h/variance[1]

l^w＝log(b^w/d^w)/variance[2] l^h＝log(b^h/d^h)/variance[3]

其中，(d^cx,d^cy,d^w,d^h)为先验框参数，(b^cx,b^cy,b^w,b^h)为先验框对应的真实边界框参数，variance为超参数，用来调整检测值对l进行缩放。

作为本发明所述的基于SSD红外图像行人检测的优化方法的一种优选方案，其中：还包括，当进行预测时，则反向推导，利用下式解码，

b^cx＝d^w(variance[0]×l^cx)+d^cx b^cy＝d^h(variance[1]×l^cy)+d^cy

b^w＝d^wexp(variance[2]×l^w) b^h＝d^hexp(variance[3]×l^h)

作为本发明所述的基于SSD红外图像行人检测的优化方法的一种优选方案，其中：所述优化模型以损失函数为目标函数，包括，所述损失函数定义为位置误差与置信度误差的加权之和，如下：

其中，N是先验框的正样本的数量，c为类别置信度预测值，l为先验框所对应边界框的位置预测值，g为真实边界框的位置参数，α为权重系数。

作为本发明所述的基于SSD红外图像行人检测的优化方法的一种优选方案，其中：还包括，所述位置误差采用Smooth L1 loss定义，如下：

由于l是编码值，所以计算时要先对g进行编码得到

如下：

其中，d为先验框位置，variance为超参数，用来调整检测值对

进行缩放。

作为本发明所述的基于SSD红外图像行人检测的优化方法的一种优选方案，其中：还包括，所述置信误差采用softmax loss计算，如下：

其中，

为一个参数指标，当

时表示第i个预测边界框与第j个真实边界框匹配，并且边界框的类别为p，c为类别置信度预测值，p的概率预测越高，损失越小，概率通过softmax产生。

本发明的有益效果：本发明采用MobileNet V2(1.4)，参数比MobileNet V2网络略高，但精度提高不少，可达到92.5％，而且耗时少比VGG-16少很多，将VGG-16替换为轻量级的MobileNet V2(1.4)网络结构进行特征提取，使网络在精度提升的同时更满足实时性需求，由K-means算法对先验框的个数与长宽比进行调整，使网络更适用于行人检测，优化后的网络检测时间缩短，精度更高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一个实施例所述的基于SSD红外图像行人检测的优化方法的流程示意图；

图2为本发明第一个实施例所述的基于SSD红外图像行人检测的优化方法的SSD网络结构示意图；

图3为本发明第一个实施例所述的基于SSD红外图像行人检测的优化方法的SSD网络检测示意图；

图4为本发明第一个实施例所述的基于SSD红外图像行人检测的优化方法的VGG16网络结构示意图；

图5为本发明第一个实施例所述的基于SSD红外图像行人检测的优化方法的目标函数变化曲线示意图；

图6为本发明第一个实施例所述的基于SSD红外图像行人检测的优化方法的Moblie Net V2网络基本卷积单元结构示意图；

图7为本发明第一个实施例所述的基于SSD红外图像行人检测的优化方法的模型训练流程示意图；

图8为本发明第二个实施例所述的基于SSD红外图像行人检测的优化方法的MAP曲线示意图；

图9为本发明第二个实施例所述的基于SSD红外图像行人检测的优化方法的输入图像示意图；

图10为本发明第二个实施例所述的基于SSD红外图像行人检测的优化方法的检测结果示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1～图7，为本发明的第一个实施例，提供了一种基于SSD红外图像行人检测的优化方法，包括：

S1：基于K-means聚类分析策略对图像中的目标框进行聚类分析。

S2：通过迭代分析得到图像检测中最优的k值，并将default boxes的个数设为k。

S3：利用IOU重叠度，即两框交集与并集的比值作为优化判别标准。参照图5，其中需要说明的是，IOU重叠度包括：

d(box,centroid)＝1-IOU(box,centroid)

聚类目标函数定义如下：

其中，box为先验框，truth为真实框，k为先验框个数，当k＞4时，曲线基本保持平稳，故k选4。

表1：红外行人真实聚类框表。

优化模型预测的边界框l是由先验框和真实边界框计算得出的，如下：

l^cx＝(b^cx-d^cx)/d^w/variance[0] l^cy＝(b^cy-d^cy)/d^h/variance[1]

l^w＝log(b^w/d^w)/variance[2] l^h＝log(b^h/d^h)/variance[3]

其中，(d^cx,d^cy,d^w,d^h)为先验框参数，(b^cx,b^cy,b^w,b^h)为先验框对应的真实边界框参数，variance为超参数，用来调整检测值对l进行缩放；

当进行预测时，则反向推导，利用下式解码，

b^cx＝d^w(variance[0]×l^cx)+d^cx b^cy＝d^h(variance[1]×l^cy)+d^cy

b^w＝d^w exp(variance[2]×l^w) b^h＝d^hexp(variance[3]×l^h)

S4：将MoblieNet V2网络替换VGG-16，构建优化模型。参照图2、图3、图4、图6，本步骤需要说明的是：

VGG16包括，5组13个卷积层、5个最大池化层和3个全连接层，其中，卷积层的步长为1、卷积核为3×3、池化层步长为2、大小为2×2；

MoblieNet V2添加宽度缩放因子α，使得每层网络都变薄，输入通道由D变为αD，输出通道由K变为αK，计算量变为：

F×F×αD×N×N+1×1×αD×αK×N×N

其中，计算量和参数个数缩小为原来的α²；

MoblieNet为轻量级网络，采用深度可分解卷积将一个标准卷积分解为深度卷积和点卷积，其为2D卷积并作为卷积核深度为1的CNN卷积核，每个卷积核只对输入数据的一层做卷积运算，其计算量为：

F×F×D×N×N+1×1×D×K×N×N

S5：优化模型引用优化判别标准进行检测优化。其中还需要说明的是，进行检测优化包括：

将红外行人图像输入网络中，经过不同的卷积层提取特征，共生成6个不同尺度的特征图；

在每个特征图上生成尺度大小不同的先验框，预测出包含目标的边界框，分别进行检测和分类；

通过非极大值抑制生成最终检测结果。

优化模型以损失函数为目标函数，包括：

损失函数定义为位置误差与置信度误差的加权之和，如下：

位置误差采用Smooth L1 loss定义，如下：

由于l是编码值，所以计算时要先对g进行编码得到

如下：

其中，d为先验框位置，variance为超参数，用来调整检测值对

进行缩放。

置信误差采用softmax loss计算，如下：

其中，

为一个参数指标，当

参照图7，本实施例为了加快训练网络的收敛速度，采用COCO数据集上迭代了1万次的权重初始化网络，将原训练集经过图像预处理模块，使图像进行增强得到处理后的图像作为训练集；卷积池化模块包含了MoblieNet V2基础网络以及后续添加的卷积层，主要对训练集图片进行特征采样和降维，feature maps分割计算模块就是对得到的特征映射计算位置偏移、置信度和预定义框的位置，并根据损失函数计算位置损失和置信损失，得到训练结果与实际结果之间的误差；当训练次数没有达到设定的最大值时把误差进行反向传播，从而不断更新权值，当训练次数达到3万次时结束训练。

优选的是，本发明采用MobileNet V2(1.4)，参数比MobileNet V2网络略高，但精度提高不少，可达到92.5％，而且耗时少比VGG-16少很多，将VGG-16替换为轻量级的MobileNet V2(1.4)网络结构进行特征提取，使网络在精度提升的同时更满足实时性需求，由K-means算法对先验框的个数与长宽比进行调整，使网络更适用于行人检测，优化后的网络检测时间缩短，精度更高。

实施例2

参照图8、图9和图10，为本发明的第二个实施例，提供了一种基于SSD红外图像行人检测的优化方法的验证，包括：

测试环境：(1)参数配置；

表2：实验设置数据表。

网络训练过程中设置冲量常数为0.9，初始学习率为0.0004，多分步策略学习，权值衰减系数为0.0005，beach-size为16，同时通过观察损失函数变化、训练与测试准确率差异等指标调整学习率和正则化系数等超参数。

(2)混淆矩阵；

表3：混淆矩阵数据表。

其中，TP(True Positive)表示预测结果为True，真实值为正例，模型预测结果为正例，在目标检测中一般认为IOU>0.5为真正例；FP(False Positive)表示预测结果为False，真实值为反例，模型预测结果为正例，在目标检测中一般认为IOU<0.5为真正例；FN(False Negtive)表示预测结果为False，真实值为正例，模型预测结果为反例，未被检测出的真实边界框；TN(True Negtive)表示预测结果为True，真实值为反例，模型预测结果为反例，在目标检测中一般用不到。

(3)精确率与召回率；

精确率(Precision)又被称为查准率，表示预测值为正例中，有多少真正例被预测出来，利用下式计算：

召回率(Recall)表示所有正样本中有多少被预测正确，计算如下：

平均精确率AP(Average Precision)是一个0～1之间的数值，可以衡量模型的好坏，包括：

参照图8，mAP(mean Average Precision)表示平均准确率均值为对所有类别的AP进行平均，本实施例中采用mAP对网络进行评估，根据图8的示意，其为验证集的mAP曲线，可以直观的看出随着训练次数的增加，mAP在不断提升，平均准确率在迭代次数为0到1万次之间曲线变化非常明显，准确率的提升幅度很大，代表模型处于学习阶段，当训练次数达到1万次后，准确率趋于饱和，曲线逐步收敛，将训练好的模型通过测试集测试后平均准确率均值为91.73％。

本实施例中对训练好的网络进行打包，将测试集图像输入训练好的网络模型中对图像中行人目标进行检测，计算出图片中目标的位置偏移、目标类别、预定义框位置，根据预定义框位置和位置偏移量得到目标最终的位置(目标中心、目标长和目标宽)，设置黄绿色来绘制目标边框，并给出目标为某一类的概率，当预测概率>50％时认为该目标属于行人。

参照图9和图10，是对测试集图片进行目标检测的效果，其对于3个目标分类为行人的概率分别为93％(机器75％确定该目标为行人)、92％、81％。对输入的图像能预测成功。

由于传统SSD算法的default boxes根据经验确定，而本实施例采用K-means聚类分析算法确定的数值设定default boxes，提高对行人目标的针对性，进一步提升网络对行人目标的检测能力。

参照表4为修改后的候选框与Faster-RCNN和SSD的重叠率对比，修改后的候选框数量减少的同时还提高了重叠率。

表4：候选框生成方案对比表。

传统的SSD网络采用VGG-16进行特征提取，计算消耗时间长，复杂度高，很难满足实时性要求，而本实施例采用轻量级网络MoblieNet V2(1.4)进行特征提取，既提高了精度，又大大缩短了检测时间，在ImageNet数据集下对VGG-16和MoblieNet网络的Top-1、Toop-5测试精度、参数量与CPU运行时间进行对比，结果如下：

表5：特征提取网络方案对比表。

本实施例采用平均准确率mAP)、查全率(recall，R)、检测时间三个指标作为不同算法在红外图像行人目标检测任务上的评判标准，兼顾查准查全两个要求，衡量算法整体性能，更全面评价不同算法针对行人目标的检测性能。

表6：不同模型在数据集中的识别结果对比表。

本发明采用MobileNet V2(1.4)，参数比MobileNet V2网络略高，但精度提高不少，可达到92.5％，而且耗时少比VGG-16少很多，将VGG-16替换为轻量级的MobileNet V2(1.4)网络结构进行特征提取，使网络在精度提升的同时更满足实时性需求，由K-means算法对先验框的个数与长宽比进行调整，使网络更适用于行人检测，优化后的网络检测时间缩短，精度更高。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。