CN109800628B

CN109800628B - 一种加强ssd小目标行人检测性能的网络结构及检测方法

Info

Publication number: CN109800628B
Application number: CN201811474112.5A
Authority: CN
Inventors: 胡永健; 陈奇华; 刘琲贝; 王宇飞
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-12-04
Filing date: 2018-12-04
Publication date: 2023-06-23
Anticipated expiration: 2038-12-04
Also published as: CN109800628A

Abstract

本发明公开了一种加强SSD小目标行人检测性能的网络结构，包括：预处理模块、基础网络模块、附加特征提取模块、两级特征融合模块、分类和回归模块。本发明还公开了一种加强SSD小目标行人检测性能的检测方法，其特征在于，包括以下步骤：获取用于小目标行人检测的训练样本集并转换格式；初始化训练模型，对训练样本进行预处理；提取样本的浅层特征和深层特征，将深层特征的信息融合到浅层特征中，形成多尺度检测框架；进行网络参数的迭代更新；完成网络训练后进行测试。本发明在SSD算法的基础上引入了两级特征融合模块，有效利用了特征层之间的上下文信息，使深层网络信息能够较好地融合到浅层网络中，加强了SSD算法对小目标行人的检测性能。

Description

一种加强SSD小目标行人检测性能的网络结构及检测方法

技术领域

本发明涉及深度学习及行人检测领域，特别涉及一种加强SSD小目标行人检测性能的网络结构及检测方法。

背景技术

行人检测是计算机视觉领域中的一个重要研究分支，主要任务是判断输入的图像或视频序列中是否出现行人，并确定其位置。行人检测技术广泛地应用于视频监控、车辆辅助驾驶、智能机器人等多个领域。

近年来，深度学习方法在目标检测上取得了重大的突破，展现出比传统方法更强大的检测能力。行人检测作为一种特定的目标检测任务，也获益于深度学习技术的快速发展。相比于传统的检测方法，深度学习方法可以从训练数据中自主地学习行人的特征，并且可以实现端到端的检测。2014年Ross Girshick等人在欧洲计算机视觉会议(ECCV)上发表论文《Rich feature hierarchies for accurate object detection and semanticsegmentation》，首次将深度学习引入目标检测领域，相比于传统检测方法，大幅提高了在PASCAL VOC数据集上的检测准确率。2016年发表于计算机视觉和模式识别会议(CVPR)上的论文《You Only Look Once:Unified,Real-Time Object Detection》提出了YOLO算法，不需要区域建议过程，可以达到实时检测，但是检测精度偏低。2016年Wei Liu等人在ECCV会议上发表论文《SSD:Single Shot MultiBox Detector》，所提出的SSD算法也属于无区域建议的方法，利用多尺度检测思想，在提高检测精度的同时满足了实时性。然而，当目标尺度较小时，以上众多经典深度学习方法的检测效果并不理想。这是因为小目标分辨率较低，能被提取的目标特征有限，且更容易受到噪声干扰造成漏检，此外，小目标需要的搜索深度更大，检测速度受到影响。因此，远距离下小目标行人的检测是一个有待解决的技术难点。

SSD算法作为目标检测领域中的一种经典深度学习方法，采用了多尺度检测框架，但是该算法主要依靠Conv4_3层来检测小目标，Conv4_3层属于低级特征，语义区分性较差，存在特征提取不充分的问题，因此SSD算法对小目标的检测效果较差。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种加强SSD小目标行人检测性能的网络结构及检测方法，此网络结构及检测方法可显著提高对小目标行人的检测性能。

本发明的目的通过以下的技术方案实现：

一种加强SSD小目标行人检测性能的网络结构，包括：

预处理模块，用于统一样本尺寸和样本扩增；

基础网络模块，用于提取样本的浅层特征；

附加特征提取模块，用于提取样本的深层特征；

两级特征融合模块，用于将深层特征与浅层特征融合；

分类和回归模块，用于计算损失，实现分类和行人框的回归。

此网络结构是在SSD算法网络结构的基础上进行改进，引入两级特征融合策略，通过引入两级特征融合模块把深层网络的特征融合到浅层网络的特征中，以提升浅层特征的表示能力，增强对小目标行人的检测性能。

优选的，所述基础网络模块采用VGG16内置网络，其Conv4_3作为浅层特征提取层。

更进一步的，所述附加特征提取模块，其Fc7、Conv6_2、Conv7_2、Conv8_2、Conv9_2作为深层特征提取层。

更进一步的，所述两级特征融合模块，用于将Fc7、Conv6_2、Conv7_2、Conv8_2、Conv9_2的特征信息融合到Conv4_3中。

第一级融合，先将Conv4_3经过3×3卷积并以ReLU(修正线性单元)方式激活，再将Fc7、Conv6_2、Conv7_2、Conv8_2、Conv9_2分别经过3×3卷积、ReLU方式激活以及双线性插值操作，使其与Conv4_3尺度一致；然后将经过卷积、激活和插值操作的五个特征提取层分别与经过卷积、激活操作的Conv4_3按照Eltwise-SUM(相加合并)方式融合在一起，即将特征图对应位置单元(Cell)进行相加，得到五个融合层；最后，将每一个融合层再次以ReLU方式激活，并进行BatchNorm(批量归一化)操作；

第二级融合，将所得的五个融合特征层按照Eltwise-SUM方式融合，即将每个特征图对应位置单元进行相加，得到新的融合层，然后再将新融合层以ReLU方式激活，并进行BatchNorm操作，得到最终的两级特征融合层。

一种加强SSD小目标行人检测性能的检测方法，包括以下训练步骤：

获取用于小目标行人检测的训练样本集，并转化为深度学习框架可以直接读取的格式；

初始化训练模型，对训练样本进行预处理；

提取样本的浅层特征和深层特征，将深层特征的信息融合到浅层特征中，形成多尺度检测框架；

计算损失并反向传播，进行网络参数的迭代更新；

完成网络训练。

优选的，所述初始化训练模型过程中设置模型训练参数，包括预训练模型、模型迭代次数、学习率、优化方法、算法训练的batch size(批尺寸)、batch size个数、分类IOU(交并比)阈值、初始迭代次数。

更进一步的，对训练样本进行预处理包括将样本尺寸统一并采用缩放、翻转、切块的操作对训练样本集进行扩充。

优选的，将经过预处理的样本通过基础网络模块提取浅层特征，通过附加特征提取模块提取深层特征，采用两级特征融合策略，将深层特征与浅层特征融合。

更加进一步的，选取基础网络模块的Conv4_3作为浅层特征提取层，选取附加特征提取模块的Fc7、Conv6_2、Conv7_2、Conv8_2、Conv9_2作为深层特征提取层，形成多尺度检测框架，将深层特征与浅层特征融合的具体步骤为：

第一级融合，将基础网络模块中的Conv4_3分别与附加模块中的Fc7、Conv6_2、Conv7_2、Conv8_2、Conv9_2进行融合，得到五个融合特征层；

第二级融合，将上述五个特征融合层进行融合，得到最终的两级特征融合层，用以替代浅层特征Conv4_3，形成新的多尺度检测框架。

更进一步的，两级特征融合模块的第一级特征融合方法具体如下：先将Conv4_3经过3×3卷积并以ReLU方式激活，再将Fc7、Conv6_2、Conv7_2、Conv8_2、Conv9_2分别经过3×3卷积、ReLU方式激活以及双线性插值操作，使其与Conv4_3尺度一致；然后将经过卷积、激活和插值操作的五个特征提取层分别与经过卷积、激活操作的Conv4_3按照Eltwise-SUM方式融合在一起，即将特征图对应位置单元进行相加，得到五个融合层；最后，将每一个融合层再次以ReLU方式激活，并进行BatchNorm操作。

更进一步的，所述两级特征融合模块的第二级特征融合是指将所得的五个融合特征层按照Eltwise-SUM方式融合，即将每个特征图对应位置单元进行相加，得到新的融合层，然后再将新融合层以ReLU方式激活，并进行BatchNorm操作。

优选的，迭代更新过程中，将两级特征融合层和Fc7、Conv6_2、Conv7_2、Conv8_2、Conv9_2送入分类和回归模块，计算损失；利用优化方法将损失进行反向传播，更新基础网络模块、附加特征提取模块和两级特征融合模块中的网络系数，即各神经元之间的连接权重以及偏置，经过初始化中确定的迭代次数后完成网络训练。

更进一步的，分类和回归模块中总的损失为分类损失和回归损失的加权和。

优选的，所述检测方法还包括测试阶段，用训练好的网络检测测试图像中的行人目标，包括步骤：

获取用于小目标行人检测的测试样本集，并转化为深度学习框架可以直接读取的格式；

设置模型测试参数；

通过预处理模块将测试图像尺寸调整为与训练样本相同尺寸；

将预处理后的测试图像送入训练完成的网格结构，得到图像中的所有行人框顶点坐标以及每个框的行人类别置信度；

完成测试。

本发明与现有技术相比，具有如下优点和有益效果：

本发明在SSD算法基础上，创造性地提出了一种加强SSD算法小目标行人检测性能的网络结构及检测方法，通过引入两级特征融合策略，利用特征层之间的上下文信息，将深层网络信息有效地融合到浅层网络中，可显著提高对小目标行人的检测性能。

附图说明

图1是本发明网络结构总框图。

图2是本发明第一级融合网络结构图。

图3是本发明第二级融合网络结构图。

图4是本发明实施例模型训练部分的流程框图。

图5是本发明实施例模型测试部分的流程框图。

图6(a)是本发明实施例检测方法与SSD算法在Caltech数据集上、当分类IOU阈值设为0.5时测试结果的FPPI-Miss rate(False Positive Per Image vs Missing Rate，平均每幅图像误检率-漏检率)曲线，其中所检测的行人高度大于30像素。

图6(b)是本发明实施例检测方法与SSD算法在Caltech数据集上、当分类IOU阈值设为0.5时测试结果的FPPI-Miss rate曲线，其中所检测的行人高度大于30且小于50像素。

具体实施方式

为了更好的理解本发明的技术方案，下面结合附图详细描述本发明提供的实施例，但本发明的实施方式不限于此。

实施例

一种加强SSD小目标行人检测性能的网络结构及检测方法，其网络结构包括预处理模块、基础网络模块、附加特征提取模块、两级特征融合模块、分类和回归模块；其检测方法基于网络结构，包括模型训练和测试两部分，训练和测试部分的网络结构相同。图1所示为算法的网络结构总框图。

下面以在Caltech行人数据集上的训练和测试作为实施例来详细介绍本发明的实施过程。Caltech行人数据集中的图像来源于车载摄像机，分辨率为640×480，共含250000帧图像，350000个行人框，分为Set00-Set10共11个子数据集。实施例主要基于深度学习框架Caffe来实现，实验所用显卡为GTX1080Ti。

本发明的模型训练部分流程框图如图4所示，具体步骤如下：

第一步，将Caltech行人数据集中的Set00-Set05六个子数据集作为训练数据集，只采用标注框类型为“person”的行人框，去除数据集中所有没有行人的图片，最终训练图片共61439张，并将训练集转换成LMDB(轻量级内存映射数据库)格式。

第二步，将SSD算法在Caltech行人数据集上迭代120000次的模型作为预训练模型。设置模型迭代次数为40000次，0-19999次的学习率为0.005，20000-29999次的学习率为0.0005，30000-39999次的学习率为0.00005，优化方法为SGD(随机梯度下降法)，算法训练的批尺寸batch_size为16，每一次迭代批尺寸的个数iter_size为2，分类IOU阈值为0.5。设置模型初始迭代次数为0。

第三步，模型训练迭代次数加1，继续模型的训练。

第四步，从训练集中输入16张训练图片，由预处理模块将输入的图片尺度统一转化为300×300像素，并采用缩放、翻转、切块等操作对训练样本集进行扩充。

第五步，由基础网络模块对预处理后的训练图片进行浅层特征提取，并由附加特征提取模块来提取深层特征，选取Conv4_3、Fc7、Conv6_2、Conv7_2、Conv8_2、Conv9_2作为特征提取层，形成多尺度检测框架，用以检测不同尺度的行人。

第六步，由两级特征融合模块将Fc7、Conv6_2、Conv7_2、Conv8_2、Conv9_2的信息融合到Conv4_3中。首先是第一级融合，图2所示为第一级融合的网络结构图。先将Conv4_3经过3×3卷积并以ReLU(修正线性单元)方式激活，再将Fc7、Conv6_2、Conv7_2、Conv8_2、Conv9_2分别经过3×3卷积、ReLU激活以及双线性插值操作，使其与Conv4_3尺度一致；然后将经过卷积、激活和插值操作的五个特征提取层分别与经过卷积、激活操作的Conv4_3按照Eltwise-SUM方式融合在一起，即将特征图对应位置单元进行相加，得到五个融合层Fc7&Conv4_3、Conv6_2&Conv4_3、Conv7_2&Conv4_3、Conv8_2&Conv4_3、Conv9_2&Conv4_3。然后，将每一个融合层再次以ReLU方式激活，并进行BatchNorm(批量归一化)操作。

第七步，在第一级融合的基础上进行第二级特征融合，将第一级融合得到的五个融合特征层按照Eltwise-SUM(相加合并)方式融合，即将每个特征图对应位置单元进行相加，得到新的融合层，然后再将新融合层以ReLU方式激活，并进行BatchNorm操作，将新产生的融合层代替Conv4_3，与其他的五个特征提取层形成新的多尺度检测框架。图3所示为本发明两级融合中第二级融合的网络结构图。

第八步，由分类和回归模块对最终的多尺度特征提取层进行分类和行人框的回归，通过分类IOU(交并比)阈值来判定检测的正误，使用Softmax函数计算分类的损失，使用Smooth L1函数计算回归的损失，总的损失为分类损失和回归损失的加权求和。

第九步，判断是否完成2次16张图片的迭代，如果是则转到第十步，否则返回第四步继续训练。

第十步，求2次16张图片迭代训练所得损失的平均值，如果此损失为nan(非数值)，则放弃本次训练过程，否则将此损失作为模型每一次总迭代的损失，利用随机梯度下降法进行反向传播，更新基础网络模块、附加特征提取模块和两级特征融合模块中的网络系数。

第十一步，判定总迭代次数是否达到40000次，如果是则保存最终训练好的权重系数，结束模型的训练，否则返回第三步继续训练。

实施例将上述步骤得到的模型作为测试模型进行测试，测试阶段的网络结构与训练阶段的网络结构相同，测试部分的流程图如图5所示，具体步骤如下：

第一步，将Caltech行人数据集中的Set06-Set10六个子数据集作为算法的测试数据集，只采用标注框类型为“person”的行人框，去除数据集中所有没有行人的图片，最终训练图片共60748张，并将测试集转换成LMDB格式。

第二步，将本发明在Caltech数据集上训练40000次的模型作为测试模型，算法测试的批尺寸batch_size为1，测试的迭代次数test_iter为60748，设置算法的分类IOU阈值为0.5、置信度阈值为0.1、非极大值抑制阈值为0.45。

第三步，读取测试图片，并由预处理模块将所有的测试图像尺寸统一调整为300×300像素。

第四步，跟训练部分一致，预处理后的测试图像数据经过基础网络模块、特征提取模块、两级特征融合模块产生两级特征融合层，与其他的特征提取层形成用于测试的多尺度检测框架。

第五步，由分类和回归模块对新的测试多尺度检测框架进行分类和行人框的回归，通过分类IOU阈值来判定检测的正误，将置信度大于0.1的框保留，并进行非极大值抑制操作，得到测试图像中所有行人框的顶点坐标和行人类别置信度。

第六步，若测试图片已全部输入网络中进行测试，则模型测试完成，保存测试结果，否则返回第三步继续模型的测试。

表1所示为Caltech数据集的行人高度分布情况。当行人高度小于30像素时，由于分辨率太低，现有算法基本上都无法检测，因此本发明检测方法不作考虑。仅考虑高度大于30像素的行人，将其定义为All；进一步地，将高度在30-50像素区间的行人定义为Small，即小目标行人；将高度在50-80像素区间的定义为Medium，即中目标行人；将高度大于80像素的定义为Large，即大目标行人。由表1可知，Caltech数据集中小目标行人共有109042个，是所占比例最高的行人类别，因此该行人数据集比较适用于验证本发明所提出的小目标行人检测方法。

表1Caltech数据集的行人高度分布表

行人高度(像素)	行人类别定义	行人框数量(个)	所占比例(％)
				小于30	/	45965	16.10
大于30	All	239593	83.90
				30-50	Small	109042	38.19
50-80	Medium	84793	29.69
				大于80	Large	45758	16.02

实施例采用FPPI-Miss rate(False Positive Per Image vs Missing Rate，平均每幅图像误检率-漏检率)曲线来反映算法的检测性能，曲线横坐标是平均每幅图像误检率，纵坐标是漏检率，曲线越偏下表示行人检测性能越好。图6是本发明检测方法与SSD算法在Caltech数据集上、当分类IOU阈值设为0.5时测试结果的FPPI-Miss rate曲线。由图可见，无论是针对所有高度大于30像素的行人(图6(a))，还是针对高度在30-50像素区间的小目标行人(图6(b))，本发明检测方法获得的FPPI-Miss rate曲线均在SSD算法曲线的下方，体现了本发明检测方法性能的优越性，不仅对小目标行人的检测性能有所提升，对于中大目标的行人也有一定的检测优势。

进一步地，计算FPPI值分别为0.0100、0.0178、0.0316、0.0562、0.1000、0.1778、0.3162、0.5623、1.0000时所对应Miss rate的平均值，将其作为行人检测的平均漏检率，平均漏检率越低表示算法检测性能越好。表2是本发明检测方法与SSD算法在Caltech行人数据集上、当分类IOU阈值分别为0.25、0.5、0.75时的检测结果对比。

表2本发明检测方法与SSD算法的测试结果对比表

由表2可知，本发明检测方法与SSD算法的平均漏检率都会随着分类IOU阈值增加而升高，这是由于分类IOU阈值越大，检测条件越严格，漏检数量便会增加。当IOU阈值低至0.25的时候，本发明检测方法与SSD算法的平均漏检率都会大幅下降，但此时算法的误检率会大幅增加。为平衡漏检与误检的关系，算法的分类IOU阈值一般设置为0.5。对比表2中第三、第四列可知，无论分类IOU阈值取什么值，本发明检测方法的平均漏检率始终低于SSD算法，说明本发明检测方法相比于SSD算法具有更强的鲁棒性。特别地，对于Small行人类别，当分类IOU阈值为0.5时，本发明检测方法的平均漏检率较SSD算法提升了2.29个百分点，验证了本发明所提出的网络结构及检测方法对于小目标行人检测的有效性。这是由于两级特征融合模块的引入将深层网络的特征信息有效地融合到浅层网络中，加强了SSD算法对小目标行人检测性能。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种加强SSD小目标行人检测性能的网络结构，其特征在于，包括：

预处理模块，用于统一样本尺寸和样本扩增，所述样本为用于小目标行人检测的训练样本集；

基础网络模块，用于提取样本的浅层特征；

所述基础网络模块采用VGG16内置网络，其Conv4_3作为浅层特征提取层；

附加特征提取模块，其Fc7、Conv6_2、Conv7_2、Conv8_2、Conv9_2作为深层特征提取层；

两级特征融合模块，用于将Fc7、Conv6_2、Conv7_2、Conv8_2、Conv9_2的特征信息融合到Conv4_3中；

第一级融合，先将Conv4_3经过3×3卷积并以ReLU方式激活，再将Fc7、Conv6_2、Conv7_2、Conv8_2、Conv9_2分别经过3×3卷积、ReLU方式激活以及双线性插值操作，使其与Conv4_3尺度一致；然后将经过卷积、激活和插值操作的五个特征提取层分别与经过卷积、激活操作的Conv4_3按照Eltwise-SUM方式融合在一起，即将特征图对应位置单元进行相加，得到五个融合层；最后，将每一个融合层再次以ReLU方式激活，并进行BatchNorm操作，得到五个融合特征层；

第二级融合，将所得的五个融合特征层按照Eltwise-SUM方式融合，即将每个特征图对应位置单元进行相加，得到新的融合层，然后再将新融合层以ReLU方式激活，并进行BatchNorm操作，得到最终的两级特征融合层；

附加特征提取模块，用于提取样本的深层特征；

两级特征融合模块，用于将深层特征与浅层特征融合；

分类和回归模块，用于计算损失，实现分类和行人框的回归；

计算损失并反向传播，进行网络参数的迭代更新，迭代更新过程中，将两级特征融合层和Fc7、Conv6_2、Conv7_2、Conv8_2、Conv9_2送入分类和回归模块，计算损失，分类和回归模块中总的损失为分类损失和回归损失的加权和；利用优化方法将损失进行反向传播，所述优化方法为随机梯度下降法，更新基础网络模块、附加特征提取模块和两级特征融合模块中的网络系数，即各神经元之间的连接权重以及偏置，经过初始化中确定的迭代次数后完成网络训练；

由分类和回归模块对最终的多尺度特征提取层进行分类和行人框的回归。

2.一种加强SSD小目标行人检测性能的检测方法，其特征在于，包括以下训练步骤：

初始化训练模型，对训练样本进行预处理；

将经过预处理的样本通过基础网络模块提取浅层特征，通过附加特征提取模块提取深层特征，采用两级特征融合策略，将深层特征与浅层特征融合；

选取基础网络模块的Conv4_3作为浅层特征提取层，选取附加特征提取模块的Fc7、Conv6_2、Conv7_2、Conv8_2、Conv9_2作为深层特征提取层，形成多尺度检测框架，将深层特征与浅层特征融合的具体步骤为：

第二级融合，将上述五个融合特征层进行融合，得到最终的两级特征融合层，用以替代浅层特征Conv4_3，形成新的多尺度检测框架；

两级特征融合模块的第一级特征融合方法具体如下：先将Conv4_3经过3×3卷积并以ReLU方式激活，再将Fc7、Conv6_2、Conv7_2、Conv8_2、Conv9_2分别经过3×3卷积、ReLU方式激活以及双线性插值操作，使其与Conv4_3尺度一致；然后将经过卷积、激活和插值操作的五个特征提取层分别与经过卷积、激活操作的Conv4_3按照Eltwise-SUM方式融合在一起，即将特征图对应位置单元进行相加，得到五个融合层；最后，将每一个融合层再次以ReLU方式激活，并进行BatchNorm操作；

所述两级特征融合模块的第二级特征融合是指将所得的五个融合特征层按照Eltwise-SUM方式融合，即将每个特征图对应位置单元进行相加，得到新的融合层，然后再将新融合层以ReLU方式激活，并进行BatchNorm操作；

计算损失并反向传播，进行网络参数的迭代更新；

迭代更新过程中，将两级特征融合层和Fc7、Conv6_2、Conv7_2、Conv8_2、Conv9_2送入分类和回归模块，计算损失，分类和回归模块中总的损失为分类损失和回归损失的加权和；利用优化方法将损失进行反向传播，所述优化方法为随机梯度下降法，更新基础网络模块、附加特征提取模块和两级特征融合模块中的网络系数，即各神经元之间的连接权重以及偏置，经过初始化中确定的迭代次数后完成网络训练；

由分类和回归模块对最终的多尺度特征提取层进行分类和行人框的回归；

完成网络训练。

3.根据权利要求2所述的检测方法，其特征在于，所述初始化训练模型过程中设置模型训练参数，包括模型迭代次数、学习率、算法训练的batch size、batch size个数、分类IOU阈值、初始迭代次数；

对训练样本进行预处理包括将样本尺寸统一并采用缩放、翻转、切块的操作对训练样本集进行扩充。

4.根据权利要求2所述的检测方法，其特征在于，所述检测方法还包括测试阶段，用训练好的网络检测测试图像中的行人目标，包括步骤：

设置模型测试参数；

完成测试。