CN110751005B

CN110751005B - 融合深度感知特征和核极限学习机的行人检测方法

Info

Publication number: CN110751005B
Application number: CN201810814395.7A
Authority: CN
Inventors: 孙锐; 王慧慧; 叶子豪; 高隽
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2022-09-30
Anticipated expiration: 2038-07-23
Also published as: CN110751005A

Abstract

本发明公开了一种融合深度感知特征和核极限学习机的行人检测方法，其步骤包括：1构建包含两部分的DAGnet神经网络；2利用预处理后的样本对DAGnet卷积神经网络进行训练，得到DAGnet模型；3利用DAGnet模型得到深度感知特征向量；4利用深度感知特征向量对核极限学习机进行训练得到行人识别模型；5对核极限学习机进行泛化性能估计；6利用DAGnet模型学习到第二级特征图和GVBS显著性检测算法得到测试图像的显著图，并标注测试图像中行人的大致区域；7利用多尺度滑动窗口对大致区域进行扫描，得到窗口所在区域的深度特征向量；8利用行人识别模型识别该区域是否含有行人。本发明能获取较好的检测性能，有效提高行人检测的精度和速度，具有较好的稳健性。

Description

融合深度感知特征和核极限学习机的行人检测方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种融合深度感知特征和核极限学习机的行人检测方法。

背景技术

随着无人驾驶的发展，作为智能交通识别系统中重要的技术之一的行人检测，具有重大的研究价值。行人检测算法的目的是实时的检测出现在图像里的行人，并用矩形框给出行人的位置。然而在不同场景下，光照，行人姿态的多样性，拍摄角度，以及场景中类似行人的其它物体等等使行人检测技术面临巨大的挑战。

行人检测技术主要分为两个模块：目标特征提取和分类器设计。应用于行人检测的特征主要有：①Haar_like特征②HOG特征③SIFT特征，常用的分类学习方法有Adaboost集成学习、支持向量机(Support Vector Machine,SVM)，神经网络(Neural Network,NN)。这些手动设计的浅层特征，具有针对性，同时也存在局限性和鲁棒性低的缺点。

卷积神经网络是由传统的神经网络发展而来，但相比于传统的神经网络，主要有这几方面的优势：⑴CNN网络结构不需要人为设计待提取的特征，它能自主的捕获到更能表达行人的特征。⑵CNN采用权值共享，使得训练参数锐减，大幅度提高了计算速率，是一种非全连接的神经网络结构。⑶在视觉识别方面，CNN分层提取特征方式与人的视觉机理(神经科学)类似，对特定部分有着视觉敏感性，都是从边缘到局部到整体的历程。但随着网络的层层递进，一些显著的特征会丢失，且卷积神经网络算法中由全连接层组成的分类器泛化能力弱，计算速度慢。在交通监测系统中，精度和检测速度是评估一个算法成败的关键，目前的很多算法都停留在在网络结构上长度加深或横向加厚，致使网络结构繁琐，训练复杂，测试速度缓慢。

发明内容

本发明为克服上述现有技术中存在的问题，提出一种融合深度感知特征和核极限学习机的行人检测方法，以期能获取较好的检测性能，从而有效提高行人检测的精度和速度。

本发明为解决技术问题采用如下技术方案：

本发明一种融合深度感知特征和核极限学习机的行人检测方法的特点是按如下步骤进行：

步骤1、从行人数据集中选取N/2个行人训练图像和N/2个非行人训练图像，并对所述N/2个行人训练图像和N/2个非行人训练图像分别进行预处理，获得N/2个行人正样本训练图像和N/2个行人负样本训练图像，由所述N/2个行人正样本训练图像和N/2个行人负样本训练图像构成N个样本训练图像；

步骤2、构建包含两部分的DAGnet神经网络

步骤2.1、构建DAGnet神经网络的第一部分结构

将所述N个样本训练图像经过第一层卷积层学习得到第一级特征图，再将所述第一级特征图分别经过第一层平均池化层和第一层block结构，得到第一池化层特征图和第一block结构特征图；将所述第一池化层特征图和第一block结构特征图进行特征融合，得到第二级特征图；所述block结构包括两层卷积层和一层平均池化层；

步骤2.2、构建DAGnet神经网络的第二部分结构

将所述第二级特征图经过第二层卷积层学习得到第三级特征图，将所述第三级特征图分别经过第二层平均池化层和第二层block结构，得到第二池化层特征图和第二block结构特征图；将所述第二池化层特征图和第二block结构特征图进行特征融合，得到第四级特征图；

步骤2.3、将所述第四级特征图经过第三层卷积层、第三层平均池化层和全连接层的学习，分别得到所述N个样本训练图像的预测标签，从而完成所述DAGnet神经网络的构造；

步骤3、利用所述N个样本训练图像对构造的DAGnet神经网络进行训练，并采用标准差为σ的正态分布随机初始化第一层卷积层的权重，且在训练过程中利用梯度下降法和BP反向传播算法对所述DAGnet神经网络的参数进行更新优化，从而得到DAGnet模型；

步骤4、利用所述DAGnet模型对所述N个样本训练图像提取第三层平均池化层的特征信息数据，从而获得所述N个训练样本图像的深度感知特征向量；再对所述深度感知特征向量进行归一化处理，得到归一化后的深度感知特征向量；

步骤5、利用所述归一化后的深度感知特征向量和所述预测标签对核极限学习机进行训练，得到行人识别模型；

步骤6、采用K-折交叉验证的方法对所述核极限学习机进行泛化性能估计，从而确定核极限学习机的最优参数；

步骤7、对待检测的测试图像进行归一化处理，得到预处理后的测试图像，利用所述DAGnet模型获取预处理后的测试图像的第二级特征图；

步骤8、采用线性融合的方式将所述第二级特征图中的各通道的特征信息进行融合，得到新的特征图；利用GVBS显著性检测算法对所述新的特征图进行显著性检测处理，得到显著图；再根据所述新的特征图和预处理后的测试图像的空间映射比例关系，将所述显著图中的显著区域的映射到预处理后的测试图像中，从而在预处理后的测试图像中标注行人的大致区域；

步骤9、采用多尺度滑动窗口对所标注行人的大致区域进行扫描，在扫描过程中的每个滑动窗口所在区域均利用所述DAGnet模型提取相应的深度感知特征向量，从而得到窗口所在区域的深度感知特征向量；

步骤10、将所述窗口所在区域的深度感知特征向量输入所述行人识别模型中，从而得到所有含有行人的窗口所在区域；

步骤11、对所有含有行人的窗口所在区域进行筛选，从而得到所述测试图像中的行人所在位置。

与已有技术相比，本发明有益效果体现在：

1、本发明首先在CNN的基础上构造一个DAGnet网络结构，分别将第一级特征和第二级特征图融合，第三级特征图和第四级特征图融合，构成初级-中级，中级-高级特征相结合的特征学习过程，采用BP反向传播算法微调参数，利用训练好的模块提取第三层平均池化层的特征信息，通过实验证实提取的特征更具有区分度。后融入核极限学习机这一技术来弥补由全连接层在内组成的分类器泛化能力一般，参数较复杂，速度慢这一缺陷，并充分利用图像的感知特征表示向量的信息实现行人分类。在检测阶段为了减少候选区域的产生，将利用DAG网络第一部分学习到的第二级特征图，利用GVBS显著性检测算法对所述新的特征图进行显著性检测处理，再根据所述新的特征图和预处理后的测试图像的空间映射比例关系，将所述显著图中的显著区域的映射到预处理后的测试图像中，从而在预处理后的测试图像中标注行人的大致区域；进而解决了在复杂交通环境下的行人检测问题，提高了行人识别的精度和速度，实现了一种高效的行人识别算法；

2、本发明采用卷积神经算法。卷积神经网络不需要认为设计待提取的特征，它能自主学习到图像的深层感知特征信息，对行人姿势多变，光照变化等具有较强的稳健性，且在网络结训练时损失函数采用改进的Large-Margin softmax loss(L-softmax loss)，有效地引导网络学习使得类内距离较小，类间距离较大的特征信息；从而减少了卷积神经网络中浅层主要特征的损失，提高了学习到的深度感知特征的识别能力。

3、本发明采用多级特征结合的方法，因为随着层数的增加，有些特征会丢失，而本发明分别将第一级特征图和第二级特征图，第三级特征图和第四级特征图融合成的新的特征向量来学习，从而得到的特征向量能够更好的有效表达复杂环境下的行人，更具有区分度；

4、本发明采用核极限学习机分类算法解决行人分类识别问题，核极限学习机是分类速度快，学习参数少的高效分类器，且核极限学习机对深度特征有更好得区分性。高斯核函数可以有效提高数据的区分性，提高行人分类识别的辨别力；

5、本发明利用基于K-折交叉验证，对核极限学习机的参数进行学习，从而实现了参数最优化和模型更具有泛化性；

6、本发明利用的卷积神经网络结构简单，大大缩短了计算时间，且核极限学习机检测速度快，整个模块在检测速度和精度上都提高了大幅度提高。

7、在检测阶段，利用DAGnet网络学习到的第二级特征图和GVBS显著性检测算法，标注测试图像中行人的大致区域，采用多尺度滑动窗口时不再扫描整幅图像，只需在测试图像标注好的显著区域扫描，减少了很多候选区域的产生，从而进一步提高了检测速度。

附图说明

图1为本发明的算法流程图；

图2本发明的卷积神经网络结构示意图；

图3本发明的极限学习机的结构示意图。

具体实施方式

本实施例中，如图1所示，应用于深度学习和核极限学习机的融合深度感知特征和核极限学习机的行人检测算法包括以下步骤：

从行人数据库中，获得需要的训练样本图像，利用预处理后的样本对构建好的DAGnet卷积神经网络，完成训练；利用训练好的网络模型，对训练样本提取图像深度感知特征向量；将获取的特征数据输入核极限学习机分类器，完成训练；基于K-折交叉验证微调KELM中的参数，实现参数最优化；在检测阶段对待测的行人图像进行预处理，得到测试样本，首先利用DAG网络中第一部分学习到的第二级特征图，经过GVBS显著性检测算法后，得到测试图像的显著图，根据显著区域，快速标注测试图像中行人的大致区域，后在标注区域利用多尺度滑动窗口算法，用同样的方式获取窗口所在区域的特征向量，利用训练好的核极限学习机来识别该区域是否含有行人。具体地说，是按如下步骤进行：

步骤1、从行人数据集中选取N/2个行人训练图像和N/2个非行人训练图像，并对N/2个行人训练图像和N/2个非行人训练图像分别进行归一化预处理，获得分辨率为96×160的N/2个行人正样本训练图像和N/2个行人负样本训练图像，由N/2个行人正样本训练图像和N/2个行人负样本训练图像构成N个样本训练图像；

步骤2、如图2所示，构建包含两部分的DAGnet神经网络

步骤2.1、构建DAGnet神经网络的第一部分结构

将N个样本训练图像经过第一层卷积层学习得到第一级特征图，再将第一级特征图分别经过第一层平均池化层和第一层block结构，得到第一池化层特征图和第一block结构特征图；将第一池化层特征图和第一block结构特征图进行特征融合，得到第二级特征图；block结构包括两层卷积层和一层平均池化层；

步骤2.2、构建DAGnet神经网络的第二部分结构

将第二级特征图经过第二层卷积层学习得到第三级特征图，将第三级特征图分别经过第二层平均池化层和第二层block结构，得到第二池化层特征图和第二block结构特征图；将第二池化层特征图和第二block结构特征图进行特征融合，得到第四级特征图；

步骤2.3、将第四级特征图经过第三层卷积层、第三层平均池化层和全连接层的学习，分别得到N个样本训练图像的预测标签，从而完成DAGnet神经网络的构造；

DAGnet网络结构中，每一层卷积层后面都跟有归一化层和激活函数层，本实施例选用leakyRelu作为激活函数，因为它能改善Relu函数在训练过程中使某些神经元无效，leakyRelu既能修正数据分布，又保留一些负轴的值，使得负轴信息不会全部丢失，本实施例DAGnet网络中的损失函数采用改进的large-marin softmax(L-Softmax)loss，能够有效地引导网络学习使得类内距离较小、类间距离较大的特征；

步骤3、利用N个样本训练图像对构造的DAGnet神经网络进行训练，并采用标准差为σ的正态分布随机初始化第一层卷积层的权重，且在训练过程中利用梯度下降法和BP反向传播算法对DAGnet神经网络的参数进行更新优化，从而得到DAGnet模型；本实施例中训练DAGnet网络的MiniBatchSize设置为100，MaxEpochs设置为40；

步骤4、利用DAGnet模型对N个样本训练图像提取第三层平均池化层的特征信息数据，从而获得N个训练样本图像的深度感知特征向量；再对深度感知特征向量进行归一化处理，得到归一化后的深度感知特征向量；归一化范围为[-11]；

目前，应用于行人检测领域的特征提取方法很多，但都是基于手动设计的浅层特征，具有针对性，同时也存在局限性和鲁棒性低的缺点。CNN特征是现阶段性能较好的特征提取方法，它能够自主的学习图片里的特征信息，无需手动设计特征，CNN分层提取特征方式与人的视觉机理(神经科学)类似，对特定部分有着视觉敏感性，因此应用广泛。将原始图片放入训练好的CNN模型中，每一层都能得到学习到的特征图。但随着网络层的增加，一些显著特征在向后传播过程中丢失，从而影响分类效果。本文在CNN基础上，将初级-中级，中级-高级融合成的新的特征向量来学习，减少了浅层主要特征的损失，提高了学习到的深度感知特征的识别能力。

步骤5、利用归一化后的深度感知特征向量和预测标签对核极限学习机进行训练，得到行人识别模型；本实施例中核极限学习机的核函数选择的是RBF核函数；

将N个训练样本的归一化后深度感知特征向量

其中及标签带入公式(2)学习:

式中x_i为样本输入值，

其中t_i是样本期望输出值，C是惩罚因子系数，Ω_ELM＝ΗΗ^Τ,Η为隐层输出矩阵，

所以需要确定参数C和δ的最优值；

核极限学习机是在极限学习机的基础上优化，如图3所示，是极限学习机的结构示意图，核极限学习机则是将隐层节点的输出向量

转化为支持向量机的核函数映射，即

在分类和回归问题上均具有很好的泛化性能和分类精度。

步骤6、为实现核极限学习机中参数最优化，采用K-折交叉验证的方法对每个参数进行泛化性能估计，从而确定最优参数；本实施例中核极限学习机中参数C和δ；

步骤6.1、首先对所有训练样本的特征向量分为5份，采取隔样本挑选一个样本，成功划分样本集后，选取其中4份作为训练集，剩下一份作为测试集，依次轮换测试集和训练集5次，保证每份都作为测试集；

步骤6.2、随机生成多个参数对，对每个参数对，做如下验证：

步骤6.2.1、在目标函数上，按照步骤10.1划分数据集，按照步骤5，6，7，8，分别求得每份样本作为测试集的正确率，共5个；

步骤6.2.2、求取5个正确率的平均值，作为本次参数解的质量；

步骤6.2.3、根据解得质量由好到坏进行排序选取其中较好的一部分解对应的参数，在此参数基础上加上一个随机参数，得到一些新解；

步骤6.2.4、把新解和老解的质量进行比较，选取其中质量较好的一部分，作为下次迭代的初始解；

步骤6.2.5、按照步骤6.2.1，6.2.2，6.2.3和6.2.4做多次迭代；

步骤6.3、最终选取核极限学习机的最优解的参数，按照步骤5训练核极限学习机；

步骤7、对待检测的测试图像进行归一化处理，得到预处理后的测试图像，利用DAGnet模型获取预处理后的测试图像的第二级特征图；本实施例中测试图像的分辨率为640×480；

步骤8、采用线性融合的方式将第二级特征图中的各通道的特征信息进行融合，得到新的特征图；利用GVBS显著性检测算法对新的特征图进行显著性检测处理，得到显著图；再根据新的特征图和预处理后的测试图像的映射比例关系，将显著图中的显著区域的映射到预处理后的测试图像中，从而在预处理后的测试图像中标注行人的大致区域；

GBVS算法生物体视觉注意机制的选择性注意算法，在显著图生成的过程引入马尔可夫连，用纯数学计算的来得到显著值。本实施例将预处理后的测试图像的第二级特征图作为GBVS算法的输入图像

步骤9、采用多尺度滑动窗口对所标注行人的大致区域进行扫描，在扫描过程中的每个滑动窗口所在区域均利用DAGnet模型提取相应的深度感知特征向量，从而得到窗口所在区域的深度感知特征向量；

每滑动一次，将该窗口所在区域缩放为分辨率为96×160的图像，利用训练好的DAGnet模型提取相应的深度感知特征向量；

步骤10、将窗口所在区域的深度感知特征向量输入行人识别模型中，从而得到所有含有行人的窗口所在区域；

本实施例中，根据图片中行人大小，设置5个不同的尺度窗口对测试图片的显著区域进行扫描，窗口滑动步长设置为15个像素；

步骤11、对所有含有行人的窗口所在区域进行筛选，从而得到测试图像中的行人所在位置。在采用多尺度滑动窗口来检测行人时，因所采用的检测窗口一般大于行人目标，可能会出现多个窗口都包含目标，合并的原则为：若两个相互重叠的检测窗口的相交面积与两个窗口中较小的面积的比值大于一个阈值，本文阈值设置为0.6，则选择输出分数较高的窗口。

Claims

1.一种融合深度感知特征和核极限学习机的行人检测方法，其特征是按如下步骤进行：

步骤2、构建包含两部分的DAGnet神经网络

步骤2.1、构建DAGnet神经网络的第一部分结构

步骤2.2、构建DAGnet神经网络的第二部分结构

步骤4、利用所述DAGnet模型对所述N个样本训练图像提取第三层平均池化层的特征信息数据，从而获得所述N个样本训练图像的深度感知特征向量；再对所述深度感知特征向量进行归一化处理，得到归一化后的深度感知特征向量；