CN110287798A

CN110287798A - 基于特征模块化和上下文融合的矢量网络行人检测方法

Info

Publication number: CN110287798A
Application number: CN201910447819.5A
Authority: CN
Inventors: 魏运; 田青; 仝淑贞
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2019-09-27
Anticipated expiration: 2039-05-27
Also published as: CN110287798B

Abstract

一种基于特征模块化和上下文融合的矢量网络行人检测方法，本方法通过构造精细的行人模板，利用模板匹配法实现行人部件分割，并根据构造的加权平均损失函数对分割后的部件筛选，保留的部件经过重组得到可能存在行人的区域。为了利用场景辅助信息优化检测结果，对行人和场景之间的布局关系进行表征，将局部行人信息与全局场景信息以势能函数的形式整合，并进行优化求解，进一步对可能存在行人的区域进行判别，再对保留的结果通过卷积特征提取、卷积特征分组组合将传统二维特征组合为新型三维特征，并通过构造矢量激活函数使得网络权值、网络输出也以矢量表示，搭建起用于精确行人检测的矢量网络，最终通过输出的矢量信息获得行人检测结果。

Description

基于特征模块化和上下文融合的矢量网络行人检测方法

技术领域

本发明属智能检测领域，尤其涉及一种基于特征模块化和上下文融合的矢量网络行人检测方法。

背景技术

行人检测是利用计算机视觉技术判断图像或者视频序列中是否存在行人并给予精确定位。该技术可以与行人跟踪、行人重识别等技术结合，应用于智能视频监控、人工智能系统、智能交通、安防等领域。在实际场景中，可广泛应用于地铁、车站、博物馆、广场、商场、公园等重要场所及人流密集区域，能够实现对行人的实时检测、个体特征及群体特征与参数的提取等功能，可为基于行人检测的数据采集、异常信息提取、客流统计与预警、商业分析等系统提供数据获取手段，本发明革新了传统视频监控仅仅进行录像存储的现状，是对监控手段的智能化升级，也是智慧城市的重要体现所在。

国内外很多大学和科研机构也均对行人检测进行过研究，并取得了一定的研究成果。传统行人检测方法通过人为构造特征，采用滑窗法对窗内信息进行特征相似性度量实现行人检测，比较有代表性的是Haar特征和HOG特征，这些特征的构造十分依赖专业人员的经验，而行人目标具有多姿势、易受遮挡、受光线条件影响的特点，使得构造的特征难以保证鲁棒性，在实际应用中十分受限。而随着深度学习技术的进步，推动着目标检测技术向着更快、更准的方向发展。现在已经有许多深度学习算法被应用于行人检测，如Faster R-CNN、SSD、Yolo系列等，采用特征自动提取的方式，在特定场景下取得了较好的检测效果。但现有深度学习算法对行人特征的表征仍然十分有限，在密集行人场景中，行人因遮挡而导致局部信息不完整，特征难以被充分提取，使得漏检和误检较为严重。现有的深度学习算法框架设计上很少考虑局部行人信息和场景全局信息的位置关系，当存在光线和阴影影响时，检测结果容易产生语义上的不一致。现有的特征提取方式虽然可以很好的表征轮廓、颜色等明显的行人信息，但还不足以完全表征行人局部信息，现有算法大多是基于标量的设计，损失了部分方向性信息，限制了检测精度的进一步提升。

综上，为了进一步提高行人检测的精度，就需要对局部信息缺失的行人进行更充分的特征提取、对局部行人与全局场景信息更加合理的利用以及研究新的更具鲁棒性的特征表征方式。

发明内容

为了克服上述缺陷，本发明的目的是提供一种基于特征模块化和上下文融合的矢量网络行人检测方法，可以克服现有深度学习算法用于行人检测易受光照、遮挡干扰的问题，提高算法本身特征表征能力，实现包括晚上、密集行人等各种环境下的准确行人检测，可满足复杂环境下及客流密集区域的行人检测及统计。

为达到上述目的，本发明的技术解决方案是一种基于特征模块化和上下文融合的矢量网络行人检测方法，该方法通过构造精细的行人模板，利用模板匹配法实现行人部件分割，并根据构造的加权平均损失函数对分割后的部件筛选，保留的部件经过重组得到可能存在行人的区域。在此基础上，为了利用场景辅助信息优化检测结果，对行人和场景之间的布局关系进行表征，通过条件随机场建模将局部行人信息与全局场景信息以势能函数的形式整合，采用平均场近似理论进行优化求解，进一步对可能存在行人的区域进行判别，再对保留的结果通过卷积特征提取、卷积特征分组组合将传统二维特征组合为新型三维特征，并通过构造矢量激活函数使得网络权值、网络输出也以矢量表示，搭建起用于精确行人检测的矢量网络，最终通过输出的矢量信息获得行人检测结果。

具体如下：

一种基于特征模块化和上下文融合的矢量网络行人检测方法及装置，步骤包括：

1)进行行人图像采集，根据预先设定好的精细化行人模板，如图1所示，采用模板匹配法将感兴趣区域分割为多个行人部件，判断各部件是否为行人关键模块，行人关键模块是指能明显表明行人目标的人体部分；

如果判别为否，直接滤除该部件所在区域；

如果判别为是，保留该部件像素信息及位置信息，进入步骤2)；

2)对保留的所有行人关键模块以整体的形式，利用位置信息计算关键模块所在区域中心点之间的欧式距离、关键模块内部像素信息，构造加权平均损失函数，优化该函数从而将行人关键模块重组为可能存在行人的区域；

3)通过对行人随机移动特性的分析，对场景内行人和其他物体的位置关系进行布局表征，根据条件随机场理论进行建模，将疑似区域被分配为行人区域标签的能量作为一元能量项，将反映疑似区域标签与场景内物体标签关系的能量作为二元能量项，对行人与场景内物体的布局关系进行表征，将局部行人和全局场景信息融合。

4)由于构建的条件随机场模型在求解时存在大量的相乘相加运算，通过比较每一步运算与卷积计算的相似性，运用平均场近似理论将条件随机场的优化求解问题转化为卷积神经网络的优化求解问题，采用训练的方式快速优化该模型，并根据优化结果对行人疑似区域进一步判断是否为行人；

如果判别为否，直接滤除该疑似区域；

如果判别为是，保留该区域信息，然后进入步骤5)；

5)在传统卷积神经网络的基础上，为了提取图像中的方向性信息，删减掉网络中的池化层，对保留的区域信息仅提取图像卷积特征，按一定规则对同一层的卷积特征进行分组，以维度拓展的方式，将组内多个二维卷积特征合成为一个三维矢量特征，实现行人特征的矢量化表征；

6)构造矢量激活函数引入非线性性质并对有效行人特征进行响应，使得网络层间权值也以矢量形式表达，充分保留方向性信息；

7)按照步骤5)6)搭建起矢量网络，为了优化存在矢量的神经网络，根据矢量间的相似性度量，通过动态路由算法对网络进行训练，根据训练好的网络最终输出的矢量结果，继续对行人检测结果进行判断；

如果判别为否，直接滤除该结果；

如果判别为是，输出最终行人检测结果(检测结果以矩形目标检测框表示，包括其在在图像中的位置和大小)。

上述方法中，根据遮挡发生的各种情况，设置了三大类行人模板，共包含24种精细化的行人部件图，通过预先建立的行人样本集，训练生成对应各模板的分类器；在检测中加载该分类器可以实现行人关键模块识别。也可根据实际场景特点适当减少模板。

上述方法中，对分解后的行人关键模块重组时的各部件权值设计可以根据实际场景中的光照条件、摄像头架设位置进行预先设定，然后根据位置关系通过对加权平均损失函数优化后得到重组区域，也即行人疑似区域。

上述方法中，对行人与场景内其他物体的位置关系进行布局表征时，设计了左、右、上、下、里、外、远、近共8种位置关系，可根据实际场景中行人的运动及分布规律，适当减少布局表征的位置关系种类，但至少应包含左、右、上、下共4种位置关系。然后通过条件随机场重新建模和平均场理论优化后，得到更为准确的行人目标区域。

上述方法中，矢量网络的构造中对分组卷积核的设计，初始设置为每组8种卷积核，表征了相对较为理想条件下的浅层行人目标特征，输出为16维矢量。可根据外界环境的复杂度提高每组卷积核的种类(8～16种)，增加输出矢量维度(不超过32维)。

与现有技术相比，本发明可实现行人的高精度检测，能适应开放或封闭区域条件的个体行人特征及群体特征的提取，应用范围广泛，有利于提高客流管理服务及安全保障水平。

附图说明：

图1为行人分割模板示意图；

图2为二维特征合成为三维特征示意图；

图3为矢量网络示意图；

图4动态路由算法示意图；

图5为基于特征模块化和上下文融合的矢量网络行人检测方法流程图；

图6为基于特征模块化和上下文融合的矢量网络行人检测方法示意图；

图7所建立的彩色行人样本库示例。

具体实施方式

下面结合附图与具体实施方式对本技术方案进一步说明如下：

一种基于特征模块化和上下文融合的矢量网络行人检测方法，步骤包括：

1)进行行人图像采集，根据预先设定好的精细化行人模板；

采用模板匹配法将感兴趣区域分割为多个行人部件，判断各部件是否为行人关键模块，行人关键模块是指能明显表明行人目标的人体部分；

如果判别为否，直接滤除该部件所在区域；

2)利用位置信息计算关键模块所在区域中心点之间的欧式距离，利用关键模块局部像素信息计算特征相似度，构造加权平均损失函数，优化该函数，从而将行人关键模块重组为可能存在行人的区域；

如果判别为否，直接滤除该疑似区域；

如果判别为是，保留该区域信息，然后进入步骤5)；

6)构造矢量激活函数引入非线性性质并对有效行人特征进行响应，使得网络层间权值也以矢量形式表达，保留矢量特征中所含的方向性信息；

如果判别为否，直接滤除该结果；

如果判别为是，输出最终行人检测结果(检测结果以矩形目标检测框表示，包括其在图像中的位置和大小)。

所述步骤1)中，行人模板的设置根据被遮挡面积占行人所在矩形区域的比例r_occ，共考虑了三大类情况：①r_occ≤1/2；②1/2＜r_occ≤2/3，③2/3＜r_occ≤5/6。如图1所示，根据行人各关键部件对于行人检测重要性的不同，每种情况又划分了多种分割方式，便于加权重组为行人疑似区域。

所述步骤2)中，加权平均损失函数定义如下：

其中n为所有区域的数量，p_{i_x}，p_{j_x}，p_{i_y}，p_{j_y}分别表示区域i，j的中心坐标，I_pi和I_pj表示区域i，j的特征信息，ρ₁和ρ₂调整对位置信息和像素信息对重组的影响程度。

所述步骤3)中，根据行人与场景内物体可能存在的位置关系，按左、右、上、下、里、外、远、近的位置关系进行布局表征，然后在此基础上采用条件随机场建模。

条件随机场建模后的势能函数为：

其中，θ_i(x_i)是一元能量项，代表着将区域像素矩阵i内所有像素点被分成标签x_i的能量，二元能量项反映的是区域像素矩阵i与场景物体区域像素矩阵j之间的相对位置关系的符合程度。一元能量项来源于可能存在行人的区域信息，采用对数计算：

θ_i(x_i)＝-logP(x_i)

其中P(x_i)为像素点i被正确分配标签的概率；

二元能量项的计算方式为：

其中，当i≠j时，δ(x_i,x_j)＝1,当i＝j时，δ(x_i,x_j)＝0。其余部分的表达式为不同特征空间里的两个高斯核函数，第一个是基于双边高斯函数，与像素位置p和像素值I有关，用以限定有相似像素值的区域分布在同样的标签内，第二个是只考虑像素位置的平滑项。μ₁，μ₂用以调整两个高斯核函数之间的影响，超参数σ_α，σ_β，σ_γ控制核的权重。

所述步骤5)中，由于传统卷积特征在经过池化层会存在方向性信息丢失，为了保留这些对有利于准确检测的信息，删减池化层，并将传统卷积层中提取的卷积特征按一定规则分组，组间特征保持相互独立，组内特征作为一个整体来表征感兴趣区域在这组卷积核下的整体特性，将组内二维特征在第三个维度上堆叠实现维度拓展，合成为三维特征，如：组内的t个s×s的二维特征可堆叠成为s×s×t的三维特征，如图2所示。

所述步骤6)中，为了引入非线性及对有效特征作出响应，构造矢量激活函数：

其中，s_j为组合后的输出矢量，v_j为被激活的用于传递到下一层的矢量信息。

所述步骤7)中，搭建起的矢量网络如图3所示，算法示意图如图4所示。网络训练采用的动态路由算法的权值更新计算公式为：

u_j|i＝W_iju_i

b_ij＝b_ij+u_j|iv_j

其中，u_j|i反映了通过不同权重W_ij使得第i个卷积特征作线性变换。c_ij为组合线性变换后各特征的权值，也即b_ij的softmax函数，s_j为合成的新型矢量特征，v_j为被激活的矢量信息。

如图5所示，描述了基于特征模块化和上下文融合的矢量网络行人检测方法流程。首先进行彩色图像采集，获取某一监控区域的彩色图像，选择合适的精细行人模板，根据模板匹配法的匹配结果，判断疑似区域是否为关键模块。如果判别为否，直接滤除该疑似区域。如果判别为是，保留该区域信息并重组为行人疑似区。再对行人在场景内的位置关系进行布局表征，通过条件随机场建模及平均场理论优化，对各行人疑似区域进一步判断。如果判别为否，直接滤除该行人疑似区域。如果判别为是，保留该区域信息。通过设置好的卷积核种类、输出矢量维度，对保留的区域信息进行卷积特征提取，将二维卷积特征分组合成为三维特征，并采用矢量激活函数引入非线性和有效特征响应，由此构建起矢量网络，根据最终输出的矢量结果，确定最终检测结果(检测结果以矩形目标检测框表示，包括其在在图像中的位置和大小)。

如图6所示，为基于特征模块化和上下文融合的矢量网络行人检测方法示意图。在分类器和网络设计阶段，通过采集行人彩色图像样本，建立样本库，选择合适的行人模板集合，训练生成各关键模块的特征分类器，设定合适的卷积核种类和输出矢量维度，训练生成矢量网络。检测过程以图示形式表示，步骤为1采集彩色图像，2根据选择的行人模板集合对疑似区域进行模板匹配，3通过特征相似性度量保留行人关键模块，4通过优化加权平均损失函数完成行人关键模块重组得到行人疑似区域，5根据设定好的布局表征模型对行人疑似区域进一步判断是否为行人，6对保留的区域提取矢量特征并输出矢量结果，进一步判断是否为行人。

如图7所示，样本库中包含不同角度、不同遮挡程度的行人图像，用于行人关键模块识别的分类器训练及矢量网络的训练。

现有技术中，矢量网络是指在传统卷积神经网络的基础上，经过卷积特征提取后，将卷积结果按一定规则分组，组内特征合成为新的矢量特征，以保留方向性信息。在网络优化及权值更新中，针对生成的矢量特征，通过新的动态路由算法实现网络中矢量权值的更新，并最终通过输出的矢量信息完成检测任务。

Claims

1.一种基于特征模块化和上下文融合的矢量网络行人检测方法，其特征是步骤包括：

1)进行行人图像采集，根据预先设定好的精细化行人模板；

如果判别为否，则直接滤除该部件所在区域；

如果判别为是，则保留该部件像素信息及位置信息，并进入步骤2)；

2)利用位置信息计算行人关键模块所在区域中心点之间的欧式距离、利用行人关键模块局部像素信息计算特征相似度；构造加权平均损失函数，并优化该函数，从而将行人关键模块重组为可能存在行人的区域即行人疑似区域；

3)通过对行人随机移动特性的分析，对场景内行人和其他物体的位置关系进行布局表征；

根据条件随机场理论进行建模，将疑似区域被分配为行人区域标签的能量作为一元能量项，将反映疑似区域标签与场景内物体标签关系的能量作为二元能量项，对行人与场景内物体的布局关系进行表征，将局部行人和全局场景信息融合。

如果判别为否，直接滤除该疑似区域；

如果判别为是，保留该区域信息，然后进入步骤5)；

5)在传统卷积神经网络的基础上，删减掉网络中的池化层，对保留的区域信息仅提取图像卷积特征，对同一层的卷积特征进行分组，组间特征保持相互独立，组内特征作为一个整体来表征感兴趣区域在这组卷积核下的整体特性，将组内二维特征在第三个维度上堆叠实现维度拓展，合成为三维特征，以实现行人特征的矢量化表征；

7)按照步骤5)、6)搭建起矢量网络，通过动态路由算法对矢量网络进行训练，根据训练好的网络最终输出的矢量结果，继续对行人检测结果进行判断；

如果判别为否，则直接滤除该结果；

如果判别为是，则输出最终行人检测结果。

2.根据权利要求1所述的方法，其特征是所述步骤1)中，行人模板的设置根据被遮挡面积占行人所在矩形区域的比例r_occ，分为三类行人模板：①r_occ≤1/2；②1/2＜r_occ≤2/3，③2/3＜r_occ≤5/6。

3.根据权利要求1所述的方法，其特征是所述步骤2)中，加权平均损失函数F(p)定义如下：

4.根据权利要求1所述的方法，其特征是所述步骤3)中，根据行人与场景内物体可能存在的位置关系，按左、右、上、下的位置关系进行布局表征，然后在此基础上采用条件随机场建模。

5.根据权利要求1所述的方法，其特征是所述步骤3)中，根据行人与场景内物体可能存在的位置关系，按左、右、上、下、里、外、远、近的位置关系进行布局表征，然后在此基础上采用条件随机场建模。

6.根据权利要求4或5所述的方法，其特征是所述步骤3)中，条件随机场建模后的势能函数E(x)为：

其中，θ_i(x_i)是一元能量项，代表着将区域像素矩阵i内所有像素点被分成标签x_i的能量，二元能量项反映的是区域像素矩阵i与场景物体区域像素矩阵j之间的相对位置关系的符合程度；

一元能量项来源于可能存在行人的区域信息，采用对数计算：

θ_i(x_i)＝-logP(x_i)

其中P(x_i)为像素点i被正确分配标签的概率；

二元能量项的计算方式为：

其中，当i≠j时，δ(x_i,x_j)＝1,当i＝j时，δ(x_i,x_j)＝0；其余部分的表达式为不同特征空间里的两个高斯核函数：第一个是基于双边高斯函数，与像素位置p和像素值I有关，用以限定有相似像素值的区域分布在同样的标签内；第二个是只考虑像素位置p的平滑项；

μ₁，μ₂用以调整两个高斯核函数之间的影响，超参数σ_α，σ_β，σ_γ控制核的权重。

7.根据权利要求1所述的方法，其特征是所述步骤6)中，为了引入非线性及对有效特征作出响应，构造矢量激活函数：

8.根据权利要求1所述的方法，其特征是所述步骤7)中，矢量网络的构造中对分组卷积核的设计，根据外界环境的复杂度设置每组卷积核的种类为8～16种，输出矢量维度不超过32维。

9.根据权利要求1所述的方法，其特征是所述步骤7)中，搭建起的矢量网络训练采用的动态路由算法的权值更新计算公式为：

u_j|i＝W_iju_i

b_ij＝b_ij+u_j|iv_j

其中，u_j|i反映了通过不同权重W_ij使得第i个卷积特征作线性变换；c_ij为组合线性变换后各特征的权值，也即b_ij的softmax函数，s_j为合成的新型矢量特征，v_j为被激活的矢量信息。