CN111339967B

CN111339967B - 一种基于多视域图卷积网络的行人检测方法

Info

Publication number: CN111339967B
Application number: CN202010131268.4A
Authority: CN
Inventors: 刘占文; 沈超; 高涛; 樊星; 徐江; 王润民; 窦瑞娟; 阿比; 班邵雄; 齐明远; 曾高文; 范颂华
Original assignee: Changan University
Current assignee: Changan University
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2023-04-07
Anticipated expiration: 2040-02-28
Also published as: CN111339967A

Abstract

本发明公开了一种基于多视域图卷积网络的行人检测方法，采用卷积神经网络从待处理图像进行特征提取，对提取的特征图像进行多次池化、卷积处理得到预处理特征图像，然后采用多视域池化金字塔提取中得到的预处理特征图像的多尺度特征信息特征图，然后进行人体图卷积得到多个人体图卷积后的特征图，采用N_box个锚点的预测框分别对人体图卷积后的特征图中的人体目标区域进行预测并识别，完成预测框及预测类别概率值，使用最大池化构建多视域特征金字塔，提高了检测效率，本发明能够有效且高效地处理行人检测中的尺度变化和遮挡问题。

Description

一种基于多视域图卷积网络的行人检测方法

技术领域

本发明属于目标检测技术领域，具体涉及一种基于多视域图卷积网络的行人检测方法。

背景技术

随着深度学习的出现，一般目标检测已经取得了很大进展，目前已经提出了各种图像处理和基于机器学习的方法来改善目标检测的性能，尽管这些方法显示了很好的结果，但考虑到它们的计算成本，仍然难以在实时系统中使用它们。而且当其应用于遮挡行人检测任务时仍然存在一些限制。

行人检测是智能交通系统的重要组成部分，可用于告知驾驶员道路上个人的位置，以便更安全地进行驾驶。尽管一些基于深度CNN的方法在一般目标检测方面获得了很好的性能提升，但在应用于遮挡行人检测任务时仍存在一些局限性。由于准确检测行人在自动驾驶和监视等各种应用中具有很大的潜力，因此需要对其进行广泛研究，处理尺度变化和遮挡问题。一个限制是行人尺度可以在一个框架内大幅度变化，这使得难以实时准确地检测。此外，遮挡是行人检测的另一个限制。

发明内容

本发明的目的在于提供一种基于多视域图卷积网络的行人检测方法，以克服现有行人检测中的尺度变化和遮挡问题。

为达到上述目的，本发明采用如下技术方案：

一种基于多视域图卷积网络的行人检测方法，包括以下步骤：

步骤1)、采用卷积神经网络从待处理图像进行特征提取，对提取的特征图像进行多次池化、卷积处理得到预处理特征图像；

步骤2)、采用多视域池化金字塔提取步骤1)中得到的预处理特征图像的多尺度特征信息特征图；

步骤3)、在步骤1)中提取的特征图像进行倒数第二次池化、卷积处理得到特征图像和步骤2)中得到的多尺度特征信息图上分别建立人体部位图模型，然后进行人体图卷积得到多个人体图卷积后的特征图；

步骤4)、采用N_box个锚点的预测框分别对人体图卷积后的特征图中的人体目标区域进行预测并识别，完成预测框及预测类别概率值，即完成行人目标的检测。

进一步的，构建多分辨率和多视域特征金字塔模型，包含四个用于对采集的特征图的空间大小进行下采样的最大池化层，利用四个最大池化层依次进行池化后得到具有不同空间分辨率的五个特征图。

进一步的，具体包括以下步骤：

步骤1.1，采用卷积神经网络将待处理图像缩放至分辨率为300×300得到缩放后的图像A；

步骤1.2，采用2组卷积层对图像A进行卷积得到300×300大小的特征图像B，每组卷积采用64个卷积核；

步骤1.3，对特征图像B进行池化，得到分辨率为150×150的特征图像B_P，并采用2组卷积层对特征图像B_P进行卷积,每组卷积采用128个卷积核，得到150×150大小的特征图像C；

步骤1.4，对特征图像C进行池化，得到分辨率为75×75的特征图像C_P，并采用3组卷积层对特征图像C_P进行卷积,每组卷积采用256个卷积核，得到75×75大小的特征图像D；

步骤1.5，对特征图像D进行池化，得到分辨率为38×38的特征图像D_P，并采用3组卷积层对特征图像D_P进行卷积,每组卷积采用512个卷积核，得到38×38大小的特征图像E；

步骤1.6，对特征图像E进行池化，得到分辨率为19×19的特征图像E_P，并采用3组卷积层对特征图像E_P进行卷积,每组卷积采用512个卷积核，得到19×19大小的预处理特征图像F。

进一步的，步骤2)具体包括以下步骤：

步骤2.1，对19×19大小的预处理特征图像F，分别使用分辨率为1×1、3×3和5×5的卷积核进行卷积成分辨率为19×19大小的特征图F₁、特征图F₂和特征图F₃；

步骤2.2，分别对特征图F₁，特征图F₂和特征图F₃采用不同间隔的空洞卷积进行多视域特征的提取分别得到19×19大小的特征图F_mrc1，特征图F_mrc2和特征图F_mrc3；

步骤2.3，对19×19大小的特征图F_mrc1，特征图F_mrc2和特征图F_mrc3分别进行4次最大池化操作分别得到特征图F_mrc1，特征图F_mrc2和特征图F_mrc3的5组不同尺度的池化特征图；

步骤2.4，对步骤2.3得到的15组池化特征图中相同尺寸的池化特征进行连接得到多尺度特征信息。

进一步的，其中分辨率为5×5的卷积核采用1个分辨率为1×1和2个分辨率为3×3的卷积核。

进一步的，采用空洞为1的3×3卷积核对特征图F₁进行卷积，得到19×19大小的特征图F_mrc1；采用空洞为3的3×3卷积核对特征图F₂进行卷积，得到19×19大小的特征图F_mrc2；采用空洞为5的3×3卷积核对特征图F₃进行卷积，得到19×19大小的特征图F_mrc3。

进一步的，记F_mrc1为

对

进行最大池化操作得到10×10大小的

对

进行最大池化操作得到5×5大小的

对

进行最大池化操作得到3×3大小的

对

进行最大池化操作得到1×1大小的

采用上述方法对F_mrc2进行操作，得到19×19大小的

10×10大小的

5×5大小的

3×3大小的

1×1大小的

采用上述方法对F_mrc3进行操作，得到19×19大小的

10×10大小的

5×5大小的

3×3大小的

1×1大小的

进一步的，步骤3)具体步骤为：

步骤3.1，采用1×1卷积核对提取的特征图像进行倒数第二次池化、卷积处理得到特征图像E以及多尺度特征信息特征图

和

分别进行特征转换，得到6组转换后的特征图E′、

和

步骤3.2，构建人体部位图模型；

步骤3.3，根据步骤3.2中的人体图模型，设定图连接矩阵Matrix_A为：

建立图隶属度矩阵Matrix_D为:

步骤3.4，在步骤3.1上得到的特征图E′、

和

上分别采用分辨率为3×1的滑动窗口提取图向量V_g；并通过如下公式计算人体图卷积特征结果：

其中i＝1,…,k,

其中V_gi为特征图像中提取的第i个图向量；

将特征图E′、

和

通过人体图卷积进一步得到人体图卷积后的特征图E″、

和

进一步的，步骤4)具体包括以下步骤：

步骤4.1、在人体图卷积后的特征图E″、

和

上分别采用N_box个锚点的预测框，对于每个预测框，预测C个类别得分，以及预测框相对应的4个偏移值，在m×n的特征图上将产生(C+4)×N_box×m×n个预测值；

步骤4.2，将预测框预测值分为行人和非行人两类，分别获取人体图卷积后的特征图E″、

和

的预测值；

步骤4.3，对步骤4.2中的所有预测值所对应的预测框，按照预测类别为行人的概率从大到小排列，并从概率最大的预测框开始，计算其余预测框与当前预测框的重叠度，丢弃重叠度大于设定阈值的预测框，标记该预测框，并在剩余预测框中从预测概率最大的框继续计算重叠度并丢弃重叠度大于设定阈值的预测框；

步骤4.4，循环步骤4.3，直到全部筛选完毕，得到最终的预测框及预测类别概率值，即完成行人目标的检测。

进一步的，通过带有标注的数据进行卷积神经网络训练，并优化模型参数；具体地：

建立如下训练损失函数：

L＝L_cls+αL_loc

其中，L_cls为目标类别分类损失，L_loc为目标位置检测损失，α用于平衡两种损失的参数；

对于目标类别分类损失L_cls：

其中t_i,j为第j个类别中的第i个预测框与相应类别是否匹配，匹配则为1，不匹配为0；y为训练数据的标签类别，p_i,j为模型对预测框i在j类的预测概率值，其计算式如下：

对于目标位置检测损失L_loc的设计如下：

其中，p_box为目标位置预测参数，g_box为训练数据标签中的位置参数。

与现有技术相比，本发明具有以下有益的技术效果：

本发明一种基于多视域图卷积网络的行人检测方法，采用卷积神经网络从待处理图像进行特征提取，对提取的特征图像进行多次池化、卷积处理得到预处理特征图像，然后采用多视域池化金字塔提取中得到的预处理特征图像的多尺度特征信息特征图，然后进行人体图卷积得到多个人体图卷积后的特征图，采用N_box个锚点的预测框分别对人体图卷积后的特征图中的人体目标区域进行预测并识别，完成预测框及预测类别概率值，使用最大池化构建多视域特征金字塔，减少了模型参数的数量，提高了检测效率，使用多个特征图来生成不同规模的检测结果，对于最终特征图上的每个位置，一组不同的比例和宽高比默认框用于匹配检测结果并回归最终的框坐标，能够有效且高效地处理行人检测中的尺度变化和遮挡问题。

附图说明

图1为本发明整个提出的检测框架的示意图。

图2为本发明多视域池化金字塔模块的示意图。

图3为本发明基于图卷积的遮挡处理模块的示意图。

具体实施方式

下面结合附图对本发明做进一步详细描述：

如图1至图3所示，一种基于多视域图卷积网络的行人检测方法，包括以下步骤：

构建多分辨率和多视域特征金字塔模型，包含四个用于对采集的特征图的空间大小进行下采样的最大池化层，利用四个最大池化层依次进行池化后得到具有不同空间分辨率的五个特征图；

具体的，步骤1.1，采用卷积神经网络将待处理图像缩放至分辨率为300×300得到缩放后的图像A；

步骤1.6，对特征图像E进行池化，得到分辨率为19×19的特征图像E_P，并采用3组卷积层对特征图像E_P进行卷积,每组卷积采用512个卷积核，得到19×19大小的预处理特征图像F；

具体包括以下步骤：

步骤2.1，对19×19大小的预处理特征图像F，分别使用分辨率为1×1、3×3和5×5的卷积核进行卷积成分辨率为19×19大小的特征图F₁、特征图F₂和特征图F₃，其中分辨率为5×5的卷积核采用1个分辨率为1×1和2个分辨率为3×3的卷积核；

步骤2.2，分别对特征图F₁，特征图F₂和特征图F₃采用不同间隔的空洞卷积进行多视域特征的提取分别得到19×19大小的特征图F_mrc1，特征图F_mrc2和特征图F_mrc3，具体的：采用空洞为1的3×3卷积核对特征图F₁进行卷积，得到19×19大小的特征图F_mrc1；采用空洞为3的3×3卷积核对特征图F₂进行卷积，得到19×19大小的特征图F_mrc2；采用空洞为5的3×3卷积核对特征图F₃进行卷积，得到19×19大小的特征图F_mrc3；

步骤2.3，对19×19大小的特征图F_mrc1，特征图F_mrc2和特征图F_mrc3分别进行4次最大池化操作分别得到特征图F_mrc1，特征图F_mrc2和特征图F_mrc3的5组不同尺度的池化特征图；具体的：记F_mrc1为

对

进行最大池化操作得到10×10大小的

对

进行最大池化操作得到5×5大小的

对

进行最大池化操作得到3×3大小的

对

进行最大池化操作得到1×1大小的

采用上述方法对F_mrc2进行操作，得到19×19大小的

10×10大小的

5×5大小的

3×3大小的

1×1大小的

采用上述方法对F_mrc3进行操作，得到19×19大小的

10×10大小的

5×5大小的

3×3大小的

1×1大小的

步骤2.4，对步骤2.3得到的15组池化特征图中相同尺寸的池化特征进行连接得到多尺度特征信息，具体如下公式：

其中concat为特征图连接操作。

步骤3)、在步骤1)中提取的特征图像进行倒数第二次池化、卷积处理得到特征图像和步骤2)中得到的多尺度特征信息图上分别建立人体部位图模型，然后进行人体图卷积得到多个人体图卷积后的特征图；如图3所示，在特征图像E、

和

6组特征图上分别建立人体部位图模型，具体地：

和

分别进行特征转换，得到6组转换后的特征图E′、

和

步骤3.2，构建人体部位图模型：将人体分为头、躯干及腿三个部分，具体脖颈以上为头部，脖颈至胯部为躯干，胯部以下为腿，根据先验知识，“头”和“腿”对决定一个目标是否为行人目标至关重要，我们构建人体图模型如图3所示；

建立图隶属度矩阵Matrix_D为:

步骤3.4，在步骤3.1上得到的特征图E′、

和

其中i＝1,…,k,

其中V_gi为特征图像中提取的第i个图向量；

将特征图E′、

和

通过人体图卷积进一步得到人体图卷积后的特征图E″、

和

步骤4)、采用N_box个锚点的预测框分别对人体图卷积后的特征图中的人体目标区域进行预测并识别，完成预测框及预测类别概率值，即完成行人目标的检测；具体包括以下步骤：

步骤4.1、在人体图卷积后的特征图E″、

和

上分别采用N_box个锚点的预测框，对于每个预测框，预测C个类别得分，以及预测框相对应的4个偏移值，即需要(C+4)×N_box个预测器，因此，在m×n的特征图上将产生(C+4)×N_box×m×n个预测值；

步骤4.2，将预测框预测值分为行人和非行人(即背景)两类，因此C取2；对于分辨率为38×38的特征图E″，设定锚点个数为4，则有(2+4)×4×38×38个预测值；对于分辨率为19×19的特征图

设定锚点个数为6，则有(2+4)×6×19×19个预测值；对于分辨率为10×10的特征图

设定锚点个数为6，则有(2+4)×6×10×10个预测值；对于分辨率为5×5的特征图

设定锚点个数为6，则有(2+4)×6×5×5个预测值；对于分辨率为3×3的特征图

设定锚点个数为4，则有(2+4)×4×3×3个预测值；对于分辨率为1×1的特征图

设定锚点个数为4，则有(2+4)×4×1×1个预测值；

步骤4.3，对步骤4.2中的所有预测值所对应的预测框，按照预测类别为行人的概率从大到小排列，并从概率最大的预测框开始，计算其余预测框与当前预测框(即当前概率最大的预测框)的重叠度，丢弃重叠度大于设定阈值的预测框，标记该预测框，并在剩余预测框中从预测概率最大的框继续计算重叠度并丢弃重叠度大于设定阈值的预测框；

通过带有标注的数据进行卷积神经网络训练，并优化模型参数；具体地：

建立如下训练损失函数：

L＝L_cls+αL_loc

对于目标类别分类损失L_cls：

对于目标位置检测损失L_loc的设计如下：

为了全面评估本方法，对两个公共数据集进行了实验，这两个公共数据集包括一个一般目标检测数据集和一个大型行人检测数据集。在每个数据集上，我们将提出的行人检测框架与最新的最先进的方法进行比较。

此外，从三个方面审查了行人检测的方法，包括手工制作的模型、基于CNN的方法和遮挡处理方法。我们提出了尺度感知深度检测模型来处理行人检测的尺度变化问题。使用多个CNN层的特征来检测多个尺度的对象，这已被证明是有效和高效的。本发明采用多分辨率特征学习框架，并且使用几个最大池层来构建多分辨率特征金字塔，这是有效的并且减少了模型的大小。同时通过一个多接收场模块来提取具有不同上下文大小的特征，并将它们连接在一起，以进行最终的多尺度表示学习。

本发明一种基于多视域图卷积网络的行人检测方法，通过提出的检测框架，不仅处理了行人检测中的尺度变化和遮挡处理问题，使用最大池化构建多视域特征金字塔，提高了检测效率，本发明能够有效且高效地处理行人检测中的尺度变化和遮挡问题。

Claims

1.一种基于多视域图卷积网络的行人检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多视域图卷积网络的行人检测方法，其特征在于，构建多分辨率和多视域特征金字塔模型，包含四个用于对采集的特征图的空间大小进行下采样的最大池化层，利用四个最大池化层依次进行池化后得到具有不同空间分辨率的五个特征图。

3.根据权利要求2所述的一种基于多视域图卷积网络的行人检测方法，其特征在于，具体包括以下步骤：

4.根据权利要求3所述的一种基于多视域图卷积网络的行人检测方法，其特征在于，步骤2)具体包括以下步骤：

5.根据权利要求4所述的一种基于多视域图卷积网络的行人检测方法，其特征在于，其中分辨率为5×5的卷积核采用1个分辨率为1×1和2个分辨率为3×3的卷积核。

6.根据权利要求4所述的一种基于多视域图卷积网络的行人检测方法，其特征在于，采用空洞为1的3×3卷积核对特征图F₁进行卷积，得到19×19大小的特征图F_mrc1；采用空洞为3的3×3卷积核对特征图F₂进行卷积，得到19×19大小的特征图F_mrc2；采用空洞为5的3×3卷积核对特征图F₃进行卷积，得到19×19大小的特征图F_mrc3。

7.根据权利要求4所述的一种基于多视域图卷积网络的行人检测方法，其特征在于，记F_mrc1为