CN110059544B

CN110059544B - 一种基于道路场景的行人检测方法和系统

Info

Publication number: CN110059544B
Application number: CN201910172834.3A
Authority: CN
Inventors: 陶文兵; 宫振飞
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2021-03-26
Anticipated expiration: 2039-03-07
Also published as: CN110059544A

Abstract

本发明公开了一种基于道路场景的行人检测方法和系统，属于计算机视觉领域，包括：对采集图像进行感兴趣区域提取得到输入对象，并在输入对象中对目标对象进行标记得到训练数据集；将训练数据集按照目标尺度大小分为多个部分；设计与输入图像宽高比一致的矩形卷积神经网络；设计预选框初步确定目标对象所在位置；采用分组的训练数据集和预选框对矩形卷积神经网络进行分步训练，使不同特征层对相应尺度的目标对象更为敏感；最后通过训练好的行人检测模型对输入图像进行检测，将重复检测和低于设定置信度阈值的目标框删除，得到行人检测结果。本发明相对现有的行人检测算法对不同尺寸的目标具有更强的针对性，运行速度更快，检测精度更高。

Description

一种基于道路场景的行人检测方法和系统

技术领域

本发明属于计算机视觉领域，更具体地，涉及一种基于道路场景的行人检测方法和系统。

背景技术

行人检测技术应用日趋广泛，其主要利用基于深度学习的相关算法，对输入图像中的行人目标进行检测识别。例如，在高级驾驶辅助系统中，行人检测技术是其中至关重要的一个环节。它通过对当前道路场景中的行人目标进行检测，进而系统可综合分析检测结果与汽车行驶状态等因素，判断当前驾驶行为是否存在潜在的危险，以给予驾驶员预警信息，保障人身安全与驾驶安全。因此，一项运行速度快、检测精度准的行人检测技术显得尤为重要。它可以实时精确地检测出当前驾驶环境中可能存在的危险目标，并且及时给予预警信息，以避免危险事故的发生。可见，此项技术具有很强的实际应用价值。

现有行人检测技术中，由于卷积神经网络较为复杂，算法的整体计算量较大，使得模型运行速度过慢，进而导致该技术在嵌入式设备、移动端等硬件资源受限的平台上不能满足系统的实时性要求；还有部分算法采用更加精简的卷积神经网络进行检测，通过减少网络层数、降低卷积层通道数等方式简化网络，或通过压缩网络输入尺寸等措施降低算法计算量，并且配置性能更强的处理器芯片进行快速运算。此类方法在诸如移动端等平台的速度仅为6FPS左右，速度较慢，且过于简单的卷积神经网络虽然能够保证检测速度，但是以检测精度的显著降低为代价。可见，现有的检测算法在检测速度上存在较为严重的迟缓问题，而速度较慢带来的直接影响是不能及时对当前场景进行目标检测与分析，因而不能应用在诸如辅助驾驶等实时性要求较高的场景中。

综上所述，现有的行人检测技术存在无法同时满足实时性要求和达到高检测精度的问题。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于道路场景的行人检测方法和系统，旨在解决现有的行人检测方法由于检测速度慢而不能满足实时性要求，且检测精度低的问题。

为实现上述目的，本发明第一方面提供了一种基于道路场景的行人检测方法，包括以下步骤：

(1)采集道路场景图像并进行感兴趣区域提取，得到待检测图像；

(2)将所述待检测图像输入行人检测模型中进行检测，得到包括目标对象位置和置信度信息的初步检测结果；

(3)将重复检测和低于设定置信度阈值的检测结果删除，得到最终检测结果；

其中，所述行人检测模型是与所述待检测图像宽高比一致的矩形卷积神经网络；所述矩形卷积神经网络中不同尺度的特征层采用不同的训练集进行分步训练；所述不同尺度的特征层负责检测不同尺度的目标对象。

进一步地，所述步骤(2)中所述行人检测模型的训练方法为：

(21)对采集的道路场景图像进行感兴趣区域提取，得到输入图像，并在所述输入图像中标记目标对象，得到训练数据集T；

(22)按照目标对象尺度大小，将所述训练数据集T分为从小到大的多个部分T₁～T_n；其中n表示按照尺度范围对目标对象的分组个数；

(23)构建与所述输入图像的宽高比一致的矩形卷积神经网络，对所述输入图像进行特征提取；

(24)在所述矩形卷积神经网络指定特征层L₁～L_n上设计预选框，初步得到目标对象所在位置；所述指定特征层L₁～L_n尺度大小与所述训练数据集T₁～T_n目标尺度对应一致；

(25)采用训练数据集T₁～T_n和预选框分步训练所述矩形卷积神经网络，得到行人检测模型。

进一步地，所述步骤(24)中所述设计预选框，具体包括以下步骤：

在所述矩形卷积神经网络中，选取与所述训练数据集T₁～T_n目标尺度相对应的特征层L₁～L_n；

根据选取的特征层L₁～L_n所对应的图像位置确定预选框位置；

对目标对象进行聚类分析，根据目标对象的形状特性确定预选框的尺寸大小。

进一步地，所述步骤(25)中所述分步训练所述矩形卷积神经网络具体包括：

利用目标对象尺度最小的训练集T₁训练对应尺度的特征层L₁，得到特征层L₁及之前卷积层的权重参数；

使特征层L₁及之前卷积层的权重参数保持不变，利用训练集T₂训练对应尺度的特征层L₂，得到特征层L₂的权重参数；

使特征层L₂权重参数保持不变，利用训练集T₃训练对应尺度的特征层L₃，得到特征层L₃的权重参数；

按照上述方式分步完成对所有特征层的训练，得到行人检测模型。

进一步地，所述特征层训练方法具体为：将特征层上的预选框与对应的标记对象进行比较，选取重叠率高于预设值的预选框，计算损失值，利用反向传播算法更新矩形卷积神经网络该层及之前层参数。

优选地，所述重叠率预设值为0.5。

优选地，所述步骤(3)中所述设定置信度阈值为0.6。

优选地，所述感兴趣区域指有行人出现的区域，所述目标对象为行人。

本发明的一种基于道路场景的行人检测方法，首先根据道路场景设计尺寸更小的矩形卷积神经网络，能够有效避免计算图像中的无关信息以提升网络运行速度；进而采用目标对象尺度不同的数据集和预选框对矩形卷积神经网络进行分步训练，使不同特征层对相应尺度的目标对象更为敏感，提高模型的特征提取能力，有效提高了行人检测的准确率和精度。

本发明另一方面提供了一种基于道路场景的行人检测系统，包括：

采集模块，用于获取道路场景图像并进行感兴趣区域提取，得到待检测图像；

初步检测模块，用于采用上述方法中的行人检测模型对所述待检测图像进行初步检测，得到包括目标对象位置和置信度信息的检测结果；

结果处理模块，将重复检测和低于设定置信度阈值的目标框删除，得到最终检测结果。

通过本发明所构思的以上技术方案，与现有技术相比，能够取得以下有益效果：

(1)本发明通过设计与输入图像宽高比一致的矩形卷积神经网络提取输入图像的特征，能够减少网络计算量，显著提升检测算法的运行速度，并且保留了原始行人目标的形状特征，有效提升了检测算法的精度。

(2)本发明通过聚类分析得到目标对象的形状特性，并以此确定预选框的尺寸大小，并进一步缩小了检测范围，有效提升了模型的运行速度和检测精度。

(3)本发明通过利用不同尺度的特征集，分步对卷积神经网络进行训练，使网络中不同尺度的特征层对相应尺度的目标具有更强的针对性，能够有效提升模型的特征提取能力，进而提升算法的检测精度。

附图说明

图1是本发明实施例提供的一种基于道路场景的行人检测方法流程示意图；

图2是本发明实施例提供的行人检测模型训练方法的流程示意图；

图3是本发明实施例提供的预选框设计示意图；

图4是本发明实施例提供的矩形卷积神经网络分布训练结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参考图1，本发明提供了一种基于道路场景的行人检测方法和系统，其整体思路为：采集道路场景图像并进行感兴趣区域提取，得到待检测图像；将所述待检测图像输入行人检测模型中进行检测，得到包括目标对象位置和置信度信息的初步检测结果；将重复检测和低于设定置信度阈值0.6的检测结果删除，得到最终检测结果；其中，所述行人检测模型是与所述待检测图像宽高比一致的矩形卷积神经网络；所述矩形卷积神经网络中不同尺度的特征层采用不同的训练集进行分步训练；所述不同尺度的特征层负责检测不同尺度的目标对象。

以下结合附图和具体实施例对本发明进行具体阐述；本发明实施例提供的一种行人检测模型训练方法，其流程图如图2所示，包括以下步骤：

步骤1：采集道路场景图像并进行感兴趣区域提取，得到输入图像，并在所述输入图像中标记目标对象，得到训练数据集T；

具体地，利用图像采集设备对当前道路进行拍摄以得到实时图像，通常拍摄到的图像上部包含天空及两侧的建筑信息等，而算法实际关注的是图像下部行人，因此将图像上部天空等无关图像信息进行滤除，只选择行人目标可能出现的W×H范围的矩形感兴趣区域作为输入图像；

假设道路图像尺寸为400×400，选择其中行人目标可能出现的感兴趣区域360×270，并将其作为输入图像。

步骤2：按照目标对象尺度大小，将训练数据集T分为从小到大的n个部分T₁～T_n；其中n表示按照尺度范围对目标对象的分组个数；

具体地，本实施例中将训练数据集T分为从小到大的四个部分T₁～T₄。

步骤3：设计与所述输入图像宽高比一致的矩形卷积神经网络对所述输入图像进行特征提取；

具体地，若卷积神经网络为目前算法中所采用的正方形输入网络，会导致原本就不明显的行人特征被进一步压缩，不利于对行人的特征进行提取，因此设计与输入图像宽高比一致的矩形卷积神经网络提取输入图像的特征，在减少网络计算量的同时，也利于对行人目标的检测识别。

对应步骤1中的假设场景，由于输入图像的尺寸比例为4:3，则将矩形卷积神经网络的输入尺寸设计为320×240，利用该卷积神经网络对输入图像进行特征提取。

步骤4：在所述矩形卷积神经网络指定特征层L₁～L_n上设计预选框，初步得到目标对象所在位置；所述指定特征层L₁～L_n尺度大小与所述训练数据集T₁～T_n目标尺度对应一致；

具体地，选取网络后部分的4个不同尺度的特征层，特征层尺度分别为L1＝20×15，L2＝10×8，L3＝5×4，L4＝3×2，按照特征层的尺度可将输入图像划分为同等数量的网格，即大尺度特征层经过划分后对应输入图像的小区域，负责检测小目标，反之，小尺度特征层负责检测大尺度目标；以特征层L₃为例，如图3所示，将输入图像划分为5×4的网格，此尺度特征层经过划分后对应输入图像的区域尺寸中等偏大，因而负责检测较大目标，反之，小尺度特征层如L1将输入图像分为20×15＝300个网格，明显负责检测小尺度目标；预选框的设计原则为与网格区域的中点同心；预选框纵横比r的确定方法为：利用聚类方法对特征层对应数据集中的真实样本进行聚类分析，以得到多组数值作为最终纵横比，并应用到每个特征层；预选框面积S²按照同样方法产生多组，并将其与多个特征层的尺度一一对应；基于预选框可得到一系列行人目标的待测区域。

对上述4个不同尺度的特征层应用上述方法设计预选框，得到纵横比r＝{2.5，2.8}、面积S²＝{384，1306，2688，4224}，r设置两个值，即每一个网格有两个尺度的预选框，高为

宽为

并将此规则应用到每个特征层；预选框面积S²的4个值与4个特征层一一对应，值小者对应低特征层，如S＝384对应特征层L₁，以实现不同特征层对不同尺度目标的检测。

步骤5：分步采用训练数据集T₁～T_n和预选框训练所述矩形卷积神经网络，得到行人检测模型。

具体地，如图4所示，先利用最小目标尺度的训练集T₁训练特征层L₁，使得特征层L₁对小目标检测有较好的性能；实际操作中，将特征层L₁上的预选框与对应的标记对象进行比较，选取重叠率高于预设值0.5的预选框，计算损失值，利用反向传播算法更新矩形卷积神经网络该层及之前层参数；然后，固定特征层L₁及之前卷积层的权重参数，利用训练集T₂采用同样的方法训练特征层L₂，固定特征层L₂的权重参数；依此方式分步完成对所有特征层的训练，使不同尺度的特征层对相应尺度的目标更为敏感，进而使得整个网络对行人目标具备较好的检测性能。

本发明实施例还提供了一种行人检测系统，包括：

在本发明实施例中，各模块具体实现方式可以参考上述对应方法实施例中的描述，本发明实施例将不再复述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于道路场景的行人检测方法，其特征在于，包括以下步骤：

(2)将所述待检测图像输入行人检测模型中进行检测，得到包括目标对象位置和置信度信息的初步检测结果；所述步骤(2)中所述行人检测模型的训练方法为：

(25)采用训练数据集T₁～T_n和预选框分步训练所述矩形卷积神经网络，得到行人检测模型；

2.根据权利要求1所述的一种基于道路场景的行人检测方法，其特征在于，所述步骤(24)中所述设计预选框，具体包括以下步骤：

3.根据权利要求1所述的一种基于道路场景的行人检测方法，其特征在于，所述步骤(25)中所述分步训练所述矩形卷积神经网络具体包括：

4.根据权利要求3所述的一种基于道路场景的行人检测方法，其特征在于，所述特征层训练方法具体为：将特征层上的预选框与对应的标记对象进行比较，选取重叠率高于预设值的预选框，计算损失值，利用反向传播算法更新矩形卷积神经网络该层及之前层参数。

5.根据权利要求4所述的一种基于道路场景的行人检测方法，其特征在于，所述重叠率预设值为0.5。

6.根据权利要求1所述的一种基于道路场景的行人检测方法，其特征在于，所述步骤(3)中所述设定置信度阈值为0.6。

7.根据权利要求1-6任一项所述的一种基于道路场景的行人检测方法，其特征在于，所述感兴趣区域指有行人出现的区域，所述目标对象为行人。

8.一种基于道路场景的行人检测系统，包括：

初步检测模块，用于采用权利要求1-7任一项所述方法中的行人检测模型对所述待检测图像进行检测，得到包括目标对象位置和置信度信息的初步检测结果；