CN110909656A

CN110909656A - 一种雷达与摄像机融合的行人检测方法和系统

Info

Publication number: CN110909656A
Application number: CN201911129939.7A
Authority: CN
Inventors: 刘云鹏; 智伟; 王谦; 朱芸
Original assignee: CETHIK Group Ltd
Current assignee: CETHIK Group Ltd
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2020-03-24
Anticipated expiration: 2039-11-18
Also published as: CN110909656B

Abstract

本发明公开了一种雷达与摄像机融合的行人检测方法和系统，方法包括：构建用于行人检测的Mask RCNN网络结构，并对Mask RCNN网络结构进行预训练；接收雷达获取的待检测区域的雷达数据，对雷达数据进行聚类处理得到多种聚类点簇，并根据行人的物理属性对聚类点簇进行过滤，得到针对行人的聚类点簇；接收摄像机获取的待检测区域的图像数据，根据摄像机内外参将针对行人的聚类点簇转换为图像中的像素坐标，并通过卷积变换规则提取图像的感兴趣区域；将提取的感兴趣区域输入至预训练好的Mask RCNN网络结构中进行行人识别，输出行人检测结果。本发明将雷达和摄像机数据融合行人检测，利用硬件优势代替软件计算，降低了软件计算的复杂度，兼顾了准确性和时效性。

Description

一种雷达与摄像机融合的行人检测方法和系统

技术领域

本申请属于智能交通管理领域，具体涉及一种雷达与摄像机融合的行人检测方法和系统。

背景技术

行人检测作为汽车辅助驾驶的重要环节，近年来得到了广泛的关注和研究。行人检测是计算机领域的热门研究课题之一。单传感器行人检测方法基于雷达、红外、激光、摄像机等。其特点是设备简单，经济性好。然而采用单一传感器检测行人容易造成信息盲区，且信息表达具有局限性，利用多种传感器的信息融合已成为行人检测的发展趋势。行人检测的难点主要在两个方面：一是由于不同的行人之间的体型、姿态和着装等具有很大的差异，导致从可见光图像提取行人的特征具有一定的难度；二是可见光图像容易受到不同光照条件和阴影的影响，导致行人目标之间在图像上具有显著的差异。另外，现有方法仍然存在计算复杂、实时性不强等问题。

利用卷积神经网络学习目标特征最具代表性的是单阶段网络YOLO系列算法和两阶段网络RCNN系列算法。YOLO系列算法的第一个版本YOLOv1是Redmon等人2016年提出的，它是在保证检测准确率可观的基础上大幅度增加了检测网络的速度，而后相继提出的YOLO9000和YOLOv3更加有效地解决了YOLOv1网络的局限性，提高了网络检测对成群小目标检测准确率，并优化了目标难以精确定位的问题。

尽管单阶段网络的时效性已可以满足工业需求，但其准确率的提升仍然是一个瓶颈。两阶段网络RCNN系列算法被广泛应用在大多数行人检测器中。通过构建区域建议网络(RPN)提取可能含有行人的区域，利用检测网络对目标区域进行判别和分类。两阶段网络的检测精度较单阶段网络有明显提升，但其时效性差。简言之，单纯的基于卷积神经网络算法，在准确性和时效性方面存在鱼与熊掌不可兼得的问题，且单纯的图像也缺乏深度信息，难以进行三维重构。

基于激光雷达进行行人检测的难点在于设计一种有效描述行人的激光雷达点云特征。Premebida等提出了一种基于激光雷达的15维特征，用于在城市环境下进行行人检测。这些特征中的一部分特征，例如最小反射距离，聚类后的类内点个数等，Haselich等进一步用于行人检测的相关工作中。Serment等则根据雷达点云集合的3个特征向量构成2个新的平面，把所有的点云投影到这2个平面上。随后，在这2个新的平面上提取特征。然而所有算法对多个重叠目标，例如多个行人构成的人群，分类正确率还不是很高，无法将人群中的每一个独立个体分割开来。简言之，单纯的基于激光雷达的算法，虽然时效性高，但其准确性仍有待提高。

现有技术中也公开了一些行人检测的方法。

例如专利申请号为CN201610494537.7、专利名称为基于显著性检测和卷积神经网络的行人检测方法及装置的专利文献，选取标签行人和非行人的样本图像，利用卷积神经网络对样本图像进行训练，获取训练好的行人分类模型。然而，卷积神经网络时间复杂度高，检测的时效性难以保证。另外，单纯的二维图像缺乏深度信息，难以得到行人的三维位置信息。

又如专利申请号为CN201810481254.8、专利名称为一种激光雷达动态行人检测方法的专利文献，对激光检测的障碍物进行聚类算法分析，并组成特征集，针对类簇中的每个特征训练分类器，以此进行行人检测。然而算法对多个重叠目标，例如多个行人构成的人群，分类正确率还不是很高，检测的准确度难以保证。

发明内容

本申请的目的在于提供一种雷达与摄像机融合的行人检测方法和系统，将雷达和摄像机数据融合行人检测，利用硬件优势代替软件计算，降低了软件计算的复杂度，兼顾了准确性和时效性。

为实现上述目的，本申请所采取的技术方案为：

一种雷达与摄像机融合的行人检测方法，用于对待检测区域内的行人进行识别检测，所述雷达与摄像机融合的行人检测方法，包括：

构建用于行人检测的Mask RCNN网络结构，并对Mask RCNN网络结构进行预训练；所述Mask RCNN网络结构包括两部分：第一部分是共享的卷积层，第二部分是对感兴趣区域进行分类的神经网络classifier；

接收雷达获取的待检测区域的雷达数据，对雷达数据进行聚类处理得到多种聚类点簇，并根据行人的物理属性对聚类点簇进行过滤，得到针对行人的聚类点簇；

接收摄像机获取的待检测区域的图像数据，根据摄像机内外参将针对行人的聚类点簇转换为图像中的像素坐标，并通过卷积变换规则提取图像的感兴趣区域；

将提取的感兴趣区域输入至预训练好的Mask RCNN网络结构中进行行人识别，输出行人检测结果。

作为优选，所述对Mask RCNN网络结构进行预训练，包括：

通过摄像机获取指定区域的若干样本图像，对样本图像进行标注，并且对标注后的样本图像进行平移变换和旋转变换得到新的样本图像，将所有标注后的样本图像以及从公开数据集COCO获取的样本图像按预设比例拆分为训练集和测试集；

利用所述训练集迭代优化Mask RCNN网络结构，直至利用所述测试集验证MaskRCNN网络结构满足要求。

作为优选，所述利用训练集迭代优化Mask RCNN网络结构，直至利用测试集验证Mask RCNN网络结构满足要求，包括：

定义混淆矩阵；

根据所述混淆矩阵，以及Mask RCNN网络结构输出的行人检测结果和测试集中样本图像，计算准确率和召回率；

若准确率>0.9且召回率>0.9，则结束训练并输出当前的Mask RCNN网络结构；否则重新利用训练集优化Mask RCNN网络结构。

作为优选，所述神经网络classifier包括全连接层FC layers，所述全连接层FClayers的输出尺寸为2。

本申请还提供一种雷达与摄像机融合的行人检测系统，用于对待检测区域内的行人进行识别检测，所述雷达与摄像机融合的行人检测系统，包括：

网络构建模块，用于构建用于行人检测的Mask RCNN网络结构，并对Mask RCNN网络结构进行预训练；所述Mask RCNN网络结构包括两部分：第一部分是共享的卷积层，第二部分是对感兴趣区域进行分类的神经网络classifier；

雷达数据处理模块，用于接收雷达获取的待检测区域的雷达数据，对雷达数据进行聚类处理得到多种聚类点簇，并根据行人的物理属性对聚类点簇进行过滤，得到针对行人的聚类点簇；

摄像机数据处理模块，用于接收摄像机获取的待检测区域的图像数据，根据摄像机内外参将针对行人的聚类点簇转换为图像中的像素坐标，并通过卷积变换规则提取图像的感兴趣区域；

检测模块，用于将提取的感兴趣区域输入至预训练好的Mask RCNN网络结构中进行行人识别，输出行人检测结果。

作为优选，所述对Mask RCNN网络结构进行预训练，执行如下操作：

利用训练集迭代优化Mask RCNN网络结构，直至利用测试集验证Mask RCNN网络结构满足要求。

作为优选，所述利用训练集迭代优化Mask RCNN网络结构，直至利用测试集验证Mask RCNN网络结构满足要求，执行如下操作：

定义混淆矩阵；

本申请提供的一种雷达与摄像机融合的行人检测方法和系统，将雷达的点云数据进行聚类处理，结合行人特征和摄像机图像信息提取感兴趣区域。同时精简了Mask RCNN网络的RPN模块，直接在提取的感兴趣区域中基于精简后的Mask RCNN网络结构进行行人检测。从时效性上看，由于精简了RPN模块，大大降低了Mask RCNN网络结构的时间复杂度，降低了对于数据处理设备的计算性能要求；从准确度上看，融合了雷达信息和图像信息，基于两阶段网络有效地解决了激光雷达无法识别重叠目标的问题；从实际应用角度上看，检测效率和实时性的提升，可以更好满足包括ADAS、车路协同等多方面应用需求。

附图说明

图1为本申请的雷达与摄像机融合的行人检测方法的流程图；

图2为现有技术中Mask RCNN网络结构示意图；

图3为现有技术中Mask RCNN网络结构的RPN工作原理图；

图4为现有技术中RPN生成的9种初始anchor的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本申请。

如图1所述，其中一个实施例中，提供一种雷达与摄像机融合的行人检测方法，用于对待检测区域内的行人进行识别检测。

具体的，雷达与摄像机融合的行人检测方法，包括：

步骤1、构建用于行人检测的Mask RCNN网络结构，并对Mask RCNN网络结构进行预训练。

Mask RCNN网络结构为常用的类别检测网络结构，其检测的目标数量多，普适性好，但相应的其计算复杂，使得许多小型计算设备无法支持。

如图2所示，常用的Mask RCNN网络结构主要分为三大部分：第一部分是共享的卷积层-backbone，第二部分是候选区域生成网络-RPN，第三部分是对候选区域进行分类的网络-classifier(即three branches)。

如图3所示，Mask RCNN网络结构中的候选区域生成网络-RPN的工作原理如下：RPN依靠一个在共享特征图上滑动的窗口，为每个位置生成9种预先设置好长宽比与面积的anchor。这9种初始anchor包含三种面积(128×128，256×256，512×512)，每种面积又包含三种长宽比(1:1，1:2，2:1)。9种初始anchor如图4所示。

在Mask RCNN网络结构中，要在5个共享的卷积层上生成anchor，而且这5个卷基层的尺寸分别是：(256,256)，(128,128)(64,64)(32,32)(16.16)，按上述规则，所要生成的anchor个数＝(256*256+128*128+64*64+32*32+16*16)*3＝261888。要在如此大量的anchor中判定是否具有物体，并初步修正位置信息，无疑具有非常大的运算量，消耗大量的计算资源。

本实施例针对Mask RCNN网络结构的上述缺陷，提供一种更加精简的Mask RCNN网络结构，本实施例的Mask RCNN网络结构包括两部分：第一部分是共享的卷积层-backbone，第二部分是对候选区域进行分类的神经网络-classifier。

并且对原Mask RCNN网络结构中的classifier进行了修改，神经网络classifier包括全连接层FC layers，原Mask RCNN网络结构中的全连接层FC layers的输出尺寸为81，修改后的全连接层FC layers的输出尺寸为2，即将原来的81分类转为2分类。此修改虽然降低了网络结构的普适性，但是却提高了网络结构在识别行人这一特定场景下的识别准确性。

在对网络结构进行预训练时，获取训练集和测试集，利用训练集迭代优化MaskRCNN网络结构，直至利用测试集验证Mask RCNN网络结构满足要求。

为了保证样本的多样性，在一个实施例中，获取训练集和测试集时，通过摄像机获取指定区域的若干样本图像，采用VIA标注工具对样本图像进行标注，包括对样本图像中的行人轮廓及边界框等信息进行标记，并且对标注后的图像进行平移变换和旋转变换等得到新的样本图像，通过平移变换和旋转变换等数据增强方法可有效增加样本图像的多样性，从而提高训练后网络结构的鲁棒性。

上述指定区域的样本图像至与待检测区域相近似的区域，例如待检测区域为交叉口，则获取交叉口这一特定场景下的样本图像，使得数据具有针对性。同时避免数据的针对性较强影响训练后的网络结构应变能力，从而同时从公开数据集COCO获取的样本图像，并将所有标注后样本图像以及从公开数据集COCO获取的样本图像按预设比例拆分为训练集和测试集。

预设比例可根据实际需要进行设置，例如训练集比测试集为6:4。

利用训练集迭代优化Mask RCNN网络结构时，将标注过的训练集输入至Mask RCNN网络结构，并利用梯度下降算法不断迭代优化网络参数。

具体地，优化网络参数时：首先将训练集数据在神经网络中进行一次正向传递，得到预测结果y_hat；其次计算输出层神经元的误差梯度(error gradient)δ；最后更新权重变化Δw_i。在完成了一次对整个数据集的遍历之后，将Δw_i(权重变化值)和w_i(预设的权重)相加，得到新的权重w_i，即完成一次对权重的更新。

按照上述过程不断迭代更新权值，直至损失函数Loss在连续的10个epoch迭代后没有明显降低(变化<0.01)，即完成一次优化。

在完成一次优化后，需要利用测试集验证Mask RCNN网络结构是否满足要求，其验证过程包括：

定义混淆矩阵；根据所述混淆矩阵，以及Mask RCNN网络结构输出的行人检测结果和测试集中样本图像，计算准确率和召回率；若准确率>0.9且召回率>0.9，则结束训练并输出当前的Mask RCNN网络结构；否则继续利用训练集优化Mask RCNN网络结构。

当测试集验证通过后即得到最佳的Mask RCNN网络结构。

步骤2、接收雷达获取的待检测区域的雷达数据，对雷达数据进行聚类处理得到多种聚类点簇，并根据行人的物理属性对聚类点簇进行过滤，得到针对行人的聚类点簇。

由于在城市道路混合交通环境下，行人、车辆、建筑物等经常同时存在于场景中，通过聚类处理所得障碍物信息可能包括以上物体，因此，需要剔除行人以外的目标点簇。要筛选出行人对应的聚类点簇，需要进一步考虑行人的高度、宽度等物理属性。当簇的高度和宽度满足行人约束条件时，就把该簇确定为行人，准确说为候选行人；反之，则将其排除。

通过行人物理属性的约束对簇进行筛选，充分提高了行人检测的针对性，提高了行人检测的效率。

步骤3、接收摄像机获取的待检测区域的图像数据，根据摄像机内外参将针对行人的聚类点簇转换为图像中的像素坐标，并通过卷积变换规则提取图像的感兴趣区域。

由于步骤2中得到的聚类点簇可能存在误判的情况，故需要在步骤3中结合获取的图像数据进一步确认行人所在区域或坐标，以便于得到准确率更高的识别结果。

图像数据即构成图像，将聚类点簇转换至图像中时，摄像机的内外参可根据张正友标定法获取，从而将聚类点簇映射到图像上，通过雷达初步确定行人的位置，再结合摄像机成像规律划定行人的感兴趣区域，将雷达数据和摄像机数据进行融合，确保检测精度，同时可精简Mask RCNN网络结构，降低计算资源的大量消耗。

卷积变换规则通过将原图坐标映射至特征图上提取出感兴趣区域，关于卷积变换规则提取感兴趣区域的具体步骤为深度学习通用的基础理论，在此不再进行赘述。

步骤4、将提取的感兴趣区域输入至预训练好的Mask RCNN网络结构中进行行人识别，输出行人检测结果。

利用雷达和摄像机的数据提取的感兴趣区域代替原Mask RCNN网络结构中RPN模块，无需通过网络结构本身提取候选区域，采用硬件优势替代软件计算，提高了精度的同时，又降低了软件计算的复杂度，降低对计算设备的要求。

本实施例中提供的Mask RCNN网络结构相较于现有的SVM分类器而言：

SVM分类器属于经验驱动，通过主观设定的特征进行识别，该策略虽然时效性比较高，但鲁棒性很差，容易受到遮挡、行人姿态的影响，导致识别率低。

相反，Mask RCNN网络结构则属于数据驱动，不需要人为定义特征，而是利用大量的数据自主学习，充分考虑到姿态、遮挡等异常因素，使得习得的特征更加健壮，进而得到更高的识别率。当然该网络结构也存在一定的劣势：时效性较差，暴力搜索的RPN网络带来了极大的计算复杂度。因此，针对Mask RCNN网络结构的劣势，本申请提出了利用雷达这个物理硬件精简Mask RCNN网络结构，以达到速度和性能的兼顾。

在另一实施例中提供了一种雷达与摄像机融合的行人检测系统，用于对待检测区域内的行人进行识别检测，雷达与摄像机融合的行人检测系统，包括：

具体的，对Mask RCNN网络结构进行预训练，执行如下操作：

具体的，所述利用训练集迭代优化Mask RCNN网络结构，直至利用测试集验证MaskRCNN网络结构满足要求，执行如下操作：

定义混淆矩阵；

具体的，所述神经网络classifier包括全连接层FC layers，所述全连接层FClayers的输出尺寸为2。

关于雷达与摄像机融合的行人检测系统的进一步限定可参见对于雷达与摄像机融合的行人检测方法的具体限定，在此不再进行赘述。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种雷达与摄像机融合的行人检测方法，用于对待检测区域内的行人进行识别检测，其特征在于，所述雷达与摄像机融合的行人检测方法，包括：

2.如权利要求1所述的雷达与摄像机融合的行人检测方法，其特征在于，所述对MaskRCNN网络结构进行预训练，包括：

利用所述训练集迭代优化Mask RCNN网络结构，直至利用所述测试集验证Mask RCNN网络结构满足要求。

3.如权利要求2所述的雷达与摄像机融合的行人检测方法，其特征在于，所述利用训练集迭代优化Mask RCNN网络结构，直至利用测试集验证Mask RCNN网络结构满足要求，包括：

定义混淆矩阵；

4.如权利要求2所述的雷达与摄像机融合的行人检测方法，其特征在于，所述神经网络classifier包括全连接层FC layers，所述全连接层FC layers的输出尺寸为2。

5.一种雷达与摄像机融合的行人检测系统，用于对待检测区域内的行人进行识别检测，其特征在于，所述雷达与摄像机融合的行人检测系统，包括：

6.如权利要求5所述的雷达与摄像机融合的行人检测系统，其特征在于，所述对MaskRCNN网络结构进行预训练，执行如下操作：

7.如权利要求6所述的雷达与摄像机融合的行人检测系统，其特征在于，所述利用训练集迭代优化Mask RCNN网络结构，直至利用测试集验证Mask RCNN网络结构满足要求，执行如下操作：

定义混淆矩阵；

8.如权利要求6所述的雷达与摄像机融合的行人检测系统，其特征在于，所述神经网络classifier包括全连接层FC layers，所述全连接层FC layers的输出尺寸为2。