CN112329684A

CN112329684A - 一种基于注视检测和交通场景识别的行人穿越马路意图识别方法

Info

Publication number: CN112329684A
Application number: CN202011276599.3A
Authority: CN
Inventors: 杨彪; 王狄; 徐黎明; 陈阳; 吕继东; 毕卉
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-02-05
Anticipated expiration: 2040-11-16
Also published as: CN112329684B

Abstract

本发明涉及一种基于注视检测和交通场景识别的行人穿越马路意图识别方法，首先通过faster‑RCNN进行行人检测，进一步利用行人的运动信息搜索感兴趣目标，提取感兴趣目标的运动序列和局部交通场景序列；其次通过头部检测器检测感兴趣目标序列中的头部位置，并采用残差卷积神经网络来判断头部朝向，进而检测行人是否注视来车，同时提取头部朝向特征；然后通过卷积神经网络分类器对行人所处的局部交通场景进行多标签分类，并提取局部交通场景特征；最后利用全连接层处理拼接后的头部朝向特征与局部交通场景特征，实行对行人穿越/不穿越结果的识别。本发明使用多任务学习模式，可实现端到端地完成注视/非注视识别、穿越/不穿越识别以及交通场景分类。

Description

一种基于注视检测和交通场景识别的行人穿越马路意图识别方法

技术领域

本发明涉及智能交通技术领域，具体涉及行人检测与分析领域，尤其是一种基于注视检测和交通场景识别的行人穿越马路意图识别方法。

背景技术

随着计算机视觉、传感器技术以及控制理论的不断发展，无人车得到了广泛的关注，具有光明的应用前景。无人车可以给人们的生活带来便利，但是，无人车在顺利运行的过程中需要保证其它道路使用者的权利，尤其是行人的安全。为了更好地保护行人，无人车需要理解行人的行为，并据此调整本身的策略。在行人的诸多行为中，行人穿越马路最为频繁，且与行人安全高度相关。人类驾驶员可以快速地判断行人是否有穿越马路的意图，但是无人车仍然难以在高效通行和保证行人安全两者间达到较好的平衡。

行人穿越马路受多种因素影响，通常分为外部因素(交通场景的布局、交通流量以及天气情况等)和内部因素(性别、年龄、时间压力等)。由于行人的行为具有随机性，无论是机器或者人类，都无法完全准确地预测行人是否会穿越马路。但是，行人的一些行为揭示了其有较强的可能会进行穿越，譬如行人注视着来车，试图与司机进行眼神交流；同时，行人所处的交通场景也对其是否穿越马路有较大的影响，譬如在红绿灯路口或者斑马线路口，行人有大概率会穿越马路。

利用计算机视觉技术，研究者可以检测到行人，并进而检测到行人的头部区域，并通过设计分类器来检测行人是否注视着来车，据此判断行人是否具有穿越马路的意图。同时，利用计算机视觉技术可以较好地感知行人所处的交通环境，譬如：使用语义分割可以得到当前交通场景每个像素点的意义，使用目标检测可以得知当前场景中是否存在红绿灯、斑马线等标志物，使用分类器可以直接将当前交通场景分为指定的类别。

发明内容

本发明要解决的技术问题是：为了克服现有技术中之不足，本发明提供一种基于注视检测和交通场景识别的行人穿越马路意图识别方法，以其能够结合行人是否注意来车以及行人周围交通场景的信息来综合判断行人是否有穿越马路的意图，从而提高无人车对行人的保护能力。

本发明解决其技术问题所采用的技术方案是：一种基于注视检测和交通场景识别的行人穿越马路意图识别方法，包括以下步骤：

S1、基于运动目标检测算法检测行人并根据其运动信息确定感兴趣目标，提取感兴趣目标序列及其局部交通场景信息；

S2、利用残差卷积神经网络搭建感兴趣行人头部朝向分类器判断行人是否注视来车，并提取行人的头部朝向特征；

S3、利用卷积神经网络搭建感兴趣行人的局部交通场景分类器识别行人所处的场景，并提取局部交通场景特征；

S4、融合头部朝向特征与局部交通场景特征学习感兴趣行人的穿越/不穿越分类器，并在多任务学习框架下同时优化三个分类器。

进一步，所述步骤S1具体包括：

(1)、行人检测。

首先对输入图像序列进行处理，提取其中的感兴趣行人，即马路边有潜在穿越可能的行人。使用Faster-RCNN目标检测器检测输入图像序列每一帧的行人，记录行人在每一帧的位置信息，并将连续帧内所有行人的位置变化信息送到下一步进行感兴趣目标搜索。

(2)、感兴趣目标搜索。

得到某段时间范围内所有行人的位置变化信息后，根据该信息确定感兴趣目标。所述的感兴趣目标定义为在路边等待、有穿越倾向的行人。根据行人检测得到的每个行人的轨迹信息，令D_m和D_l分别表示轨迹内每两个时间点的平均位置变化和首尾两个时间点的位置变化，将D_m和D_l与预先通过经验设定的阈值T_m和T_l进行比较，如果小于阈值，则表示这个行人在该时间范围内静止或指发生了轻微位置变化，认为该人为感兴趣目标；如果大于阈值，则表示这个行人处于持续移动过程中，为非感兴趣目标。对于感兴趣目标，保存其在一定时间范围内的运动序列(该序列每一帧为检测到的感兴趣行人区域)以及局部交通场景序列(将检测到的感兴趣行人区域放大指定倍数后得到)。

所述步骤S2具体包括：

(1)、头部检测器的设计。

得到感兴趣目标序列后，需要进一步检测目标的头部区域，用于后续注视/非注视分类器的训练。对于任意感兴趣目标的最小外接矩形框，根据经验信息将最小外接矩形框的上1/3部分作为扫描区域；由于此区域背景简单，可使用YOLOv3目标检测器检测行人头部区域，以减小算法的时间开销。

(2)、残差卷积神经网络的搭建。

通过检测行人是否注视来车作为判断行人是否穿越马路的主要因素，为了检测行人是否注视来车，搭建基于残差卷积神经网络的注视/非注视分类器。所述注视/非注视分类器采用34层的残差卷积神经网络，网络由若干基本模块组成。对于任意基本模块，假设输入信号为X，首先经过F(F表示卷积滤波器数目，每个基本模块有不同的F)个3×3的卷积滤波器进行处理，然后接上批量标准化(BatchNorm)层以及线性整流函数(Rectified LinearUnit，ReLU)层进行归一化和激活操作，接着再使用F个3×3的卷积滤波器进行处理，输出的结果通过BatchNorm层归一化处理后，和基本模块的输入X进行逐元素相加操作以实现残差连接，相加后的结果经过ReLU层激活后输出。在定义了基本模块的前提下，34层的残差三维卷积神经网络结构如下：首先对输入信号使用64个3×3的三维卷积滤波器进行卷积处理，然后经过3×3的最大池化；输出的信号送入第二个数据处理组块，该组块由3个基本模块串联组成，滤波器数目F等于64；然后信号送入第三、四、五个数据处理组块，这些组块分别由4、6、3个基本模块串联组成，基本模块包含的滤波器数目分别为128、256、512；最后对第五个数据处理组块输出的特征图使用自适应平均池化得到512维的头部朝向特征。

(3)、行人注视/非注视分类器学习。

使用残差卷积神经网络可以提取感兴趣行人的头部朝向特征f_a，定义如下：

f_a＝Φ(p,W_a)

其中，f_a表示残差卷积神经网络提取出的行人头部朝向特征，Ф表示残差卷积神经网络，W_a表示残差神经网络的可学习参数，p表示YOLOv3目标检测器检检测到的头部区域信息。

头部朝向特征f_a一方面用来与局部交通场景特征进行融合，预测行人的穿越/不穿越意图，另一方面连接全连接(Fully connected layer，FC)层进行降维，从而得到反映行人注视/非注视的二维向量。本发明设计了三层FC层，实现了头部朝向特征f_a的降维：512->256->64->2，最后使用二分类交叉熵损失函数训练行人注视/非注视分类器，损失函数L₁如下所示：

L₁＝L_{binary_cross_entropy}(F_a(f_a,W_fa),Y_a)

其中，F_a表示用来降维的FC层，W_fa表示FC层的可学习参数，Y_a表示训练样本的真实标签(注视/非注视)。

所述步骤S3具体包括：

(1)、卷积神经网络的搭建。

通过识别局部交通场景作为判断行人是否穿越马路的辅助因素，所述局部交通场景包括六个典型交通场景，分别是：斑马线场景、红绿灯场景、行人标志场景、停车场场景、停止符号场景以及正常行驶场景，其中前五种场景揭示了行人有较大概率会穿越马路。由于多个场景可能共存(场景中包含斑马线和红绿灯)，搭建出基于卷积神经网络的局部交通场景多标签分类器。

该多标签分类器采用5层的卷积神经网络，其中前四层分别包含一个卷积层和一个下采样层，卷积层采用3×3的滤波器，然后接上BatchNorm层以及ReLU层进行归一化和激活操作，下采样通过步长为2的2×2最大池化操作实现；最后一层仅包含3×3滤波器的卷积层，并通过自适应最大池化将卷积层输出的特征图转换成局部交通场景特征f_p；每一层滤波器数目的设计遵循减少特征图分辨率的情况下增加特征通道数的原则，5层的卷积神经网络每一层的特征通道数目分别为32、64、128、256、512，最终向量f_p的维度是512。

(2)、局部交通场景分类器设计。

使用卷积神经网络可以提取局部交通场景特征f_p，定义如下：

f_p＝Ψ(P,W_p)

其中，f_p表示卷积神经网络提取出的局部交通场景特征，Ψ表示卷积神经网络，W_p表示卷积神经网络的可学习参数，P表示感兴趣目标周围的局部交通场景。

局部交通场景特征f_p一方面用来与头部朝向特征进行融合，预测行人的穿越/不穿越意图，另一方面需连接FC层进行降维，从而得到代表需要识别的6种交通场景的六维向量，其中向量的某一位为1表示当前存在该场景，否则该位为0。采用三层FC层，实现局部交通场景特征f_p的降维：512->256->64->6，最后使用多类别交叉熵损失函数训练局部交通场景多类别分类器，损失函数L₂如下式所示：

L₂＝L_{categorical_cross_entropy}(F_p(f_p,W_fp),Y_p)

其中，F_p表示所使用的三层FC层，W_fp表示FC层的可学习参数，Y_p表示样本的真实标签(包含的典型场景)。

所述步骤4)具体包括：

(1)、融合注视识别与交通场景分类的行人穿越马路意图识别。

搭建残差卷积神经网络从感兴趣行人的头部区域中提取头部朝向特征f_a，搭建卷积神经网络从感兴趣行人的周围交通场景中提取局部交通场景特征f_p，进一步可以融合这两个特征，得到能够综合反映行人穿越意图的特征并据此判断行人是否会进行穿越。

采用直接拼接的方式融合上述f_a与f_p，并使用一个全连接层FC将融合后的特征映射成包含两个神经元的向量，最后通过二分类交叉熵损失函数训练穿越/不穿越分类器，损失函数L₃如下式所示：

L₃＝L_{binary_cross_entropy}(F(f_a,f_p,W_f),Y_c)

其中，其中，F表示所使用的全连接层FC，W_f表示全连接网络FC的可学习参数，Y_c表示样本的真实标签(穿越/不穿越)。

为了实现整体框架的端到端训练并且充分利用不同分类器训练过程中的互补性，更好地进行特征提取，采用多任务学习方式同时对所设计的三个分类器进行优化，整体框架的损失函数的定义如下：

LOSS＝λ₁·L₁+λ₂·L₂+λ₃·L₃

其中，λ₁、λ₂、λ₃分别表示L₁、L₂、L₃的权重，可以通过交叉验证试验性地选择λ₁、λ₂、λ₃的取值。

本发明的有益效果是：

(1)、利用faster-RCNN进行行人检测，进一步利用检测到行人的运动信息来确定感兴趣目标，大大提高了行人穿越马路意图识别算法的效率；

(2)、利用残差卷积神经网络识别感兴趣行人是否注视来车，可以有效判断行人是否有穿越马路的倾向；

(3)、通过识别感兴趣行人周围的交通场景要素，可以有效改善利用行为识别行人穿越马路意图的准确性。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明的系统流程图。

图2是本发明中提出的用于提取头部朝向特征的残差卷积神经网络示意图。

图3是本发明中提出的用于提取局部交通场景特征的卷积神经网络示意图。

图4是本发明中提出的结合头部朝向特征与局部交通场景特征进行行人穿越意图识别的示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

如图1所示，一种基于注视检测和交通场景识别的行人穿越马路意图识别方法，该方法综合考虑了行人是否注视来车以及行人所处的交通环境这两个影响行人是否穿越马路的因素，通过faster-RCNN进行行人检测，进一步利用行人的运动信息搜索感兴趣目标，提取感兴趣目标的运动序列以及周围交通场景序列；训练了YOLOv3检测器用于检测感兴趣行人的头部区域，基于残差卷积神经网络搭建了行人的注视/非注视分类器，得到行人的面部朝向分类结果(分为注视/非注视两类)以及头部朝向特征；定义了斑马线场景、红绿灯场景、行人标志场景、停车场场景、停止符号场景以及正常行驶场景，基于卷积神经网络搭建了局部交通场景识别分类器，得到行人当前所处的交通场景情况以及局部交通场景特征；最后将头部朝向特征和局部交通场景特征进行融合，利用全连接层将融合后的特征降维，用降维后的特征训练穿越/不穿越分类器。考虑到三种分类器的内在关联，在多任务学习框架下同时对三个分类器进行训练，得到了更加准确地行人穿越/不穿越识别结果。

本发明的具体操作步骤如下：

1)、基于faster-RCNN的行人检测。

首先对输入图像序列进行处理，提取其中的感兴趣行人，即马路边有潜在穿越可能的行人；然后使用Faster-RCNN目标检测器检测输入图像序列每一帧的行人，记录行人在每一帧的位置信息，并将连续帧内所有行人的位置变化信息送到下一步进行感兴趣目标搜索。

2)、基于目标运动轨迹的感兴趣目标搜索。

得到某段时间范围内所有行人的位置变化信息后，根据该信息确定感兴趣目标。所述的感兴趣目标定义为在路边等待、有穿越倾向的行人，根据行人检测得到的每个行人的轨迹信息，令D_m和D_l分别表示轨迹内每两个时间点的平均位置变化和首尾两个时间点的位置变化，将D_m和D_l与预先通过经验设定的阈值T_m和T_l进行比较，如果小于阈值，则表示这个行人在该时间范围内静止或指发生了轻微位置变化，认为该人为感兴趣目标；如果大于阈值，则表示这个行人处于持续移动过程中，为非感兴趣目标。对于感兴趣目标，保存其在一定时间范围内的运动序列(该序列每一帧为检测到的感兴趣行人区域)以及局部交通场景序列(将检测到的感兴趣行人区域放大指定倍数后得到)。

3)、头部检测器的设计。

通过步骤2)得到感兴趣目标序列后，需要进一步检测目标的头部区域，用于后续注视/非注视分类器的训练。对于任意感兴趣目标的最小外接矩形框，根据经验信息将最小外接矩形框的上1/3部分作为扫描区域；由于此区域背景简单，因此采用YOLOv3目标检测器检测行人头部区域，以减小算法的时间开销。

图2给出了用于提取头部朝向特征的残差卷积神经网络示意图。

4)、残差卷积神经网络的搭建。

通过检测行人是否注视来车作为判断行人是否穿越马路的主要因素，为了检测行人是否注视来车，搭建了基于残差卷积神经网络的注视/非注视分类器。采用34层的残差卷积神经网络，网络由若干基本模块组成，对于任意基本模块，假设输入信号为X，首先经过F(F表示卷积滤波器数目，每个基本模块有不同的F)个3×3的卷积滤波器进行处理，然后接上批量标准化(BatchNorm)层以及线性整流函数(Rectified Linear Unit，ReLU)层进行归一化和激活操作，接着再使用F个3×3的卷积滤波器进行处理，输出的结果通过BatchNorm层归一化处理后，和基本模块的输入X进行逐元素相加操作以实现残差连接，相加后的结果经过ReLU层激活后输出。在定义了基本模块的前提下，34层的残差三维卷积神经网络结构如下：首先对输入信号使用64个3×3的三维卷积滤波器进行卷积处理，然后经过3×3的最大池化；输出的信号送入第二个数据处理组块，该组块由3个基本模块串联组成，滤波器数目F等于64；然后信号送入第三、四、五个数据处理组块，这些组块分别由4、6、3个基本模块串联组成，基本模块包含的滤波器数目分别为128、256、512；最后对第五个数据处理组块输出的特征图使用自适应平均池化得到512维的头部朝向特征。

5)、行人注视/非注视分类器学习。

使用残差卷积神经网络提取感兴趣行人的头部朝向特征f_a，定义如下：

f_a＝Φ(p,W_a)

头部朝向特征f_a一方面用来与局部交通场景特征进行融合，预测行人的穿越/不穿越意图，另一方面连接全连接(Fully connected layer，FC)层进行降维，从而得到反映行人注视/非注视的二维向量。采用三层FC层，实现头部朝向特征f_a的降维：512->256->64->2，最后使用二分类交叉熵损失函数训练行人注视/非注视分类器，损失函数L₁如下式所示：

L₁＝L_{binary_cross_entropy}(F_a(f_a,W_fa),Y_a)

图3给出了用于提取局部交通场景特征的卷积神经网络示意图。

6)、卷积神经网络的搭建。

通过识别局部交通场景作为判断行人是否穿越马路的辅助因素，所述局部交通场景包括六个典型交通场景，分别是：斑马线场景、红绿灯场景、行人标志场景、停车场场景、停止符号场景以及正常行驶场景，其中前五种场景揭示了行人有较大概率会穿越马路。由于多个场景可能共存(场景中包含斑马线和红绿灯)，因此搭建了基于卷积神经网络的局部交通场景多标签分类器，并采用5层的卷积神经网络，其中前四层分别包含一个卷积层和一个下采样层，卷积层采用3×3的滤波器，然后接上BatchNorm层以及ReLU层进行归一化和激活操作，下采样通过步长为2的2×2最大池化操作实现；最后一层仅包含3×3滤波器的卷积层，并通过自适应最大池化将卷积层输出的特征图转换成局部交通场景特征f_p；每一层滤波器数目的设计遵循减少特征图分辨率的情况下增加特征通道数的原则，5层的卷积神经网络每一层的特征通道数目分别为32、64、128、256、512，最终向量f_p的维度是512。

7)、局部交通场景分类器设计。

f_p＝Ψ(P,W_p)

局部交通场景特征f_p一方面用来与头部朝向特征进行融合，预测行人的穿越/不穿越意图，另一方面需连接FC层进行降维，从而得到代表本发明需要识别的6种交通场景的六维向量，其中向量的某一位为1表示当前存在该场景，否则该位为0。本实施例采用三层FC层，实现局部交通场景特征f_p的降维：512->256->64->6，最后使用多类别交叉熵损失函数训练局部交通场景多类别分类器，损失函数L₂如下所示：

L₂＝L_{categorical_cross_entropy}(F_p(f_p,W_fp),Y_p)

图4给出了结合头部朝向特征与局部交通场景特征进行行人穿越意图识别的示意图。

8)、融合注视识别与交通场景分类的行人穿越马路意图识别。

通过搭建残差卷积神经网络从感兴趣行人的头部区域中提取头部朝向特征f_a，通过搭建卷积神经网络从感兴趣行人的周围交通场景中提取局部交通场景特征f_p，进一步可以融合这两个特征，得到能够综合反映行人穿越意图的特征并据此判断行人是否会进行穿越。

采用直接拼接的方式融合f_a与f_p，并使用一个全连接层FC将融合后的特征映射成包含两个神经元的向量，最后通过二分类交叉熵损失函数训练穿越/不穿越分类器，损失函数L₃如下所示：

L₃＝L_{binary_cross_entropy}(F(f_a,f_p,W_f),Y_c)

LOSS＝λ₁·L₁+λ₂·L₂+λ₃·L₃

本发明借鉴了卷积神经网络在目标分类上的成功，设计了三个分类器，分别用来分类行人的注视/非注视行为、当前所属的交通场景以及穿越/不穿越意图，并可在多任务学习框架下同时学习三个分类器，可以得到更加准确的分类效果，提高了识别行人穿越意图的准确性。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于注视检测和交通场景识别的行人穿越马路意图识别方法，其特征是：具有以下步骤：

S1、基于运动目标检测的感兴趣目标搜索；

S2、基于残差卷积神经网络的行人注视/非注视识别；

S3、基于卷积神经网络的局部交通场景识别；

S4、基于多任务学习框架的行人穿越/不穿越结果识别。

2.如权利要求1所述的基于注视检测和交通场景识别的行人穿越马路意图识别方法，其特征是：所述的步骤S1中，具体包括：

(1)、行人检测：首先要对输入图像序列进行处理，提取其中的感兴趣行人，即马路边有潜在穿越可能的行人；

(2)、感兴趣目标搜索：得到某段时间范围内所有行人的位置变化信息后，根据该信息确定感兴趣目标。

3.如权利要求1所述的基于注视检测和交通场景识别的行人穿越马路意图识别方法，其特征是：所述的步骤S2中，具体包括：

(1)、头部检测器的设计：对得到的感兴趣目标序列，进一步检测目标的头部区域，用于后续注视/非注视分类器的训练；

(2)、残差卷积神经网络的搭建：通过搭建基于残差卷积神经网络的注视/非注视分类器来检测行人是否注视来车，作为判断行人是否穿越马路的主要因素；

(3)、行人注视/非注视分类器学习：使用残差卷积神经网络提取感兴趣行人的头部朝向特征f_a，定义如下：

f_a＝Φ(p,W_a)

上式中，f_a表示残差卷积神经网络提取出的行人头部朝向特征，Ф表示残差卷积神经网络，W_a表示残差神经网络的可学习参数，p表示目标检测器检检测到的头部区域信息。

4.如权利要求1所述的基于注视检测和交通场景识别的行人穿越马路意图识别方法，其特征是：所述的步骤S3中，具体包括：

(1)、卷积神经网络的搭建：通过识别局部交通场景作为判断行人是否穿越马路的辅助因素，搭建出基于卷积神经网络的局部交通场景多标签分类器；

(2)、局部交通场景分类器设计：使用卷积神经网络可以提取局部交通场景特征f_p，定义如下：

f_p＝Ψ(P,W_p)

5.如权利要求1所述的基于注视检测和交通场景识别的行人穿越马路意图识别方法，其特征是：所述的步骤S4中，具体包括：

(1)、融合注视识别与交通场景分类的行人穿越马路意图识别：通过搭建残差卷积神经网络从感兴趣行人的头部区域中提取头部朝向特征f_a，通过搭建卷积神经网络从感兴趣行人的周围交通场景中提取局部交通场景特征f_p，进一步可以融合这两个特征，得到能够综合反映行人穿越意图的特征并据此判断行人是否会进行穿越；

(2)、采用直接拼接的方式融合f_a与f_p，并使用一个全连接层FC将融合后的特征映射成包含两个神经元的向量，最后通过二分类交叉熵损失函数训练穿越/不穿越分类器，损失函数L₃如下式所示：

L₃＝L_{binary_cross_entropy}(F(f_a,f_p,W_f),Y_c)

其中，其中，F表示所使用的全连接层FC，W_f表示全连接网络FC的可学习参数，Y_c表示样本的真实标签。