CN112329682A

CN112329682A - 一种基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法

Info

Publication number: CN112329682A
Application number: CN202011276593.6A
Authority: CN
Inventors: 杨彪; 杨吉成; 徐黎明; 陈阳; 吕继东; 毕卉
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-02-05
Anticipated expiration: 2040-11-16
Also published as: CN112329682B

Abstract

本发明涉及一种基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法，首先通过faster‑RCNN进行行人检测，进一步利用行人的运动信息搜索感兴趣目标，提取感兴趣目标的运动序列、周围交通场景序列以及轨迹位置；其次设计了一种三维卷积神经网络来处理感兴趣目标的运动序列，得到与行人穿越马路意图相关的行为特征；然后本发明根据行人所处的局部交通场景的要素以及车辆行驶速度得到两个权重，来修正人‑车距离，并将修正后的距离送到多层感知机进行编码，得到与行人穿越马路意图相关的距离特征；最后将行为特征和距离特征进行信息融合，利用全连接层将融合后的特征降维，并通过softmax操作得到行人是否穿越马路的结果。

Description

一种基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法

技术领域

本发明涉及智能交通技术领域，具体涉及行人检测与分析领域，尤其是一种基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法。

背景技术

随着人工智能、传感器以及控制理论的不断发展，无人车引起了学界和工业界的广泛关注，具有光明的应用前景。但是，无人车也需要保证其它道路使用者的权利，尤其是要保证较为弱势的行人的权利，这就要求无人车可以理解行人的行为。在行人的诸多行为中，行人穿越马路是发生最为频繁、而且与行人的安全息息相关的行为。驾驶员可以通过简单的语言/非语言沟通感知行人是否会穿越马路，但是无人车仍然难以在高效通行和保证行人安全两者间达到较好的平衡。

行人穿越马路意图得到了交通领域的深入研究，通常分为外部因素(交通场景的布局、交通流量以及天气情况等)和内部因素(性别、年龄、时间压力等)。完全准确地感知行人是否有穿越马路的意图非常困难，但是，行人的注视来车、摆手以及腿部运动等行为揭示了其有较强的可能会进行穿越；同时，交通场景对行人是否穿越也有较大的影响。在红绿灯路口或者设有行人标志的路口，行人穿越的可能性越高；另外，行人距离车的距离越远，车辆的行驶速度越慢，行人就越有可能穿越马路。

利用计算机视觉技术，研究者可以提取行人的轮廓信息、形状信息以及历史运动信息来判断行人是否有穿越马路的意图，但是精度不高。随着深度学习技术的发展，研究者提取了行人的骨骼图，并根据骨骼图的运动模式来判断行人是否会进行穿越，具有较高的精度，但是准确提取骨骼图受到距离因素的限制。

发明内容

本发明要解决的技术问题是：为了克服现有技术中之不足，本发明提供一种基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法，以其能够结合行人的动作信息、行人周围交通场景的信息、行人与车辆的距离信息以及车辆本身的速度信息来综合判断行人是否有穿越马路的意图，从而提高无人车对行人的保护能力。

本发明解决其技术问题所采用的技术方案是：一种基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法，包括以下步骤：

S1、基于运动目标检测算法，检测行人并根据其运动信息确定感兴趣目标，提取感兴趣目标序列及其局部交通场景信息；

S2、基于三维卷积神经网络提取与行人的穿越动作相关的特征；

S3、综合行人周围交通场景的信息、行人与车辆的距离信息以及车辆本身的速度进行编码，编码的特征可以反映行人是否有穿越马路的意图；

S4、融合动作识别结果与局部交通场景上下文因素对行人穿越马路的意图进行识别。

进一步，所述步骤S1具体包括：

(1)、行人检测

首先对输入图像序列进行处理，提取其中的感兴趣行人，以减少算法处理非感兴趣行人的时间开销，使用faster-RCNN目标检测器检测输入图像序列每一帧的行人，记录行人在每一帧的位置信息，并将连续帧内所有行人的位置变化信息送到下一步进行感兴趣目标搜索。

(2)、感兴趣目标搜索

得到某段时间范围内所有行人的位置变化信息后，根据该信息确定感兴趣目标，其中的感兴趣目标定义为在路边等待的行人，而不关注其它行走或奔跑的行人目标。假设行人的位置变化信息由其若干帧内的轨迹表示，令D_m和D_l分别表示轨迹内每两个时间点的平均位置变化和首尾两个时间点的位置变化，将 D_m和D_l与预先设定的阈值T_m和T_l进行比较，如果小于阈值，则表示这个行人在该时间范围内静止或指发生了轻微位置变化，认为该人为感兴趣目标；如果大于阈值，则表示这个行人处于持续移动过程中，后续无需关注该目标。对于感兴趣目标，保存其在一定时间范围内的运动序列(该序列每一帧为检测到的感兴趣行人区域)、局部交通场景序列(将检测到的感兴趣行人区域放大指定倍数后得到)以及感兴趣行人的位置序列。

所述步骤S2具体包括：

(1)、三维卷积神经网络的搭建

通过检测行人即将穿越马路的早期动作(譬如摆手、抬腿、注视来车等) 作为判断行人是否穿越马路的主要因素。为了完成早期穿越动作的检测，需要搭建三维卷积神经网络进行动作识别，本方案搭建了34层的残差三维卷积神经网络，网络由若干基本模块组成，对于每个基本模块，假设输入信号为X，首先经过F(F表示该基本模块的三维卷积滤波器数目，每个基本模块的F不同)个 3×3×3的三维卷积滤波器进行处理，然后接上批量标准化(BatchNorm)层以及线性整流函数(Rectified Linear Unit，ReLU)层进行归一化和激活操作，接着再使用F个3×3×3的三维卷积滤波器进行处理，输出的结果通过BatchNorm 层归一化处理后，和基本模块的输入进行逐元素相加操作以实现残差连接，相加后的结果经过ReLU层激活后输出。在定义了基本模块的前提下，34层的残差三维卷积神经网络结构如下：首先对输入信号使用64个3×3×3的三维卷积滤波器进行卷积处理，然后经过3×3×3的三维最大池化后输出信号；输出的信号送入第二个数据处理组块，该组块由3个基本模块串联组成，滤波器数目F 等于64；然后信号送入第三、四、五个数据处理组块，这些组块分别由4、6、 3个基本模块串联组成，基本模块的滤波器数目分别为128、256、512；最后对第五个数据处理组块输出的特征图用自适应平均池化处理得到一串向量，然后接全连接(Fullyconnected layer，FC)层进行降维操作。

(2)、基于行人分块的穿越动作识别

上述步骤搭建的三维卷积神经网络可以用于动作识别，涉及到行人穿越动作识别，需要根据先验经验对行人进行分块。考虑到行人的注视动作和腿部动作对于判断其是否有穿越意图至关重要，首先将行人分为上半身、下半身以及完整身体三个部分，分别提取这三个部分的连续图像序列，然后分别送入三维卷积神经网络进行处理，提取出与行人穿越意图相关的特征，过程可用如下公式表示：

f_a＝Φ(p,W_a)p∈{p_up,p_down,p_entire}

其中，f_a表示三维卷积神经网络提取出的与行人穿越意图相关的动作特征，φ表示三维卷积神经网络，W_a表示三维神经网络的可学习参数，p表示选中的行人某个部分，p_up、p_down、p_entire分别表示行人的上半身、下半身以及完整身体三个部分。

所述步骤S3具体包括：

(1)、基于目标检测的交通场景上下文识别

交通场景上下文识别指识别出当前场景的交通要素，包括交通灯、斑马线以及行人标志等。常用的识别交通场景上下文的方法包括目标检测和语义分割，考虑到实时性的需求，在此利用faster-RCNN目标检测算法检测感兴趣行人的局部交通场景内的交通要素。定义交通场景权重w_b表示感兴趣行人的局部交通场景内是否存在交通灯、斑马线以及行人标志等提示行人可能会穿越马路的要素，如果检测到这些要素，令w_b为2，否则为1。

(2)、基于上下文因素的人-车距离编码

车辆与行人的距离很大程度上影响了行人是否会穿越马路的决策，一般来说：车辆距离行人越远，行人越倾向于穿越；车辆的速度越慢，行人越倾向于穿越；感兴趣行人的局部交通场景内有交通要素，行人越倾向于穿越。

针对人和车之间距离的计算，定义x_dis和y_dis分别表示人和车之间的横向和纵向距离，由于摄像头通常悬挂于车内，因此假设车辆处于底部中间的位置，根据检测到的感兴趣行人的中心位置c_x和c_y，x_dis和y_dis的计算如下：

x_dis＝abs(c_x-W/2)/w

y_dis＝abs(c_y-H)/h

其中，W和H分别表示图像的宽和高，w和h分别表示感兴趣行人的外接矩形框的宽和高，用来克服图像的透视畸变效应。

针对车速对行人穿越决策的影响，定义车速权重w_v，根据车速的不同将w_v分为5个级别，具体定义如下：

结合感兴趣行人和车之间的横向和纵向距离x_dis和y_dis、车速权重w_v以及交通场景权重w_b，定义修正后的横向和纵向距离

和

得到修正后的横向和纵向距离

和

之后，使用一个多层感知机对距离因素进行编码，抽取出能够反映行人穿越意图的特征，编码方式如下：

其中，f_p表示所提取的距离特征，ψ表示采用的多层感知机，W_p表示多层感知机的可学习参数。

所述步骤S4具体包括：

(1)、融合动作识别与交通场景上下文因素的行人穿越马路意图识别

通过搭建的三维卷积神经网络从行人的动作中提取出与行人穿越意图相关的编码特征f_a，通过综合考虑感兴趣行人周围局部交通场景的上下文要素及人- 车距离以及车的行驶速度得到上下文因素的人-车距离编码特征f_p，进一步可以融合这两个编码特征，从而得到能够综合反映行人穿越意图的特征并据此判断行人是否会进行穿越。

采用直接拼接的方式融合f_a与f_p，并使用一个全连接层FC将融合后的特征映射成包含两个神经元的向量，最后通过softmax操作得到穿越意图(穿越/不穿越)的分类识别结果，使用交叉熵损失函数来优化整个框架，损失函数的定义如下：

LOSS＝L_{cross_entropy}(F(f_a,f_p,W_f),Y)

其中，F表示所使用的全连接网络，W_f表示全连接网络的可学习参数，Y表示样本的真实标签。

本发明的有益效果是：

(1)、利用faster-RCNN进行行人检测，进一步利用检测到行人的运动信息来确定感兴趣目标，大大提高了行人穿越马路意图识别算法的效率；

(2)、利用三维卷积神经网络识别行人穿越马路的早期动作，可以有效判断行人是否有穿越马路的倾向；

(3)、通过综合分析感兴趣行人周围的交通场景要素、人-车距离因素以及车辆的速度，可以有效改善利用行为识别行人穿越马路意图的准确性。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明的系统流程图。

图2是本发明中提出的基于运动目标检测的感兴趣目标搜索的示意图。

图3是本发明中提出的用于动作识别的三维卷积神经网络示意图。

图4是本发明中提出的结合动作特征与距离特征进行行人穿越意图识别的示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

如图1所示，一种基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法，该方法综合考虑了影响行人做出是否穿越马路决策的多个因素，包括：行人穿越马路前的一些肢体动作(摆臂、抬腿、头部注视等)、行人所处的局部交通场景的要素(红绿灯、斑马线、行人标识等)、人-车距离以及车辆行驶速度。通过faster-RCNN进行行人检测，进一步利用行人的运动信息搜索感兴趣目标，提取感兴趣目标的运动序列、周围交通场景序列以及轨迹位置。通过设计一种三维卷积神经网络来处理感兴趣目标的运动序列，得到与行人穿越马路意图相关的行为特征；并根据行人所处的局部交通场景的要素以及车辆行驶速度得到两个权重，来修正人-车距离，并将修正后的距离送到多层感知机进行编码，得到与行人穿越马路意图相关的距离特征；最后将行为特征和距离特征进行信息融合，利用全连接层将融合后的特征降维，通过softmax操作得到行人是否穿越马路的结果。

本发明的具体操作步骤如下：

图2给出了基于运动目标检测的感兴趣目标搜索的示意图。

1)、基于faster-RCNN的行人检测。

首先要对输入图像序列进行处理，提取其中的感兴趣行人，以减少算法处理非感兴趣行人的时间开销。然后使用faster-RCNN目标检测器检测输入图像序列每一帧的行人，记录行人在每一帧的位置信息，并将连续帧内所有行人的位置变化信息送到下一步进行感兴趣目标搜索。

2)、基于目标运动轨迹的感兴趣目标搜索。

得到某段时间范围内所有行人的位置变化信息后，根据该信息确定感兴趣目标。所述感兴趣目标定义为在路边等待的行人，而不关注其它行走或奔跑的行人目标。假设行人的位置变化信息由其若干帧内的轨迹表示，令D_m和D_l分别表示轨迹内每两个时间点的平均位置变化和首尾两个时间点的位置变化，将D_m和D_l与预先设定的阈值T_m和T_l进行比较，如果小于阈值，则表示这个行人在该时间范围内静止或指发生了轻微位置变化，认为该人为感兴趣目标；如果大于阈值，则表示这个行人处于持续移动过程中，后续无需关注该目标。对于感兴趣目标，保存其在一定时间范围内的运动序列(该序列每一帧为检测到的感兴趣行人区域)、局部交通场景序列(将检测到的感兴趣行人区域放大指定倍数后得到)以及感兴趣行人的位置序列。

图3给出了用于动作识别的三维卷积神经网络示意图。

3)、三维卷积神经网络的搭建。

通过检测行人即将穿越马路的早期动作(譬如摆手、抬腿、注视来车等) 作为判断行人是否穿越马路的主要因素，为了完成早期穿越动作的检测，需要搭建三维卷积神经网络进行动作识别。

采用搭建34层的残差三维卷积神经网络，网络由若干基本模块组成，对于每个基本模块，假设输入信号为X，首先经过F(F表示该基本模块的三维卷积滤波器数目，每个基本模块的F不同)个3×3×3的三维卷积滤波器进行处理，然后接上批量标准化(BatchNorm)层以及线性整流函数(Rectified Linear Unit，ReLU)层进行归一化和激活操作，接着再使用F个3×3×3的三维卷积滤波器进行处理，输出的结果通过BatchNorm层归一化处理后，和基本模块的输入进行逐元素相加操作以实现残差连接，相加后的结果经过ReLU层激活后输出。在定义了基本模块的前提下，34层的残差三维卷积神经网络结构如下：首先对输入信号使用64个3×3×3的三维卷积滤波器进行卷积处理，然后经过3×3×3 的三维最大池化后输出信号；输出的信号送入第二个数据处理组块，该组块由3 个基本模块串联组成，滤波器数目F等于64；然后信号送入第三、四、五个数据处理组块，这些组块分别由4、6、3个基本模块串联组成，基本模块的滤波器数目分别为128、256、512；最后对第五个数据处理组块输出的特征图用自适应平均池化处理得到一串向量，然后接全连接(Fully connected layer，FC)层进行降维操作。

图4给出了结合动作特征与距离特征进行行人穿越意图识别的示意图。

4)、基于行人分块的穿越动作识别。

搭建的三维卷积神经网络可以用于动作识别，涉及到的行人穿越动作识别，需要根据先验经验对行人进行分块。考虑到行人的注视动作和腿部动作对于判断其是否有穿越意图至关重要，在此将行人分为上半身、下半身以及完整身体三个部分，分别提取这三个部分的连续图像序列，然后分别送入三维卷积神经网络进行处理，提取出与行人穿越意图相关的特征，过程可用如下公式表示：

f_a＝Φ(p,W_a)p∈{p_up,p_down,p_entire}

5)、基于目标检测的交通场景上下文识别。

交通场景上下文识别指识别出当前场景的交通要素，包括交通灯、斑马线以及行人标志等。常用的识别交通场景上下文的方法包括目标检测和语义分割，考虑到实时性的需求，利用faster-RCNN目标检测算法检测感兴趣行人的局部交通场景内的交通要素。定义了交通场景权重w_b表示感兴趣行人的局部交通场景内是否存在交通灯、斑马线以及行人标志等提示行人可能会穿越马路的要素，如果检测到这些要素，令w_b为2，否则为1。

6)、基于上下文因素的人-车距离编码。

车辆与行人的距离很大程度上影响了行人是否会穿越马路的决策。一般来说：车辆距离行人越远，行人越倾向于穿越；车辆的速度越慢，行人越倾向于穿越；感兴趣行人的局部交通场景内有交通要素，行人越倾向于穿越。

针对人和车之间距离的计算，定义x_dis和y_dis分别表示人和车之间的横向和纵向距离。由于摄像头通常悬挂于车内，因此假设车辆处于底部中间的位置，根据检测到的感兴趣行人的中心位置c_x和c_y，x_dis和y_dis的计算如下：

x_dis＝abs(c_x-W/2)/w

y_dis＝abs(c_y-H)/h

针对车速对行人穿越决策的影响，本发明定义了车速权重w_v，根据车速的不同将w_v分为5个级别，具体定义如下：

结合感兴趣行人和车之间的横向和纵向距离x_dis和y_dis、车速权重w_v以及交通场景权重w_b，本发明定义了修正后的横向和纵向距离

和

得到修正后的横向和纵向距离

和

之后，本发明使用一个多层感知机对距离因素进行编码，抽取出能够反映行人穿越意图的特征，编码方式如下：

7)、融合动作识别与交通场景上下文因素的行人穿越马路意图识别。

通过搭建的三维卷积神经网络从行人的动作中提取出了与行人穿越意图相关的编码特征f_a，通过综合考虑感兴趣行人周围局部交通场景的上下文要素及人-车距离以及车的行驶速度得到了上下文因素的人-车距离编码特征f_p，进一步可以融合这两个编码特征，从而得到能够综合反映行人穿越意图的特征并据此判断行人是否会进行穿越。

采用直接拼接的方式融合f_a与f_p，并使用一个全连接层FC将融合后的特征映射成包含两个神经元的向量，最后通过softmax操作得到穿越意图(穿越/不穿越)的分类识别结果。使用交叉熵损失函数来优化整个框架，损失函数的定义如下：

LOSS＝L_{cross_entropy}(F(f_a,f_p,W_f),Y)

本发明借鉴了卷积神经网络在通用动作识别上的成功，搭建了三维卷积神经网络来预测行人穿越前的早期动作，得到与行人穿越意图相关的动作特征；为了提高识别行人穿越意图的准确性，利用人-车距离作为辅助判断依据，并根据先验信息添加了交通场景要素和车辆速度要素对人-车距离进行加权修正，并将修正后的人-车距离进行编码后得到距离特征；最后综合考虑动作特征和距离特征，得到行人是否要穿越马路的结果。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法，其特征是：具有以下步骤：

S1、基于运动目标检测的感兴趣目标搜索；

S2、基于三维卷积神经网络的穿越动作识别；

S3、基于上下文因素的距离编码模块；

S4、融合动作识别与上下文因素的行人穿越马路意图识别。

2.如权利要求1所述的基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法，其特征是：所述的步骤S1中，具体包括：

(1)、行人检测：首先对输入图像序列进行处理，提取其中的感兴趣行人，以减少算法处理非感兴趣行人的时间开销；

(2)、感兴趣目标搜索：在得到某段时间范围内所有行人的位置变化信息后，根据该信息确定感兴趣目标。

3.如权利要求1所述的基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法，其特征是：所述的步骤S2中，具体包括：

(1)、三维卷积神经网络的搭建：通过检测行人即将穿越马路的早期动作作为判断行人是否穿越马路的主要因素；

(2)、基于行人分块的穿越动作识别：将上述步骤搭建的三维卷积神经网络用于行人穿越动作识别，对行人进行分块。

4.如权利要求1所述的基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法，其特征是：所述的步骤S3中，具体包括：

(1)、基于目标检测的交通场景上下文识别：识别出当前场景的交通要素，包括交通灯、斑马线以及行人标志；

(2)、基于上下文因素的人-车距离编码：车辆与行人的距离很大程度上影响了行人是否会穿越马路的决策，车辆距离行人越远，行人越倾向于穿越；车辆的速度越慢，行人越倾向于穿越；感兴趣行人的局部交通场景内有交通要素，行人越倾向于穿越。

5.如权利要求1所述的基于穿越动作和交通场景上下文因素的行人穿越马路意图识别方法，其特征是：所述的步骤S4中，具体包括：

(1)、通过搭建三维卷积神经网络，从行人的动作中提取与行人穿越意图相关的编码特征f_a，并根据感兴趣行人周围局部交通场景的上下文要素及人-车距离以及车的行驶速度，得到上下文因素的人-车距离编码特征f_p，进一步融合这两个编码特征，从而得到能够综合反映行人穿越意图的特征并据此判断行人是否会进行穿越；

(2)、采用直接拼接的方式融合f_a与f_p，并使用一个全连接层FC将融合后的特征映射成包含两个神经元的向量，最后通过softmax操作得到穿越意图的分类识别结果。