CN114120439A

CN114120439A - 一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法

Info

Publication number: CN114120439A
Application number: CN202111186928.XA
Authority: CN
Inventors: 杨晨; 蔡英凤; 陈龙; 刘泽; 刘擎超; 王海; 李祎承; 孙晓强
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2021-10-12
Filing date: 2021-10-12
Publication date: 2022-03-01

Abstract

本发明公开了一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法，根据环境中捕获的不同时空上下文信息，包括视觉特征信息和非视觉特征信息共5种信息，并通过一种新型的神经网络架构，使用混合方法，利用前馈网络和循环架构对各信息源进行联合视觉空间和动态推理，融合T时刻历史m个时步的视觉信息和非视觉信息，对行人在时间T处的当前状态或动作进行分类、预测未来的穿越意图、在T时间输出动作和意图概率，该模型同时还预测时间T至时间T+n的轨迹。本发明全面考虑行人所处交通环境的全局时空上下文信息，包含视觉和非视觉的五种信息源，提高行人穿越意图预测的准确性，具有占内存量少、推理速度快、关联任务性能互补等优点。

Description

一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法

技术领域

本发明属于智能驾驶技术领域，尤其涉及一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法。

背景技术

道路使用者的行为识别与意图预测一直以来都是城市环境中智能驾驶系统面临的一个非常具有挑战性的问题。在当前混合交通环境条件下，行人在道路交通系统中由于缺乏相应的保护设备而成为道路交通参与者中的弱势群体，智能驾驶汽车利用自主式或网联式感知方式，在实现周边感知范围内行人目标识别的基础上，针对其穿越意图和未来运动轨迹进行预测，从而辅助智能汽车进行智能决策和路径规划，对于行人保护和汽车行驶安全具有十分重要的意义。研究表明，行人的穿越意图受到外部环境因素(如交通场景布局、天气状况、与其他代理的交互关系等)、内部因素(如行人的性别、年龄、情绪)以及动态因素(如速度、轨迹和预期目标)等多种因素的影响。近年来，已经提出了许多深度学习架构，它们利用各种数据模态，例如视觉特征、行人动态、姿态、自我运动等，以预测行人未来的穿越意图。但是这些方法很难兼顾时空上下文信息，也鲜少聚焦不同类型信息之间的融合。

随着基于视觉的智能驾驶感知算法的迅速发展，前置摄像头等视觉传感器因输出信息丰富、可扩展性高和性价比高等优势，被广泛应用于计算机视觉领域和图像感知领域，单目摄像头更是成为了智能汽车的标配，因此，基于第一人称单目摄像头的感知算法研究具有广阔的应用前景。在预测行人的穿越意图方面，现有的方法主要依据行人穿越前的早期动作或历史轨迹。相较于汽车运动，行人运动具有更大自由度、随机性和不可预测性，这使得其基于动作识别的意图预测难度极大，骨架特征作为一种细粒度特征在动作识别方面很具优势，基于准确的骨架特征，可以通过定义特定的姿势来识别行人的穿越意图，但只有行人被很好地观察到时才能提取这种细粒度的特征。基于历史轨迹的意图预测方法侧重于考虑行人的动态因素，现有的行人轨迹预测方法如动态贝叶斯网络、递归贝叶斯滤波器和多层感知器，大多是结合动态系统的方法,泛化性能不佳。后来一些基于深度学习和强化学习的方法也被用于轨迹预测以及基于历史轨迹的意图识别，但这些方法基本都是基于俯视视角的，因为要克服汽车运动过程中不断变化的相机视点、遮挡和其他动态场景，想要在自车视角下利用历史轨迹，预测行人的未来轨迹以及穿越意图仍然具有挑战性。

发明内容

为了解决现有的行人穿越意图识别方法所存在的缺陷，本发明提出了一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法，它通过从环境中捕获的不同时空上下文信息，并最终通过一种新型的神经网络架构融合T时刻历史m个时步的视觉信息和非视觉信息，对行人在时间T处的当前状态或动作进行分类、预测未来的穿越意图、在T时间输出动作和意图概率，该模型同时还预测时间T至时间T+n的轨迹。该方法全面考虑了行人所处交通环境的全局时空上下文信息，输入包含视觉和非视觉的五种信息源，以提高行人穿越意图预测的准确性。同时采用一种新型的神经网络架构，使用混合方法，利用前馈网络和循环架构对各信息源进行联合视觉空间和动态推理，从而更好地融合不同类型的特征，此外，该多任务学习模型同时实现对行人穿越意图和未来运动轨迹的预测，具有占用内存量少、推理速度快、关联任务性能互补等优点。

预测行人的穿越意图是一个多模态时空问题，为了更好地利用环境信息，本发明联合预测行人的穿越意图以及视频序列中的轨迹，从环境中捕获不同时空上下文信息，最终通过融合T时刻历史m个时步的视觉信息和非视觉信息来识别当前动作并预测行人的穿越意图以及行人未来n个时步的运动轨迹。

本方法所涉及的信息源不仅包含环境语义等视觉特征，还包括车辆状态等非视觉信息。其中视觉特征的来源分别是：观察到的行人周围的局部环境上下文信息

由语义分割掩码表示的全局环境上下文信息 C_g＝{c^t-m,c^t ^-m+1,...,c^t}。非视觉特征的来源分别是：行人的姿态关键点信息

由人体边界框表示的行人的位置轨迹信息

自我车辆的运动速度信息S＝{s^t-m，s^t-m+1,...,s^t}。

为了更好地利用环境上下文信息，本发明采用了一种新型神经网络框架及混合融合方法来融合行为信息和环境上下文信息，其中包括种视觉信息和非视觉信息之间的融合。视觉信息包含由连续视频帧经感知主干网络处理而得的语义地图和每个行人的周围的局部环境信息，语义地图包含有道路、车辆、行人、人行道、交通标志这5个类别，分别由不同的二进制掩码表示，行人的局部环境上下文信息则是对输入的连续视频帧，按照二维边界框经一定比例扩大后的框图裁剪而得的连续RGB图像序列，主要表示行人的外观特征。本方法同时关注输入信息源的空间特征和时间特征，并引入了注意力模块以更好地学习序列特征，空间特征由二维卷积神经网络获取，时间特征则由长短时记忆网络获得。视觉信息之间的融合涉及一种后融合技术，经融合后的视觉信息被送入 LSTM中提取以时间上的关联信息，其输出被馈送到注意力模块以获得最终视觉特征。

关于非视觉信息的融合，本发明采用一种分层融合的方式，根据信息的复杂度和抽象度将行人的二维姿态关键点信息、行人的二维边界框信息以及自我车辆的车速信息融合在一起。行人的二维边界框信息由边界框左上角和右下角的坐标表示，表征行人的位置轨迹信息。行人的二维姿态关键点信息由经AlphaPose姿态估计算法处理而得的人体 17个关键点坐标表示，表征行人的动作信息，车辆的自我车速信息可以从车速度传感器中直接获取，它表征车辆的自我运动信息。这里同样引入了LSTM和序列注意力模块，融合后得到的最终非视觉特征与最终视觉特征经融合后被连接以馈入注意力模块，然后应用全连接层来进行最终预测。

本发明将行人的穿越意图预测被表述为一个与五个信息输入源相关的优化问题，即 P(A^t+n|C_li,P_i,L_i,C_g，S)，其优化目标是在未来的某个时间，估计视频中部分行人穿越意图的概率A^t+n∈{0,1}，同时，该模型识别行人的动作并预测其未来的运动轨迹。本发明所涉及的行人行为类别包括步态、注意、方向和分心，行人的行为预测作为本方法的任务之一的同时也是进行最终的行人意图预测的输入之一。动作预测主要依据人体骨骼关键点坐标，本方法根据各动作类别相关的关键点部位将关键点分为上、中、下三个区域，对应地将其标记为a、b、c，分别用于识别方向和注意、分心以及步态。a区包括头部——眼睛、鼻子、耳朵和肩膀处的编号为0-6的7个关节点坐标，b区包括手部、肘部和肩部编号为5-10的6个关节点坐标，c区包括髋部、膝盖以及脚部编号为11-16 的6个关节点坐标。训练前的动作识别模型中生成所有的行为状态(步态、注意力、分心)和方向值，将连同自车车速、2D边界框以及交通环境场景上下文信息输入到一个 SVM模型中，对人是否会在车辆前面穿越进行分类，模型在T时间输出动作和意图概率。行人的位置由行人边界框的中心坐标表示，行人的轨迹预测模块基于目标检测和目标跟踪模块所提供的各目标行人轨迹的历史信息，预测输出未来的运动轨迹。

本发明的有益效果：

(1)本发明针对城市交通环境，提出了一种新型的多任务视角的神经网络架构来同时实现行人的穿越意图和未来运动轨迹的预测，有利于推动智能汽车高级辅助驾驶在路径规划和智能决策方面的发展，有益于减少城市交通环境下交通事故的发生。

(2)本发明所述方法充分考虑行人所处交通环境的全局时空上下文信息，输入包含视觉和非视觉的五种信息源，尤其纳入了以语义分割掩码表示的全局环境上下文信息，考虑到了更加全面的特征输入，以提高行人穿越意图预测的准确性。

(3)本方法提出一种新颖的混合融合方法来融合视觉特征和非视觉特征，其中非视觉特征之间采用了分层融合的方式。此外，在融合的过程中引入LSTM和注意力模块以更好地学习序列特征。

(4)相比于其他单任务模型，本方法所提出的多任务学习模型具有如下几个优点：由于多个任务共享一个模型，占用内存量会大幅度减少；多个任务一次前向计算得出结果，推理速度增加；动作识别的结果同时也是意图预测的输入之一，两关联任务通过共享信息，相互补充，可以提升彼此的性能表现。

(5)本方法所涉及的原始输入可以从车载摄像头和车速传感器中获取，结合高效的检测、跟踪和姿态估计算法，可以集成面向行人的“检测-跟踪-预测”一体化感知系统，输出的未来轨迹可服务于自车轨迹规划，具有较高的实用和市场价值。

(6)该方法不仅仅限于结构化道路或交叉路口，还适用于其他城市环境，如停车场或广场。

附图说明

图1行人穿越意图多任务识别及轨迹预测方法整体流程图；

图2行人穿越意图多任务识别及轨迹预测的神经网络模型结构图；

图3用于行人行为及意图预测任务的原理示意图。

具体实施方式

下面结合附图对本发明作进一步说明。

本发明提出一种多任务视角的行人穿越意图及轨迹预测方法，其实施过程如附图1 所示，具体包括以下步骤：

步骤1：输入信息的获取

如附图2所示，本发明所采用的输入信息包括全局场景上下文信息C_g、目标行人的局部场景上下文信息C_li、目标行人的关键点信息Pi、车辆的自我车速信息S和行人的2D边界框位置轨迹L_i。

全局上下文信息C_g＝{c^t-m,c^t-m+1,...,c^t}可以提供解释道路与道路使用者或道路使用者之间的多重交互的视觉特征，c^t-m是指T时刻向前数历史m个时步的T-m时刻的全局上下文信息，即T-m时刻图像帧的语义分割掩码。由于所使用的JAAD数据集不提供语义掩码的注释地面实况，该模型使用在Cityscapes数据集上预训练的DeepLabV3 模型来提取语义分割掩码来表示全局上下文信息，语义掩码通过将与对象关联的所有像素标记为像素值来对图像中的不同对象进行分类和定位。本方法涉及的场景语义分割掩码有5个类别(道路、车辆、行人、人行道、交通标志)，所有输入帧的语义分割经二进制编码后被缩放为[224，224]像素的大小，这与局部场景上下文相同。

局部场景上下文信息

可以提供目标行人的视觉特征，可以捕捉行人及其周围环境的外观变化，由目标行人周围大小为[224,224]像素的RGB图像序列组成，

是指T时刻向前数历史m个时步的T-m时刻的局部上下文信息，即 T-m时刻，在目标行人所在图像帧中，通过放大行人边界框提取到的行人周围的区域(图像信息)。通过放大相应的2D边界框来提取每个行人周围的区域，然后调整缩放边界框的尺寸，使其宽度与其高度相匹配。C_li可以通过检测和跟踪算法(例如YOLOV5+ Deepsort)来提取，本发明使用JAAD数据集进行训练时直接使用数据集中提供的地面实况作为局部场景上下文信息C_li。

行人的姿势关键点可以描述目标行人的详细运动，表示为

其中

是包含17个姿势关节点的2维坐标的34维向量，即

行人移动时每一帧的姿势信息可以通过姿态估计算法来获取，由于应用的JAAD数据集不提供地面真实的行人骨骼关键点，本发明采用预训练的AlphaPose来提取行人的骨骼关键点。

动作预测主要依据人体骨骼关键点坐标，如附图3所示，本方法根据各动作类别相关的关键点部位将关键点分为上、中、下三个区域，对应地将其标记为a、b、c，分别用于识别方向和注意、分心以及步态。其中，a区包括头部——眼睛、鼻子、耳朵和肩膀处的编号为0-6的7个关节点坐标，b区包括行人的手部、肘部和肩部序号为5-10的 6个关键点，c区包括人体下半身的腿、膝盖和脚踝处编号为11-16的6个关键点。

行人的2D边界框位置轨迹L_i可以表示目标行人在图像中的位置变化，表示为

由目标行人的边界框位置坐标组成，具体表示为左上角和右下角坐标，即

该特征量可以通过检测和跟踪算法(例如 YOLOV5+Deepsort)来提取，本发明使用JAAD数据集进行训练时直接使用数据集中提供的地面实况得到L_i。

自我车辆速度S是影响行人穿越决策的主要因素。它可以直接从自我车辆的系统中读取。由于数据集包含自我车辆速度的注释，本发明直接使用车速的地面实况标签作为S。

步骤2：特征融合

本发明所提出的新型多任务视角的神经网络架构的结构图如附图2所示，该多任务学习模型由CNN模块、RNN模块、注意力模块和特征融合模块组成。本发明使用在ImageNet数据集上预训练的VGG19模型构建的CNN模块提取输入信息的视觉特征，用LSTM来构建RNN模块提取时序特征。

在处理视觉图像特征,也即全局场景上下文信息和局部场景上下文信息时，本发明使用的特征提取网络基于VGG19，输入图像特征大小为Batch×N×360×640×3。来自感知主干的场景语义分割掩码有5个类别(道路、汽车、行人、人行道、交通标志)用于该模型。然后对分割掩码进行二进制编码以产生形状为H×W×classes的语义特征，其中类别数为5。语义分割模型输出分辨率为512×1024的掩码。然后将其重新整形为360×640的分辨率，因此序列的二进制编码后输入场景特征的形状为Batch×N ×360×640×5。在通过模型进行处理之前，此输入用于计算沿时间轴的平均掩码。然后使用2D卷积和最大池化层进行编码，然后是全连接层。同理，姿势特征的输入大小为Batch×N×17×3。姿态输入首先通过一个2D卷积层进行处理，然后将2D卷积层的输出输入到堆叠的LSTM编码器，最后通过全连接层进行处理，边界框特征的输入大小为Batch×N×1×4，自我车速的输入大小为Batch×N×1×1，

使用两组Conv2D+Pooling层分别对输入的语义掩码信息和局部图像信息进行编码，然后采用一种后期融合技术，将语义掩码和图像序列编码后的输出在空间上连接到一起，融合Conv层经一个2D卷积层处理后的输出被送入LSTM中得到融合后的视觉特征，再经过一个注意力模块得到最终的视觉特征。

在处理非视觉特征也即2D姿势关键点特征、2D边界框位置轨迹信息和车速信息，这些非视觉特征经2D卷积层编码后的输出，被送入LSTM并分层融合得到融合后的非视觉特征。首先，连续行人2D位置轨迹(检测框)L_i被馈送到LSTM编码器进行编码，其第一阶段的输出与自车车速S连接后被馈送到另一LSTM编码器中，之后，第二阶段的输出与连续行人姿势关键点P_i连接，并被馈送到最终的LSTM的编码器中，最终的编码器输出被馈送到注意力模块以得到最终的非视觉特征。

最终的视觉特征和最终的非视觉特征经混合融合后被连接并馈送到注意力模块，然后应用全连接层来对行人的行为和穿越意图进行最终预测。

通过引入注意力模块，可以选择性的关注部分特征，用于更好的学习序列特征，序列特征(例如基于RNN的编码器的输出)表示为隐藏状态序列h＝{h₁,h₂，...,h_e}，注意力权重计算为：

其中

W_s是权重矩阵，这样的注意力权重在最终隐藏状态h_e与每个先前的源隐藏状态

之间进行权衡同样的，

为源隐藏状态经过每层神经网络更新后的隐藏状态。注意力模块的输出向量生成为 V_attention＝tanh(W_c[h_c；h_e])，其中W_c是权重矩阵，h_c是所有注意力加权隐藏状态的总和，

步骤3：行人行为与意图预测

如附图2所示，模型最后通过具有全连接层的单独分支对融合后的特征进行处理以预测动作和穿越意图。穿越意图预测任务的主要目标是预测场景中的人是否会穿过车辆前方，本发明使用从时间1到T的全局上下文信息、局部上下文信息、训练前的动作识别模型中生成所有的行为状态(步态、注意力、分心)和方向值、自车的车速和2D 边界框作为模型的输入，拟合了一个支持向量模型，对人是否会在车辆前面穿越进行分类，模型在T时间输出动作和意图概率。

如表1所示，在本发明中，对行人行为和穿越意图的正式定义如下：

表1.行人动作及意图分类标签

附图3展示了用于行人行为及穿越意图预测的示意图，如附图3所示，行人的行为识别任务主要依赖于行人的骨骼关键点特征，在该多任务学习模型中，T时刻的行人行为识别任务的结果将作为行人穿越意图预测任务的输入之一被送入预测穿越意图的 SVM网络。给定视频序列和自车车速信息，模型在T时间输出动作和意图概率，然后使用来自每个任务的softmax概率来计算特定的动作/行为损失值:

其中actⁿ是行为类别，K是序列中行人的最大数量,

分别是真实情况的类标签和预测的类标签。

模型最后使用以下各个交叉熵损失的加权总和，联合训练所有分类任务：

L_act＝ω₁L_gait+ω₂L_attn+ω₃L_ornt+ω₄L_dist+ω₅L_crossing (3)

L_act为各个分类任务联合训练总的损失，L_gait为步态分类任务的训练损失函数，L_attn为注意力分类任务的训练损失函数，L_ornt为方向分类任务的训练损失函数，L_dist为分心分类任务的训练损失函数，L_crossing为穿越意图分类任务的训练损失函数，相应的， ω₁、ω₂、ω₃、ω₄、ω₅为各个分类任务对应损失函数的权重值。

步态识别任务是预测场景中的人是走路还是站立。为了确定行人的步态，本发明使用人体下半身的腿、膝盖和脚踝处编号为11-16的6个关键点(如图3中c所示)，计算特征(d₁,d₂,θ₁,θ₂,x,y)，其中d₁和d₂分别是左右脚踝和膝盖之间的距离，θ₁和θ₂是四肢之间的角度，x和y是行人的臀部中心坐标。本发明将特征堆叠为N的序列观察长度，以便捕获特征在时间上的变化。采用一维Resnet-10模型针对该二元分类任务进行训练，并优化交叉熵损失函数。

行人的注意力和方向识别这两个任务就是要识别行人是否直接看着车辆以及人相对于视角的姿势方向，这里主要关注行人上半身的关键点，即头部——眼睛、鼻子、耳朵和肩膀处的编号为0-6的7个关节点坐标(如图3中a所示)。考虑到这两个任务的识别结果都是由人的脸和肩膀的共同特征决定，所以对注意力(二元分类任务)和方向 (多元分类任务)这两个不同的任务，采用加权交叉熵损失函数联合训练具有一维卷积的Resnet10模型。

分心识别任务是一个用于确定行人是否正在打电话的二元分类任务，这里主要关注行人手部、肘部和肩部序号为5-10的6个关键点(如图3中b所示)。在检测到手机的情况下，计算特征(θ_l，θ_r，θ_lr，hands,θ_lr,upper)，其中θ_l和θ_r是每只手的下臂和上二头肌之间的角度，θ_lr,hands和θ_lr,upper是左手和右手之间的角度和左右两二头肌之间的角度。这里将该任务处理为一个使用具有径向基函数(RBF)内核的支持向量分类器(SVC)的二元分类任务。

步骤4：轨迹预测

目标行人的轨迹预测任务与行为识别和意图预测是同时进行的，进行行人的运动轨迹预测需要基于感知主干网络提供的连续多帧中各目标行人的历史轨迹等信息，这里主要用到行人的边界框历史轨迹信息，输入历史一段时间内的边界框位置序列，输出行人未来边界框的位置中心坐标，而预测输出各目标行人的未来运动轨迹，进而为智能车辆的决策服务。

针对轨迹预测任务，使用专注于行人边界框特征的LSTM编码器-解码器结构。编码的输入与内部状态一起传递到LSTM解码器堆栈，并以像素为单位输出未来边界框的中心位置。给定从时间1到T的边界框序列，模型预测从时间T到T+n的未来边界框中心。该回归任务经过训练以优化均方误差(MSE)损失函数:

这里I和

分别是目标框中心坐标的真实值和预测值,单位是像素，n是指未来的n个时步，N是行人数量，本发明添加一个L2正则化项以避免过度拟合：

其中λ_reg为正则化系数。

联合优化为分类和回归损失L_act和L_traj的加权和的总损失函数。

L_fin＝L_act+L_traj

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法，其特征在于，根据环境中捕获的不同时空上下文信息，包括视觉特征信息和非视觉特征信息，通过神经网络模型融合T时刻历史m个时步的视觉特征信息和非视觉特征信息，对行人在时间T处的当前状态或行为进行识别分类，预测未来的穿越意图、在时间T输出动作和意图概率，同时预测时间T至时间T+n的轨迹。

2.根据权利要求1所述的一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法，其特征在于，所述视觉特征信息包括：观察到的行人周围的局部环境上下文信息

由语义分割掩码表示的全局环境上下文信息C_g＝{c^t-m,c^t ^-m+1,...,c^t}；

所述非视觉特征信息包括：行人的姿态关键点信息

由人体边界框表示的行人的位置轨迹信息

本车的运动速度信息S＝{s^t-m,s^t ^-m+1,...,s^t}。

3.根据权利要求2所述的一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法，其特征在于，所述全局上下文信息C_g＝{c^t-m,c^t-m+1,...,c^t}用于提供解释道路与道路使用者或道路使用者之间的多重交互的视觉特征；针对所使用的JAAD数据集不提供语义掩码的注释地面实况，由神经网络模型使用在Cityscapes数据集上预训练的DeepLabV3模型来提取语义分割掩码来表示全局上下文信息，语义掩码通过将与对象关联的所有像素标记为像素值来对图像中的不同对象进行分类和定位，所包含的场景语义分割掩码有5个类别，分别是道路、车辆、行人、人行道、交通标志，所有输入帧的语义分割经二进制编码后被缩放为[224，224]像素的大小。

4.根据权利要求2所述的一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法，其特征在于，所述局部场景上下文信息

用于提供目标行人的视觉特征，捕捉行人及其周围环境的外观变化，由目标行人周围大小为[224,224]像素的RGB图像序列组成；通过放大相应的2D边界框来提取每个行人周围的区域，然后调整缩放边界框的尺寸，使其宽度与其高度相匹配，C_li能够通过检测和跟踪算法(例如YOLOV5+Deepsort)来提取，所述神经网络模型使用JAAD数据集进行训练时直接使用数据集中提供的地面实况，作为局部场景上下文信息C_li。

5.根据权利要求2所述的一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法，其特征在于，所述行人的姿势关键点

用于描述目标行人的详细动作，，其中p_i是包含17个姿势关节的2维坐标的34维向量，即

行人移动时每一帧的姿势信息可以通过姿态估计算法来获取，采用预训练的AlphaPose来提取行人的骨骼关键点，作为姿势关键点；

行人动作预测依据人体骨骼关键点坐标，根据各动作类别相关的关键点部位将关键点分为上、中、下三个区域，对应地标记为a、b、c，分别用于识别方向和注意、分心以及步态，其中，a区包括头部的眼睛、鼻子、耳朵和肩膀处的7个关节点坐标，b区包括行人的手部、肘部和肩部的6个关键点，c区包括人体下半身的腿、膝盖和脚踝处的6个关键点。

6.根据权利要求2所述的一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法，其特征在于，所述位置轨迹信息

用于表示目标行人在图像中的位置变化，由目标行人的边界框位置坐标组成，具体由左上角和右下角坐标构成的特征量

该特征量可以通过检测和跟踪算法(例如YOLOV5+Deepsort)来提取，具体可以通过神经网络使用JAAD数据集进行训练时直接使用数据集中提供的地面实况作为位置轨迹信息L_i。

7.根据权利要求2所述的一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法，其特征在于，所述运动速度信息S＝{s^t-m,s^t-m+1,...,s^t}直接从自车系统中读取，训练数据集中包含自车速度的注释，此时可直接使用车速的地面实况标签作为运动速度信息S。

8.根据权利要求1所述的一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法，其特征在于，所述神经网络模型包括CNN模块、RNN模块、注意力模块和特征融合模块，该神经网络模型融合T时刻历史m个时步的视觉特征信息和非视觉特征信息的方法如下：

在处理视觉特征信息时：基于VGG19，输入图像特征大小为Batch×N×360×640×3，将来自感知主干的场景语义分割掩码的5个类别用于该模型，所述5个类别是道路、汽车、行人、人行道、交通标志；然后对分割掩码进行二进制编码以产生形状为H×W×classes的语义特征，其中类别数为5；语义分割部分输出分辨率为512×1024的掩码；然后将语义分割部分的输出结果重新整形为360×640的分辨率，因此序列的二进制编码后输入场景特征的形状为Batch×N×360×640×5；在输入模型之前，此输入用于计算沿时间轴的平均掩码，然后使用2D卷积和最大池化层进行编码，然后是全连接层；同理，姿势特征的输入大小为Batch×N×17×3，姿态输入首先通过一个2D卷积层进行处理，然后将2D卷积层的输出输入到堆叠的LSTM编码器，最后通过全连接层进行处理，边界框特征的输入大小为Batch×N×1×4，自车速的输入大小为Batch×N×1×1；

使用两组Conv2D+Pooling层分别对输入的语义掩码信息和局部环境上下文信息进行编码，然后采用后期融合技术，将语义掩码和图像序列编码后的输出在空间上连接到一起，融合Conv层经一个2D卷积层处理后的输出被送入LSTM中得到融合后的视觉特征，再经过一个注意力模块得到最终的视觉特征；

在处理非视觉特征信息时：所述非视觉特征经2D卷积层编码后的输出，被送入LSTM并分层融合得到融合后的非视觉特征；首先，连续行人2D位置轨迹L_i被馈送到LSTM编码器进行编码，其第一阶段的输出与自车车速S连接后被馈送到另一LSTM编码器中，之后，第二阶段的输出与连续行人姿势关键点P_i连接，并被馈送到最终的LSTM的编码器中，最终的编码器输出被馈送到注意力模块以得到最终的非视觉特征；

最终的视觉特征和最终的非视觉特征经混合融合后被连接并馈送到注意力模块，然后通过全连接层来对行人的行为和穿越意图进行最终预测；

其中，所述注意力模块用于选择性的关注部分特征，实现更好的学习序列特征，序列特征表示为隐藏状态h＝{h₁,h₂,...,h_e}，注意力权重计算为：

其中

W_s是权重矩阵，用于在最终隐藏状态h_e与每个先前的源隐藏状态h_s之间进行权衡，注意力模块的输出向量生成为Vattention＝tanh(Wc[hc；he])，其中W_c是权重矩阵，h_c是所有注意力加权隐藏状态的总和

9.根据权利要求1所述的一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法，其特征在于，对行人行为和穿越意图的定义如表1：

表1.行人动作及意图分类标签

所述行人的行为识别借助于行人的骨骼关键点特征实现，使用多任务学习模型识别，将T时刻的行人行为识别任务的结果将送入预测穿越意图的SVM网络，给定视频序列和自车车速信息，模型在T时间输出行为和意图概率，然后使用来自每个任务的softmax概率计算特定的动作或行为损失值:

其中actⁿ是行为类别，K是序列中行人的最大数量,

分别是真实情况和预测的类标签；

SVM网络模型最后使用以下各个交叉熵损失的加权总和，联合训练所有分类任务：

L_act＝ω₁L_gait+ω₂L_attn+ω₃L_ornt+ω₄L_dist+ω₅L_crossing (3)

针对步态识别：使用人体下半身的腿、膝盖和脚踝处的6个关键点，计算特征(d₁,d₂,θ₁，θ₂，x，y)，其中d₁和d₂分别是左右脚踝和膝盖之间的距离，θ₁和θ₂是四肢之间的角度，x和y是行人的臀部中心坐标，将特征堆叠为N的序列观察长度，以便捕获特征在时间上的变化，采用一维Resnet-10模型针对该二元分类任务进行训练，并优化交叉熵损失函数；

针对行人的注意力和方向识别：关注行人上半身的关键点，即头部——眼睛、鼻子、耳朵和肩膀处的7个关节点坐标，考虑到这两个任务的识别结果都是由人的脸和肩膀的共同特征决定，采用加权交叉熵损失函数联合训练具有一维卷积的Resnet10模型；

针对分心识别：关注行人手部、肘部和肩部的6个关键点，计算特征(θ_l,θ_r,θ_lr,hands,θ_lr,upper)，其中θ_l和θ_r是每只手的下臂和上二头肌之间的角度，θ_lr，hands和θ_lr，upper是左手和右手之间的角度和左右两二头肌之间的角度。这里将该任务处理为一个使用具有径向基函数内核的支持向量分类器的二元分类任务。

10.根据权利要求1所述的一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法，其特征在于，行人在时间T至时间T+n的轨迹预测：基于感知主干网络提供的连续多帧中各目标行人的历史轨迹等信息，即行人的边界框历史轨迹信息，输入历史一段时间内的边界框位置序列，输出行人未来边界框的位置中心坐标，进而预测输出各目标行人的未来运动轨迹；具体地：

使用专注于行人边界框特征的LSTM编码器-解码器结构，编码的输入与内部状态一起传递到LSTM解码器堆栈，并以像素为单位输出未来边界框的中心位置，给定从时间1到T的边界框序列，模型预测从时间T到T+n的未来边界框中心，该回归任务经过训练以优化均方误差(MSE)损失函数:

I和

分别是目标框中心坐标的真实值和预测值,单位是像素，添加一个L2正则化项以避免过度拟合：

联合优化损失函数为分类和回归损失L_act和L_traj的加权和的总损失函数：

L_fin＝L_act+L_traj。