CN113807298A

CN113807298A - 行人过街意图预测方法、装置、电子设备及可读存储介质

Info

Publication number: CN113807298A
Application number: CN202111126415.XA
Authority: CN
Inventors: 董铮; 李雪; 范圣印; 陈禹行
Original assignee: Beijing Yihang Yuanzhi Technology Co Ltd
Current assignee: Beijing Yihang Yuanzhi Technology Co Ltd
Priority date: 2021-07-26
Filing date: 2021-09-26
Publication date: 2021-12-17
Anticipated expiration: 2041-09-26
Also published as: CN113807298B

Abstract

本公开提供了一种行人过街意图预测方法，包括：实时提取本车前方视频的各帧中的至少一个目标行人的轨迹数据以及图像数据，获取各个目标行人在预设帧长度的轨迹数据组以及图像数据组；对各个目标行人在预设帧长度的图像数据组进行特征提取，以获得各个目标行人的视频图像特征数据组；基于各个目标行人的视频图像特征数据组以及各个目标行人的轨迹数据组获取各个目标行人的视频图像‑轨迹特征；基于本车速度信息获取本车速度特征；以及基于各个目标行人的视频图像‑轨迹特征以及本车速度特征获得各个目标行人的意图类别。本公开还提供一种行人过街意图预测装置、电子设备以及可读存储介质。

Description

行人过街意图预测方法、装置、电子设备及可读存储介质

技术领域

本公开涉及自动驾驶技术领域，本公开尤其涉及一种行人过街意图预测方法、装置、电子设备及可读存储介质。

背景技术

行人意图的预测在自动驾驶领域具有重要的意义，自动驾驶汽车一般配备多种传感器，例如相机传感器可以采集车辆前方的视频图像数据，惯性导航系统可以采集本车的速度等信息。此外，自动驾驶汽车的感知模块例如检测、跟踪模块，可以检测出视频图像中的行人目标，并将不同时刻下的同一行人目标进行关联。

行人属于道路中的弱势群体，预测行人未来是否过街，可以使得自动驾驶汽车具有缓冲的时间实施相应的措施，例如减速、刹车等，并保障行人的生命财产安全。

2021年的WACV论文Benchmark for Evaluating Pedestrian Action Prediction将行人的轨迹、行人位姿、行人视频图像和本车的速度分别通过长短期记忆网络(LSTM)进行编码，然后通过注意力机制进行多模态的融合，得到行人的未来是否过街的结果。但这种方法分离了不同模态的特征，仅在最后阶段进行融合，并不能在充分挖掘时间和空间维度的信息。

论文Pedestrian action anticipation using contextual feature fusion instacked RNNs使用一种堆叠的RNN架构，逐渐以不同处理级别融合行人图像特征、背景信息、行人位姿特征、轨迹特征和本车速度特征，在最后阶段通过全连接层进行意图分类。该方法多次采用循环神经网络结构，无法实现并行化，容易引起性能瓶颈。

论文Intention Recognition of Pedestrians and Cyclists by 2D PoseEstimation采用2D人体位姿估计来进行行人过街意图预测。2D人体位姿估计无法充分挖掘图像中的信息，例如场景信息、行人面部特征等，此外，只采用人体位姿单一模态无法实现准确的行人意图预测。

现阶段，行人意图预测领域的相关论文和方法具有以下的缺陷和不足：

一是无法充分融合不同模态的信息。自动驾驶汽车一般配备多种传感器，例如相机传感器可以拍摄车辆前方的视频数据，而经过检测和跟踪模块，可以定位每一帧视频数据中的行人Bounding box，即同时获得了行人的图像模态特征和轨迹模态特征。而当前的方法难以充分挖掘不同模态之间的特征的关系，常于最后阶段进行一次融合或者进行渐进式的融合，并未考虑到模态之间的潜在相关信息。

二是单独编码行人轨迹的方法无法提取有效特征。车载相机拍摄的视频为第一人称视角下的视频数据，目前许多方法直接对该类视频数据中的行人Bounding Box(轨迹)进行编码。由于自动驾驶汽车本身具有运动变化，导致行人轨迹存在大量的噪声，单独编码行人轨迹的方式无法提取有效特征甚至于损害模型精度。

三是融合方式效率较低，不利于实时的行人意图预测。目前的主流方法一般采用循环神经网络的结构对不同模态的特征进行编码，循环神经网络结构无法实现并行化，效率较低，此外多层循环神经网络的叠加会导致额外的运算开销，过度的融合容易导致关键特征的衰退，无法实现更有效的性能提高。

发明内容

为了解决上述技术问题中的至少一个，本公开提供一种行人过街意图预测方法、装置、电子设备及可读存储介质。

本公开的行人过街意图预测方法、装置、电子设备及可读存储介质通过以下技术方案实现。

根据本公开的一个方面，提供一种行人过街意图预测方法，包括：

S110、实时提取本车前方视频的各帧中的至少一个目标行人的轨迹数据以及图像数据，获取各个目标行人在预设帧长度的轨迹数据组以及图像数据组；

S120、对各个目标行人在所述预设帧长度的图像数据组进行特征提取，以获得各个目标行人的视频图像特征数据组；

S130、基于各个目标行人的视频图像特征数据组以及各个目标行人的轨迹数据组获取各个目标行人的视频图像-轨迹特征；

S140、基于本车速度信息获取本车速度特征；以及

S150、基于所述各个目标行人的视频图像-轨迹特征以及所述本车速度特征获得各个目标行人的意图类别。

根据本公开的至少一个实施方式的行人过街意图预测方法，S110、实时提取本车前方视频的各帧中的至少一个目标行人的轨迹数据以及图像数据，获取各个目标行人在预设帧长度的轨迹数据组以及图像数据组，包括：

将各帧中目标行人的轨迹数据表示为：

其中，t表示帧时刻，下标i表示第i个目标行人，其中

表示目标行人i的外接矩形的中心点坐标值以及高宽值，

表示目标行人i的外接矩形的中心点坐标值的一阶差分及高宽值的一阶差分。

根据本公开的至少一个实施方式的行人过街意图预测方法，目标行人i的轨迹数据

通过以下公式获取：

其中，(x_lt,y_lt),(x_rb,y_rb)分别代表目标行人在图像坐标系中外接矩形的左上角坐标和右下角坐标。

根据本公开的至少一个实施方式的行人过街意图预测方法，将获取的各个目标行人在预设帧长度的轨迹数据组以及图像数据组表示为：

第i个目标行人的轨迹数据组：

第i个目标行人的图像数据组：

根据本公开的至少一个实施方式的行人过街意图预测方法，所述各个目标行人的图像数据组被拓展为包括目标行人周围场景的图像数据组，包括目标行人周围场景的图像数据组通过以下方式获得：

将各个目标行人i的外接矩形进行扩张处理，以获得包括目标行人周围场景的图像数据组：

将目标行人i的外接矩形扩张为k_context倍大小，得到包括目标行人i周围场景的外接矩形(x_lt',y_lt',x_rb',y_rb')，其中，

根据外接矩形(x_lt',y_lt',x_rb',y_rb')提取出包括目标行人周围场景的图像数据组

根据本公开的至少一个实施方式的行人过街意图预测方法，根据外接矩形(x_lt',y_lt',x_rb',y_rb')提取出包括目标行人周围场景的图像数据组

包括：

保持外接矩形(x_lt',y_lt',x_rb',y_rb')的长宽比不变，对包括目标行人周围场景的外接矩形图像的长边进行缩放处理，缩放至预设像素，将缩放后的外接矩形图像置于边长均为上述预设像素的2D区域的中间位置，将2D区域的非图像区域的像素值填充为(0，0，0)，进而，将不同帧时刻下目标行人i的包括目标行人周围场景的图像数据组表示为

根据本公开的至少一个实施方式的行人过街意图预测方法，S120、对各个目标行人在所述预设帧长度的图像数据组进行特征提取，以获得各个目标行人的视频图像特征数据组，包括：

使用2D卷积神经网络对包括目标行人周围场景的图像数据组进行特征提取，将所述各个目标行人的视频图像特征数据组表示为：

根据本公开的至少一个实施方式的行人过街意图预测方法，S130、基于各个目标行人的视频图像特征数据组以及各个目标行人的轨迹数据组获取各个目标行人的视频图像-轨迹特征，包括：

S131、将各个目标行人的视频图像特征数据组

经过第一多层感知机(MLP_vid)进行处理，得到各个目标行人的用于融合的视频图像特征数据组

以及

S132、将各个目标行人的轨迹数据组

经过第二多层感知机(MLP_bbox)进行处理，得到各个目标行人的用于融合的轨迹数据组

根据本公开的至少一个实施方式的行人过街意图预测方法，将各个目标行人的用于融合的视频图像特征数据组

表示为：

根据本公开的至少一个实施方式的行人过街意图预测方法，将各个目标行人的用于融合的轨迹数据组

表示为：

根据本公开的至少一个实施方式的行人过街意图预测方法，S130、基于各个目标行人的视频图像特征数据组以及各个目标行人的轨迹数据组获取各个目标行人的视频图像-轨迹特征，还包括：

S133、将各个目标行人的用于融合的视频图像特征数据组

以及各个目标行人的用于融合的轨迹数据组

进行concat操作，获得各个目标行人的视频图像-轨迹组合数据组。

根据本公开的至少一个实施方式的行人过街意图预测方法，逐帧时刻地将各个目标行人的用于融合的视频图像特征数据组

以及各个目标行人的用于融合的轨迹数据组

进行concat操作，获得各个目标行人的视频图像-轨迹组合数据组

S134、将所述各个目标行人的视频图像-轨迹组合数据组进行多模态融合，获得各个目标行人的视频图像-轨迹特征。

根据本公开的至少一个实施方式的行人过街意图预测方法，使用Transformer编码器对所述各个目标行人的视频图像-轨迹组合数据组进行多模态融合。

根据本公开的至少一个实施方式的行人过街意图预测方法，在使用Transformer编码器对所述各个目标行人的视频图像-轨迹组合数据组进行多模态融合之前，将所述各个目标行人的视频图像-轨迹组合数据组进行基于线性映射的初步融合，获得初步融合特征

如下式：

其中，d_f表示

的维度，W_e是可学习的矩阵，PE为位置嵌入，d表示数据组的第d维度，R为通用的实数符号，如下式所示：

根据本公开的至少一个实施方式的行人过街意图预测方法，使用Transformer编码器对所述各个目标行人的视频图像-轨迹组合数据组进行多模态融合，包括：

使用Transformer编码器的多头自注意力机制对所述初步融合特征

进行处理，将不同注意力头的输出进行concat操作，并输入至视频图像-轨迹Transformer编码器的多层感知机中，以获得所述各个目标行人的视频图像-轨迹特征。

根据本公开的至少一个实施方式的行人过街意图预测方法，S140、基于本车速度信息获取本车速度特征，包括：

将本车速度信息输入至Transformer编码器进行多模态融合，以获取所述本车速度特征。

根据本公开的至少一个实施方式的行人过街意图预测方法，将本车速度信息输入至Transformer编码器进行多模态融合，以获取所述本车速度特征，包括：

对本车速度信息进行编码处理，获得逐帧时刻的本车速度相对于各个目标行人的本车速度数据组

其中，

表示在第t帧，本车相对于第i个行人的速度信息，速度信息包括本车实际速度值和/或本车速度状态，速度状态包括加速、减速、匀速。

根据本公开的至少一个实施方式的行人过街意图预测方法，S140、基于本车速度信息获取本车速度特征，还包括：

在使用Transformer编码器对本车速度信息进行所述编码处理之前，将所述本车速度数据组

进行基于线性映射的升维处理，获得升维后特征

其中，df'表示

的维度，W_c是可学习的矩阵，PE为位置嵌入，d表示特征的第d维度，R为通用的实数符号，

为d′_f维的张量如下所示：

使用Transformer编码器对所述升维后特征

进行处理，获得本车速度特征。

根据本公开的至少一个实施方式的行人过街意图预测方法，S150、基于所述各个目标行人的视频图像-轨迹特征以及所述本车速度特征获得各个目标行人的意图类别，包括：

将所述各个目标行人的视频图像-轨迹特征以及所述本车速度特征进行concat操作，经过全连接层输出各个行人的意图类别。

根据本公开的另一个方面，提供一种行人过街意图预测装置，包括：

轨迹数据组及图像数据组获取模块，所述轨迹数据组及图像数据组获取模块实时提取本车前方视频的各帧中的至少一个目标行人的轨迹数据以及图像数据，获取各个目标行人在预设帧长度的轨迹数据组以及图像数据组；

视频图像特征数据组提取模块，所述视频图像特征数据组提取模块对各个目标行人在所述预设帧长度的图像数据组进行特征提取，以获得各个目标行人的视频图像特征数据组；

视频图像-轨迹特征获取模块，所述视频图像-轨迹特征获模块基于各个目标行人的视频图像特征数据组以及各个目标行人的轨迹数据组获取各个目标行人的视频图像-轨迹特征；

本车速度特征获取模块，本车速度特征获取模块基于本车速度信息获取本车速度特征；以及

意图类别输出模块，所述意图类别输出模块基于所述各个目标行人的视频图像-轨迹特征以及所述本车速度特征获得各个目标行人的意图类别。

根据本公开的又一个方面，提供一种行人过街意图预测装置，包括：

车载相机装置，所述车载相机装置采集本车前方视频；

根据本公开的又一个方面，提供一种电子设备，包括：

存储器，所述存储器存储执行指令；以及

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行上述任一项所述的方法。

根据本公开的再一个方面，提供一种可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述任一项所述的方法。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是根据本公开的一个实施方式的行人过街意图预测方法的总体流程示意图。

图2是根据本公开的一个实施方式的行人过街意图预测方法的基于Transformer结构的获取各个目标行人的视频图像-轨迹特征的流程图。

图3是根据本公开的一个实施方式的基于层级多模态融合的行人过街意图预测装置的整体结构示意图。

图4是本公开的一个实施方式的采用处理系统的硬件实现方式的行人过街意图预测装置的示意图。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此，除非说明，否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外，在附图中，为了清楚和/或描述性的目的，可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时，可以以不同于所描述的顺序来执行具体的工艺顺序。例如，可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外，同样的附图标记表示同样的部件。

当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时，该部件可以直接在另一部件上、直接连接到或直接结合到另一部件，或者可以存在中间部件。然而，当部件被称作“直接在”另一部件“上“、“直接连接到”或“直接结合到”另一部件时，不存在中间部件。为此，术语“连接”可以指物理连接、电气连接等，并且具有或不具有中间部件。

本文使用的术语是为了描述具体实施例的目的，而不意图是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

下文结合图1至图4对本公开的行人过街意图预测方法、行人过街意图预测装置、电子设备、可读存储介质进行详细说明。

图1是本公开的一个实施方式的行人过街意图预测方法的流程示意图，如图1所示，行人过街意图预测方法S100包括：

S120、对各个目标行人在预设帧长度的图像数据组进行特征提取，以获得各个目标行人的视频图像特征数据组；

S140、基于本车速度信息获取本车速度特征；以及，

S150、基于各个目标行人的视频图像-轨迹特征以及本车速度特征获得各个目标行人的意图类别。

对于本公开的行人过街意图预测方法S100，一个示例性的场景为，本车(可以是具有自动驾驶系统的车辆)配备相机装置(例如光学相机)实时采集车辆前方的道路及场景的视频图像，道路及场景中存在可能穿越本车前方区域(过街)的行人。

自动驾驶系统中的检测模块(可以采用现有技术中的检测模块)可以检测出行人在视频图像中的外接框(即外接矩形)，跟踪模块(可以采用现有技术中的跟踪模块)可以关联视频不同帧中的同一目标行人。本公开的行人过街意图预测方法能够实时地对每一帧中的各个目标行人的过街意图及状态等进行预测，例如预测各个目标行人是否在1至2秒之后(或其他时间长度)穿越本车的前方区域。

其中，本车前方视频可以通过相机装置进行采集，本公开不对相机装置的类型和结构进行特别限定。

需要说明的是，本车前方视频中可能存在一个目标行人，也可能存在两个以上的目标行人。

本公开的步骤S110中，实时地提取本车前方视频的各帧中的各个目标行人的轨迹数据以及图像数据。

对于上述实施方式的行人过街意图预测方法S100，优选地，S110、实时提取本车前方视频的各帧中的至少一个目标行人的轨迹数据以及图像数据，获取各个目标行人在预设帧长度的轨迹数据组以及图像数据组，包括：

将各帧中目标行人的轨迹数据表示为：

其中，t表示帧时刻，下标i表示第i个目标行人，其中

表示目标行人i的外接矩形的中心点坐标值以及高宽值，

对于上述实施方式的行人过街意图预测方法S100，优选地，目标行人i的轨迹数据

通过以下公式获取：

对于上述各个实施方式的行人过街意图预测方法S100，优选地，将获取的各个目标行人在预设帧长度(设预设帧长度为m+1帧，即观测的帧数为m+1帧，示例性地，m取15)的轨迹数据组以及图像数据组表示为：

第i个目标行人的轨迹数据组：

第i个目标行人的图像数据组：

对于上文公式中的t，有t∈[T-m,T]，其中T是过街事件或不过街事件发生前的预设帧长度(例如30-60帧，即0.5至1秒)的时间节点帧。

示例性地，本车的相机装置(即车载相机装置)的原始帧率为30FPS。

需要说明的是，目标行人的过街意图优选地分为两类，即过街和不过街。

对于上述各个实施方式的行人过街意图预测方法S100，优选地，各个目标行人的图像数据组被拓展为包括目标行人周围场景的图像数据组，包括目标行人周围场景的图像数据组通过以下方式获得：

优选地，k_context＝1.5。

优选地，如果(x_lt',y_lt',x_rb',y_rb')超出了原图像的边界，取图像边界的坐标作为外接矩形坐标。

优选地，保持长宽比不变，对包括目标行人周围场景的外接矩形图像的长边进行缩放处理，缩放至预设像素(例如224像素)，将缩放后的外接矩形图像置于边长均为上述预设像素(例如224像素)的2D区域的中间位置，将2D区域的非图像区域的像素值填充为(0，0，0)，进而，将不同帧时刻下目标行人i的包括目标行人周围场景的图像数据组表示为

通过上述外接矩形图像处理，使得本公开在提取目标行人i的图像数据组更加准确。

行人的意图类别共有2种，分别是Crossing(过街)、Non-crossing(不过街)，本公开的预测方法/装置可以使用JAAD数据集和PIE数据集进行训练、预测。

对于上述各个实施方式的行人过街意图预测方法S100，优选地，S120、对各个目标行人在预设帧长度的图像数据组进行特征提取，以获得各个目标行人的视频图像特征数据组，包括：

使用2D卷积神经网络对包括目标行人周围场景的图像数据组进行特征提取，将各个目标行人的视频图像特征数据组表示为：

其中，可以使用2D卷积神经网络对包括目标行人周围场景的图像数据组进行特征提取。2D卷积神经网络可以采用现有技术中的2D卷积主干网络Backbone，包括ResNet50、ResNet101、VGGNet、DenseNet、MobileNet等，或采用基于2D卷积的视频理解方法，包括TSN、TSM、TRN等。

对于上述各个实施方式的行人过街意图预测方法S100，优选地，S130、基于各个目标行人的视频图像特征数据组以及各个目标行人的轨迹数据组获取各个目标行人的视频图像-轨迹特征，包括：

S131、将各个目标行人的视频图像特征数据组

以及，

S132、将各个目标行人的轨迹数据组

其中，第一多层感知机MLP_vid目的是将视频图像特征做一个高维到低维的映射(例如2048到128)，第二多层感知机MLP_bbox目的是将轨迹特征做一个低维到高维的映射(例如8到64)。

具体地：

各个目标行人的用于融合的视频图像特征数据组

表示为：

其中，各个目标行人的用于融合的视频图像特征数据组可以为128维。

各个目标行人的用于融合的轨迹数据组

表示为：

其中，各个目标行人的用于融合的轨迹数据组可以为64维。

对于上述各个实施方式的行人过街意图预测方法S100，优选地，S130、基于各个目标行人的视频图像特征数据组以及各个目标行人的轨迹数据组获取各个目标行人的视频图像-轨迹特征，还包括：

S133、将各个目标行人的用于融合的视频图像特征数据组

以及各个目标行人的用于融合的轨迹数据组

进行合并操作(concat操作)，获得视频图像-轨迹组合数据组。

优选地，逐帧时刻地将各个目标行人的用于融合的视频图像特征数据组

以及各个目标行人的用于融合的轨迹数据组

进行合并操作，获得各个目标行人的视频图像-轨迹组合数据组

其中，各个目标行人的视频图像-轨迹组合数据组为192维。

S134、将各个目标行人的视频图像-轨迹组合数据组进行多模态融合，获得各个目标行人的视频图像-轨迹特征。

优选地，使用Transformer编码器对各个目标行人的视频图像-轨迹组合数据组进行多模态融合。

对于上述各个实施方式的行人过街意图预测方法S100，优选地，在使用Transformer编码器对各个目标行人的视频图像-轨迹组合数据组进行多模态融合之前，将各个目标行人的视频图像-轨迹组合数据组进行基于线性映射的初步融合，获得初步融合特征

如下式：

其中，d_f表示

的维度，示例性地，d_f可以取256，W_e是可学习的矩阵，PE为位置嵌入，d表示数据组的第d维度，R为通用的实数符号，如下式所示：

对于上述各个实施方式的行人过街意图预测方法S100，优选地，使用Transformer编码器对各个目标行人的视频图像-轨迹组合数据组进行多模态融合，包括：

使用Transformer编码器的多头自注意力机制对初步融合特征

进行处理，将不同注意力头的输出进行concat操作，并输入至视频图像-轨迹Transformer编码器的多层感知机中，以获得各个目标行人的视频图像-轨迹特征。

优选地，视频图像-轨迹Transformer编码器一共包含N_f个Block，在本例中，N_f取2，对于其中第l个Block，query、key、value张量按照下式进行计算：

其中LN表示LayerNorm，a是多头注意力的下标，

表示注意力头的数量，在本例中，

取16，潜在的维度

分别表示l个Block中第a个注意力头的query、key、value张量，

表示计算query、key、value对应的可学习矩阵，自注意力的权重

通过query/key之间的点积计算，如下式所示：

其中SM代表softmax激活函数；注意力张量

作为系数，用于加权每个注意力头的值，如下式所示：

将不同注意力头的输出concat操作在一起，并输入到多层感知机中，如下式：

其中，W_o为可学习的参数矩阵，Transformer编码器的多头自注意力机制和多层感知机操作均采用skip-connection(跳跃式传递)；经过视频图像-轨迹Transformer编码器的处理后，得到各个目标行人的视频图像-轨迹特征

对于上述各个实施方式的行人过街意图预测方法S100，优选地，S140、基于本车速度信息获取本车速度特征，包括：

将本车速度信息输入至Transformer编码器进行多模态融合，以获取本车速度特征。

进一步地，将本车速度信息输入至Transformer编码器进行多模态融合，以获取本车速度特征，包括：

其中，

进一步地，S140、基于本车速度信息获取本车速度特征，还包括：

在使用Transformer编码器对本车速度信息进行编码处理之前，将本车速度数据组

进行基于线性映射的升维处理，获得升维后特征

其中，df'表示

的维度，示例性地，df'取32，W_c是可学习的矩阵，PE为位置嵌入，d表示特征的第d维度，R为通用的实数符号，如下所示：

使用Transformer编码器对升维后特征

进行处理，获得本车速度特征。

优选地，本车速度Transformer编码器一共包含N_f'个Block，在本例中，N_f'取1，对于其中第l个Block，query、key、value张量按照下式进行计算：

其中LN表示LayerNorm，a'是多头注意力的下标，

表示注意力头的数量，在本例中，

取4，潜在的维度

分别表示l个Block中第a'个注意力头的query、key、value张量，

表示计算query、key、value对应的可学习矩阵，自注意力的权重

通过query/key之间的点积计算，如下式所示：

其中SM代表Softmax激活函数；注意力张量

作为系数，用于加权每个注意力头的值，如下式所示：

将不同注意力头的输出Concat在一起，并输入到多层感知机中，如下式：

其中，Transformer编码器的多头注意力机制和多层感知机操作均采用skip-connection；经过本车速度Transformer编码器的处理后，得到本车速度特征

对于上述各个实施方式的行人过街意图预测方法S100，优选地，S150、基于各个目标行人的视频图像-轨迹特征以及本车速度特征获得各个目标行人的意图类别，包括：

将各个目标行人的视频图像-轨迹特征

以及本车速度特征

进行合并操作(concat操作)，经过全连接层

输出各个行人的意图类别。

即通过全连接层进行降维输出，将拼接的各个目标行人的视频图像-轨迹特征

以及本车速度特征

降为二维分别代表过街和不过街两者意图：

例如，output表示30-60帧(即0.5至1秒)之后的行人行为，包括Crossing(过街)、Non-crossing(不过街)两种类别，在本例中，

为192维，

为32维，

为224维。

通过上文描述可知，本公开的基于Transformer结构(或Transformer的衍生结构)的层级多模态融合的行人过街意图预测方法(系统)，利用Transformer结构(或Transformer的衍生结构)在不同层级进行多模态融合，可以实现并行计算，效率高，能够充分挖掘行人轨迹、图像特征之间的关联，并在最后阶段加入本车速度信息辅助行人的意图预测，预测精度显著提升。

本公开的行人过街意图预测方法将不同时刻(帧时刻)下的行人图像特征和轨迹特征进行Concat处理，输入到Transformer结构(或Transformer的衍生结构)中进行融合，使得图像特征中包含的相机位姿变换特征用于辅助行人轨迹特征的提取。

采用Transformer结构(或Transformer的衍生结构)进行融合的方式能够实现并行化，相比于循环神经网络的方式效率更高，且能够充分挖掘不同时刻之间的特征关联。

利用Transformer结构(或Transformer的衍生结构)独立编码本车速度信息，并于最后的阶段进行单点融合，防止过度的融合，计算复杂度较低。

根据本公开的另一个方面，提供一种行人过街意图预测装置1000，包括：

轨迹数据组及图像数据组获取模块1002，轨迹数据组及图像数据组获取模块1002实时提取本车前方视频的各帧中的至少一个目标行人的轨迹数据以及图像数据，获取各个目标行人在预设帧长度的轨迹数据组以及图像数据组；

视频图像特征数据组提取模块1004，视频图像特征数据组提取模块1004对各个目标行人在预设帧长度的图像数据组进行特征提取，以获得各个目标行人的视频图像特征数据组；

视频图像-轨迹特征获取模块1006，视频图像-轨迹特征获模块1006基于各个目标行人的视频图像特征数据组以及各个目标行人的轨迹数据组获取各个目标行人的视频图像-轨迹特征；

本车速度特征获取模块1008，本车速度特征获取模块1008基于本车速度信息获取本车速度特征；以及，

意图类别输出模块1010，意图类别输出模块1010基于各个目标行人的视频图像-轨迹特征以及本车速度特征获得各个目标行人的意图类别。

其中，上述的行人过街意图预测装置1000可以通过软件架构的方式实现。

图4示出了采用处理系统的硬件实现方式的行人过街意图预测装置1000的示意图。

该装置可以包括执行上述流程图中各个或几个步骤的相应模块。因此，可以由相应模块执行上述流程图中的每个步骤或几个步骤，并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。

参考图4，该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器，这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路1400连接。

总线1100可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral Component)总线或扩展工业标准体系结构(EISA，Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条连接线表示，但并不表示仅有一根总线或一种类型的总线。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

就本说明书而言，“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在存储器中。

应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，程序可以存储于一种可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。

此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。

根据本公开的又一个实施方式的行人过街意图预测装置1000，包括：

车载相机装置，车载相机装置采集本车前方视频；

本实施方式的行人过街意图预测装置1000，可以在上述实施方式的行人过街意图预测装置1000的基础上，进一步地包括车载相机装置。

本公开还提供了一种电子设备，包括：存储器，存储器存储执行指令；以及处理器或其他硬件模块，处理器或其他硬件模块执行存储器存储的执行指令，使得处理器或其他硬件模块执行上述的行人过街意图预测方法。

本公开还提供了一种可读存储介质，可读存储介质中存储有执行指令，执行指令被处理器执行时用于实现上述的行人过街意图预测方法。

在本说明书的描述中，参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中，对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。