CN113392725A

CN113392725A - 基于视频数据的行人过街意图识别方法

Info

Publication number: CN113392725A
Application number: CN202110578498.XA
Authority: CN
Inventors: 董铮; 李雪; 范圣印; 陈禹行
Original assignee: Suzhou Yihang Yuanzhi Intelligent Technology Co Ltd
Current assignee: Suzhou Yihang Yuanzhi Intelligent Technology Co Ltd
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2021-09-14
Anticipated expiration: 2041-05-26
Also published as: CN113392725B

Abstract

基于视频数据的行人过街意图识别方法，包括：车载相机实时采集自动驾驶车辆前方的道路及场景图像，获得视频数据；对所述视频数据进行数据预处理，提取车载相机拍摄的视频当前帧中的行人及周围区域的图像并划分类别；采用2D卷积神经网络对行人及周围场景区域的图像进行特征提取，得到2D卷积特征图，并针对2D卷积特征图的部分通道进行运动增强和时序分组1D卷积，得到运动时序特征图；根据所述运动时序特征图，计算并获得当前帧的初步识别结果；对所述初步识别结果进行滤波，输出行人在当前帧的过街意图或状态。实现了对行人过街意图的实时有效识别，提高了自动驾驶的安全性。

Description

基于视频数据的行人过街意图识别方法

技术领域

本公开涉及自动驾驶领域、高级汽车驾驶员辅助技术领域和计算机视觉技术领域，具体涉及一种基于深度学习方法对车载相机拍摄的视频数据进行实时行人过街意图识别的技术和方法，尤其涉及一种基于时空注意力机制的行人轨迹预测方法、系统、电子设备和可读存储介质。

背景技术

随着计算机视觉技术的发展，采用计算机视觉技术进行环境感知已经成为智能感知系统中不可或缺的部分。行人感知是自动驾驶领域必不可少的环境感知内容。其中，行人过街意图识别在自动驾驶领域等具有重要意义，在自动驾驶场景中，自动驾驶车辆一般都配备车载相机，拍摄前方和两侧道路的视频图像，自动驾驶系统识别正在过街的行人以及有过街意图的行人，并将识别结果传输至决策控制模块，使自动驾驶车辆能够提前实施制动等措施，有利于增强道路交通安全，保障行人的生命安全。

现阶段，对行人过街意图识别方面的研究还存在诸多难点，目前主流的论文或专利提出不同的技术尝试解决，但所提供的方法在实际自动驾驶系统使用中还存在很大的完备空间。

为了解现有技术的发展状况，本公开对已有的专利文献和论文进行了检索、比较和分析：

方案一：Proceedings of the IEEE/CVF International Conference onComputer Vision论文“PIE:A large-scale dataset and models for pedestrianintention estimation and trajectory prediction”提出了一种用于行人意图估计(PIE)的新颖的大规模数据集，以建立交通场景中行人意图的参考数据，并提出了用于估计行人过街意图并预测其未来轨迹的模型，模型分为三个部分，均采用基于长短期记忆网络(LSTM)的Encoder-Decoder结构，利用行人意图和本车速度，辅助预测行人轨迹。但是该方法中的长短期记忆网络(LSTM)参数量大，训练效率低，无法并行化处理，不利于实际自动驾驶系统的行人过街意图实时识别。

方案二：IEEE Transactions on Intelligent Transportation Systems论文“Intention recognition of pedestrians and cyclists by 2D pose estimation”设计了用于识别行人和骑车人等弱势道路使用者(VRU)的意图的模型，对于骑自行车的人而言，假设他们遵循交通规则，则手臂信号能够指示将来的动作，对于行人而言，行人的行走方式可以确定他/她是否有意在穿过马路。该方法认为行人位姿和身体动作甚至比卷积神经网络提取的外观特征还要重要，但是人体关键点又较为粗略，且对视频分辨率要求高，对中远距离的行人意图识别效果欠佳，达不到自动驾驶车辆在实际道路运行时的行人意图识别目的。

方案三：IEEE Robotics and Automation Letters论文“SpatiotemporalRelationship Reasoning for Pedestrian Intent Prediction”采用图结构关联道路上的行人、车辆等目标，设每一个行人为节点，建立一个以行人为中心的的时空图，节点特征表示为一个特征向量，特征向量编码了这一帧中的场景上下文信息和时间历史信息，采用门控循环单元(GRU)预测行人是否过马路。然而，将每个行人设为中心节点，运算复杂度随着行人数量而增加，而且循环神经网络的使用无法实现并行化，不能到达实际自动驾驶车辆在实际道路上运行的使用需要。

方案四：专利文献CN109117701A提出了一种基于图卷积的行人意图识别方法，对车载相机采集的视频图像进行行人检测和行人人体关键点信息提取，并用图表示行人人体关键点的连接信息，通过图卷积算法从人体关键点的坐标信息和邻接矩阵表示中提取底层特征，并将底层特征通过卷积神经网络和循环神经网络进行高层次特征提取和时序分析，实现对行人行为意图的分类识别。该方法主要依赖人体关键点的信息，但提取人体关键点消耗较大的资源，且关键点较为粗略，无法精细提取行人的意图，不能满足实际自动驾驶系统对行人意图判断的可靠性要求。

可见，现有的行人过街意图识别还存在计算效率低、训练代价高、识别准确性低、误差大，且实时性不好等问题，不适合自动驾驶实际使用中的预测需要，严重影响了自动驾驶系统控制决策的有效性，不利于自动驾驶系统安全性的提高。

综上，现有技术目前仍然无法解决自动驾驶实际应用场景下对行人过街意图进行实时有效识别的技术问题，影响了自动驾驶的决策。因此，如何提供一种计算效率高、网络训练开销小，满足自动驾驶决策对实际道路场景中行人过街意图的实时有效识别需求的行人过街意图识别方法，成为当前自动驾驶领域非常有现实意义的研究内容。

发明内容

为达到上述发明目的，本公开需要克服的技术难点主要集中在如下几个方面：

一是早期的过街意图难以捕捉。一般来说，能够越早预测行人的过街意图，对于自动驾驶车辆越有益。然而，早期行人的过街意图征兆不明显或者持续时间过短，行人在过街前头部和面部会有一定的动作，但此类动作不会持续，需要捕捉并识别到关键的动作并加以处理。仅仅利用人体关键点的信息以推断行人的动作或者意图，则由于人体关键点数量少，特征粗略，且人体位姿估计消耗较多运算资源，不能进行有效预测。

二是视频数据具有时序特征，行人过街的意图需要根据时序上下文的信息进行推断，虽然循环神经网络(包括RNN、LSTM、GRU及其变体等)能够较好捕捉时间的依赖，但其效率较低，训练代价高，不利于自动驾驶平台的模型部署。

三是视频数据具有丰富的语义特征，如果采用多任务、多模型组合的方式，人为划分特征，使用单一模型进行提取，再进行特征融合，典型特征包括行人位置特征、行人外观特征、场景语义特征、人体位姿特征等，但是，这种方式在一定程度上破坏了原始视频数据的语义信息，增加了人为引入的误差。

四是自动驾驶系统要求行人意图预测需要具有实时性，现有方法难以兼顾实时性。人体位姿估计、图像特征提取等任务均消耗较大的计算资源。此外，现阶段的视频理解和动作识别领域方法大多针对于离线的视频，需要对整个视频序列进行分析和建模，而自动驾驶的场景需求是在线的行人动作和意图识别，因此特征复用、时序融合均为技术难点。

为了解决上述四个技术问题，本公开提出了一种基于视频数据的行人过街意图识别方法和系统，尽可能早地预测行人过街意图，采用2D卷积神经网络提取视频流中包含行人以及周围场景的单帧图像特征，并用两种方式融合不同帧之间的时序关联，一是对特征图的部分通道进行相邻帧的运动增强，捕捉并增强行人关键的动作，二是对特征图的部分通道在时序上进行时序分组1D卷积操作，在低复杂度下建立时序上的关联。针对自动驾驶平台的需求，通过设置合理的缓冲区，在线且持续地输出每一视频帧的识别结果，并实现对历史特征的有效复用。本公开通过端到端地逐帧对视频流中的行人进行意图识别和动作检测，达到对行人过街意图的高准确度和实时识别。

具体地，为了解决上述技术问题，本公开提供了一种基于时空注意力机制的行人轨迹预测方法、装置、电子设备及存储介质。

根据本公开的一个方面，本公开提供了一种基于视频数据的行人过街意图识别方法，包括如下步骤：

步骤S100、车载相机实时采集自动驾驶车辆前方的道路及场景图像，获得视频数据；

步骤S110、对所述视频数据进行数据预处理，提取车载相机拍摄的视频当前帧中的行人及周围区域的图像并划分类别；

步骤S120、采用2D卷积神经网络对行人及周围场景区域的图像进行特征提取，得到2D卷积特征图，并针对2D卷积特征图的部分通道进行运动增强和时序分组1D卷积，得到运动时序特征图；

步骤S130、根据所述运动时序特征图，计算并获得当前帧的初步识别结果；

步骤S140、对所述初步识别结果进行平滑滤波，输出行人在当前帧的过街意图或状态。

优选地，所述预处理包括：检测行人在视频图像中的外接框，并关联视频不同帧中的同一行人。

优选地，对所述经过预处理后的数据的每一帧中的行人过街意图及状态进行识别，输出行人当前的意图或状态，包括Crossing(正在过街)、Not-crossing(不过街)和Intention-to-cross(存在过街意图)共3种。

优选地，在所述步骤S110中，车载相机采集视频的原始帧率为30FPS，输入数据包含当前帧的视频图像，以及当前帧图像中所有的行人外接框坐标(x_lt,y_lt,x_rb,y_rb)以及行人ID，其中，(x_lt,y_lt),(x_rb,y_rb)分别代表行人在像素坐标系中外接框的左上角坐标和右下角坐标；将行人外接框扩张为k_context倍大小，得到带背景信息的行人外接框，计算公式如下所示：

其中，(x_lt',y_lt',x_rb',y_rb')为带背景信息的行人外接框坐标。

优选地，其中所述k_context＝1.5。

优选地，所述步骤S120包括如下步骤：

步骤S121、选定用于图像特征提取的基于2D卷积的主干网络Backbone网络；

步骤S122、设置集合S₁和S₂，分别包含需要在Backbone网络中进行运动增强和时序分组1D卷积的位置；

步骤S123、在Backbone网络中进行处理；

步骤S124、判断所述Backbone网络中的处理是否结束；

步骤S125、判断当前在Backbone网络中的处理位置是否在集合S₁和S₂中；

步骤S126、取出缓冲区中上一帧相同位置的特征图，并将当前帧的特征图存入缓冲区中；

步骤S127、若当前位置在集合S₁中，则对当前特征和上一帧特征图的相应通道进行运动增强；

步骤S128、若当前位置在集合S₂中，则对当前特征和上一帧特征图的相应通道进行时序分组1D卷积；

步骤S129、输出特征图；

其中，所述步骤S124中，如果所述Backbone网络中的处理没有结束，则继续执行步骤S125的操作；否则，直接跳转到步骤S129；

所述步骤S125中，如果当前在Backbone网络中的处理位置在集合S₁或S₂中，则进入步骤S126；否则，返回步骤S123。

优选地，所述步骤S121中，用于图像特征提取的Backbone网络为ResNet50、ResNet101、VGGNet、DenseNet或MobileNet网络中的任意一个。

优选地，所述用于图像特征提取的Backbone网络为ResNet50网络。

优选地，所述ResNet50网络的参数如下表所示：

表格中，conv1，conv2_x，conv3_x，conv4_x，conv5_x分别代表ResNet50中的5个组成部分，称为layer；TGC表示时序分组1D卷积操作。

优选地，所述步骤S122中，通过搜索的方式确定相应位置，从而设置运动增强和时序分组1D卷积的位置，所述位置与Backbone网络有关。

优选地，在ResNet50的每1个layer中的第1个ResNet结构Bottleneck的初始位置进行运动增强(Motion-enhancement)，并将该位置信息添加到集合S₁中，其中Bottleneck代表ResNet网络中的瓶颈结构；在ResNet50的每一个block的初始位置进行时序分组1D卷积(TGC)，并将该位置信息添加到集合S₂中。

优选地，所述步骤S123中，按照ResNet50网络流程进行处理；

所述步骤S125中，集合S₁和S₂分别包含需要在Backbone网络中进行运动增强和时序分组1D卷积的位置，如果当前处理位置k在集合S₁或者S₂中，则表明该位置有运动增强模块或者时序分组1D卷积模块，进入步骤S126中；否则，进入步骤S123中，继续推进Backbone即ResNet50的处理流程。

优选地，所述步骤S126中，在内存中维持一块缓冲区M，用以存储上一帧在集合S₁或者S₂中出现位置的特征图；每次在缓冲区M的操作为，取出缓冲区中上一帧相同位置k的特征图

并将当前帧的特征图

存入缓冲区中，其中t-1和t表示任意相邻两帧。

优选地，所述步骤S127中，若当前在Backbone即ResNet50中的处理位置k在集合S₁中，即该位置处有运动增强模块，则对从缓冲区中取出的上一帧特征图

以及当前帧特征图

的

通道进行运动增强。

优选地，通过Backbone中若干层2D卷积神经网络的处理，提取了前后两帧的特征图

其中

和

分别表示上一帧特征图以及当前帧特征图，特征图维数为H_k×W_k×C_k，H_k、W_k、C_k分别表示Backbone中位置k的特征图的高度、宽度、通道数；选择特征图的固定的

通道，进行通道截取，得到用于运动增强的局部运动通道特征图组合

其中

和

分别表示上一帧的局部运动通道特征图以及当前帧的局部运动通道特征图，其中D_motion＝8，选择特征图中0至1/8前闭后开的通道区间，按照如下公式进行运动增强：

以捕捉视频不同帧之间的动作变化，其中g表示3×3卷积操作和ReLU层，

是运动增强后的相应特征图；对

和

进行逐位置相减，得到两帧之间的运动变化情况，再采用3×3卷积提取运动变化特征，将运动变化特征逐位置相加到

上，实现运动的增强；最后，将

替换原特征图

的

通道部分，原有的特征图

得到运动增强更新。

优选地，所述步骤S128中，若当前在Backbone中的处理位置k在集合S₂中，即该位置处需要执行时序分组1D卷积模块，则对从缓冲区中取出的上一帧特征图

以及当前帧特征图

的

通道进行时序分组1D卷积，执行完毕后，跳转至步骤S123。

其中

和

通道，进行通道截取，得到用于时序分组1D卷积的二维局部时序通道特征图，并改变其尺寸为

得到一维局部时序通道特征图组合

其中

和

分别表示上一帧的一维局部时序通道特征图以及当前帧的一维局部时序通道特征图，D_TGC＝4，选择特征图中

至

前闭后开的通道区间，其中D_motion＝8；将前后两帧一维局部时序通道特征图在时间维度拼接为

采用卷积核长度为2的1D卷积核，对

在时间维度上进行分组的1D卷积，得到时序分组1D卷积后特征图

视频两帧之间的特征得到融合；最后，将

替换原特征图

的

至

前闭后开的通道区间部分，原有的特征图

得到时序融合更新。

优选地，所述步骤S130中，Backbone网络ResNet50最终输出1×1×3维的结果特征图，通过Softmax函数，计算得到当前行人正在过街(Crossing)、不过街(Not-crossing)和存在过街意图(Intention-to-cross)共三个类别意图或状态的概率，选择概率最高的类别作为当前帧的初步识别结果。

优选地，对初步的识别结果进行滤波，输出行人在当前帧的过街意图或状态。

优选地，所述步骤S140包括如下步骤：

步骤S141、设定当前帧为T，从历史帧状态列表中获取T-1帧、T-2帧的状态；

步骤S142、若T帧的状态不等于T-1帧，且T-1帧状态不等于T-2帧，则修正T帧状态为T-1帧状态；

步骤S143、若T帧状态为正在过街(Crossing)且T-1帧状态为不过街(Not-crossing)，则修正T帧状态为存在过街意图(Intention-to-cross)，防止由不过街(Not-crossing)无意义地变为正在过街(Crossing)；

步骤S144、若T帧状态为存在过街意图(Intention-to-cross)且T-1帧状态为正在过街(Crossing)，则修改当前帧状态为正在过街(Crossing)，防止由正在过街(Crossing)无意义地变为存在过街意图(Intention-to-cross)；

步骤S145、输出当前帧的行人过街意图或者状态，并更新历史帧状态列表L_st。

优选地，所述步骤S141中，维持一个历史帧状态列表L_st，存储历史帧的意图或者状态，列表长度为2，当前帧为T，从历史帧状态列表中获取T-1帧、T-2帧的行人意图意图或者状态。

优选地，所述步骤S145中，当前帧的行人过街意图或者状态为正在过街(Crossing)、不过街(Not-crossing)和存在过街意图(Intention-to-cross)三者之一，按照滑动窗口的思想，去除历史帧状态列表的第一个元素，并将当前帧的结果添加到历史帧状态列表L_st的末端。

根据本公开的另一个方面，本公开提供了一种基于视频数据的行人过街意图识别系统，包括：

数据采集单元，车载相机实时采集自动驾驶车辆前方的道路及场景图像，获得视频数据；

数据预处理单元，对所述视频数据进行数据预处理，提取车载相机拍摄的视频当前帧中的行人及周围区域的图像并划分类别；

特征融合单元，采用2D卷积神经网络对行人及周围场景区域的图像进行特征提取，得到2D卷积特征图，并针对2D卷积特征图的部分通道进行运动增强和时序分组1D卷积，得到运动时序特征图；

初步识别单元，根据所述运动时序特征图，计算并获得当前帧的初步识别结果；

输出单元，对所述初步识别结果进行滤波，输出行人在当前帧的过街意图或状态。

根据本公开的再一个方面，本公开提供了一种电子设备，包括：

存储器，所述存储器存储执行指令；以及

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行上述方法。

根据本公开的又一个方面，本公开提供了一种可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述方法。

本公开的有益效果：

1、采用运动增强模块捕捉并增强视频相邻帧之间行人的运动和动作信息，大大提高了行人过街意图识别的准确度；

2、采用时序分组1D卷积，在低复杂度下，关联和融合视频相邻帧之间存在的时序信息，使得历史帧的特征能够传递到当前帧，有助于在一段连续的时间内判断行人过街意图；

3、部署在自动驾驶车辆的平台上，进行在线行人过街意图识别，实时识别出行人的过街意图，满足自动驾驶系统的实时使用需要；

4、系统装置轻量化，无需庞大的复杂计算，适应于车载低功耗处理器的处理能力；

5、运动增强模块能够捕捉行人微小的动作信息，有利于对行人的过街意图做出判断；

6、时序分组1D卷积可以融合历史帧的特征，有助于在一段连续的时间内判断行人过街意图。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。通过结合附图对本公开的实施例进行详细描述，本公开的上述和其它目的、特征、优点将更加清楚。

图1示出了基于深度学习方法对车载相机拍摄的视频数据进行实时行人过街意图识别系统的总体流程

图2示出了针对特征图的部分通道利用时序分组1D卷积和运动增强的流程

图3示出了增加时序分组1D卷积的ResNet Bottleneck Block图

图4示出了运动增强模块的结构

图5示出了时序分组1D卷积模块的结构

图6示出了对当前帧结果进行平滑的流程

图7示出了三种类别状态转移图

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此，除非说明，否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外，在附图中，为了清楚和/或描述性的目的，可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时，可以以不同于所描述的顺序来执行具体的工艺顺序。例如，可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外，同样的附图标记表示同样的部件。

当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时，该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件，或者可以存在中间部件。然而，当部件被称作“直接在”另一部件“上“、“直接连接到”或“直接结合到”另一部件时，不存在中间部件。为此，术语“连接”可以指物理连接、电气连接等，并且具有或不具有中间部件。

本公开使用的术语是为了描述具体实施例的目的，而不意图是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

在本说明书的描述中，参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中，对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本公开的目的之一是提供一种基于视频数据的行人过街意图识别方法。

图1示出了基于深度学习方法对车载相机拍摄的视频数据进行实时行人过街意图识别系统的总体流程。首先进行数据预处理，提取车载相机拍摄的视频当前帧中的行人及周围区域的图像并划分类别。其次，采用2D卷积神经网络对行人及周围场景区域的图像进行特征提取，并针对特征图的部分通道，进行运动增强和时序分组1D卷积。根据输出的特征图，计算并获得当前帧的初步识别结果，并对其进行滤波，输出行人在当前帧的过街意图或状态。

具体情境为，在步骤S100(图中未示出)中，实时采集自动驾驶车辆前方的道路及场景图像，获得视频数据；具体地，采用自动驾驶车辆配备的光学相机实时采集车辆前方的道路及场景图像，获得视频数据，场景中可能包含正在穿越马路的行人，以及位于道路两侧的存在或者不存在过街意图的行人。所采视频数据经过预处理，检测行人在视频图像中的外接框，并关联视频不同帧中的同一行人。对所述经过预处理后的数据的每一帧中的行人过街意图及状态进行识别，输出行人当前的意图或状态，包括Crossing(正在过街)、Not-crossing(不过街)和Intention-to-cross(存在过街意图)共3种。

在步骤S110中，进行数据预处理，提取车载相机拍摄的视频当前帧中的行人及周围区域的图像，并对数据进行分类。具体地，车载相机采集视频的原始帧率为30FPS，输入数据包含当前帧的视频图像，以及当前帧图像中所有的行人外接框坐标(x_lt,y_lt,x_rb,y_rb)以及行人ID，其中，(x_lt,y_lt),(x_rb,y_rb)分别代表行人在像素坐标系中外接框的左上角坐标和右下角坐标。按照下式，将行人外接框扩张为k_context倍大小，得到带背景信息的行人外接框(x_lt',y_lt',x_rb',y_rb')，其中k_context＝1.5。

根据(x_lt',y_lt',x_rb',y_rb')提取出相应的行人及周围场景的图像区域，如果(x_lt',y_lt',x_rb',y_rb')超出了原图像的边界，则取图像边界的坐标。保持该矩形区域的长宽比不变，将矩形区域的长边设置缩放为224像素，使得原区域大小改变，将改变后的图像区域放置在224*224尺寸的2D空间的中心位置，2D空间中非图像区域像素值填充为(255,255,255)。行人的类别和状态共有3种，分别是Crossing、Not-crossing和Intention-to-cross，数据集包括JAAD数据集和PIE数据集，由于数据集中的行人仅有Crossing、Not-crossing两种标注，分别对应行人正在过街的视频帧和未过街的视频帧，为此，设置Time-to-event为1秒，即设置Crossiing帧发生时刻的前1秒的视频帧为Intention-to-cross类别。

在步骤S120中，选定用于提取行人及周围区域的图像特征的Backbone网络，设置集合S₁和S₂，分别包含需要在Backbone网络中进行运动增强和时序分组1D卷积的位置，在Backbone提取特征的过程中，针对特征图的部分通道利用时序分组1D卷积和运动增强融合相邻帧的时序特征。

图2示出了针对特征图的部分通道利用时序分组1D卷积和运动增强融合相邻帧的时序特征的流程。

表1在Backbone ResNet50中设置的运动增强和时序分组1D卷积的位置

在步骤S121中，选定用于图像特征提取的基于2D卷积的主干网络Backbone。具体地，用于图像特征提取的Backbone有若干种选择，例如ResNet50、ResNet101、VGGNet、DenseNet、MobileNet等，具体的选择根据自动驾驶系统的硬件条件以及设计需求而定，本例中选择ResNet50作为该系统的Backbone网络。

图3是增加时序分组1D卷积的ResNet Bottleneck Block图。

在步骤S122中，设置集合S₁和S₂，分别包含需要在Backbone中进行运动增强和时序分组1D卷积的位置。具体地，设置运动增强和时序分组1D卷积的位置与Backbone网络有关，可以通过搜索的方式确定相应位置。在本例中，见表1，表格中，conv1，conv2_x，conv3_x，conv4_x，conv5_x分别代表ResNet50中的5个组成部分，称为layer；k×k,C的结构表示卷积核大小为k×k，输出通道数为C的卷积操作，其中k、C均为正整数；TGC表示时序分组1D卷积操作。在ResNet50的每1个layer中的第1个ResNet结构Bottleneck的初始位置进行运动增强(Motion-enhancement)，并将该位置信息添加到集合S₁中，其中Bottleneck代表ResNet网络中的一种瓶颈结构；在ResNet50的每一个block的初始位置进行时序分组1D卷积(TGC)，并将该位置信息添加到集合S₂中，增加时序分组1D卷积的ResNet BottleneckBlock如图3所示。

在步骤S123中，在Backbone网络中进行处理。具体地，在本例中，按照一般的ResNet50流程进行处理。

在步骤S124中，判断是否处理结束。具体地，判断在ResNet50网络中的处理流程是否结束，如果结束，则跳转到步骤S129中；否则，跳转到步骤S125中。

在步骤S125中，当前在Backbone即ResNet50中的处理位置k，是否在集合S₁和S₂中。具体地，集合S₁和S₂分别包含需要在Backbone中进行运动增强和时序分组1D卷积的位置，如果当前处理位置k在集合S₁或者S₂中，则表明该位置有运动增强模块或者时序分组1D卷积模块，进入步骤S126中；否则，进入步骤S123中，继续推进Backbone即ResNet50的处理流程。

在步骤S126中，取出缓冲区中上一帧相同位置k的特征图

并将当前帧的特征图

存入缓冲区中。具体地，运动增强和时序分组1D卷积均需要相邻两帧在Backbone中相同处理位置的特征图，在内存中维持一块缓冲区M，用以存储上一帧在集合S₁或者S₂中出现位置的特征图。每次在缓冲区M的操作为，取出缓冲区中上一帧相同位置k的特征图

并将当前帧的特征图

存入缓冲区中，其中t-1和t表示任意相邻两帧。

在步骤S127中，若当前位置k在集合S₁中，则对当前特征图

和上一帧特征图

的

通道的运动增强。具体地，若当前在Backbone即ResNet50中的处理位置k在集合S₁中，即该位置处有运动增强模块，则对从缓冲区中取出的上一帧特征图

以及当前帧特征图

的

通道进行运动增强。

图4是运动增强模块的结构图。下面将介绍运动增强模块，见图4。通过Backbone中若干层2D卷积神经网络的处理，提取了前后两帧的特征图

其中

和

其中

和

分别表示上一帧的局部运动通道特征图以及当前帧的局部运动通道特征图，其中D_motion＝8，选择特征图中0至1/8前闭后开的通道区间，按照公式

进行运动增强，以捕捉视频不同帧之间的动作变化，其中g表示3×3卷积操作和ReLU层，

是运动增强后的相应特征图。对

和

上，实现运动的增强。最后，将

替换原特征图

的

通道部分，原有的特征图

得到运动增强更新。

在步骤S128中，若当前位置k在集合S₂中，则对当前特征图

和上一帧特征图

的

通道的时序分组1D卷积，执行完毕后，跳转至步骤S123。具体地，若当前在Backbone中的处理位置k在集合S₂中，即该位置处需要执行时序分组1D卷积模块，则对从缓冲区中取出的上一帧特征图

以及当前帧特征图

的

通道进行时序分组1D卷积。

图5是时序分组1D卷积模块的结构图。下面将介绍时序分组1D卷积模块，见图5。通过Backbone中若干层2D卷积神经网络的处理，提取了前后两帧的特征图

其中

和

得到一维局部时序通道特征图组合

其中

和

至

采用卷积核长度为2的1D卷积核，对

视频两帧之间的特征得到融合；最后，将

替换原特征图

的

至

前闭后开的通道区间部分，原有的特征图

得到时序融合更新。

在步骤S130中，根据特征图，计算并获得当前帧的初步识别结果。具体地，Backbone网络ResNet50最终输出1×1×3维的结果特征图，通过Softmax函数，可以计算得到当前行人Crossing(正在过街)、Not-crossing(不过街)和Intention-to-cross(存在过街意图)共三个类别的概率，选择概率最高的类别作为当前帧的初步识别结果。

在步骤S130中，对初步的识别结果进行滤波，输出行人在当前帧的过街意图或状态。

图6示出了对当前帧结果进行滤波的流程。

在步骤S141中，设当前帧为T，从历史帧状态列表中获取T-1帧、T-2帧的状态。具体地，维持一个历史帧状态列表L_st，存储历史帧的意图或者状态，在本例中，列表长度为2，设当前帧为T，从历史帧状态列表中获取T-1帧、T-2帧的行人意图意图或者状态。

在步骤S142中，若T帧的状态不等于T-1帧，且T-1帧状态不等于T-2帧，则修正T帧状态为T-1帧状态。

在步骤S143中，见图7，若T帧状态为Crossing且T-1帧状态为Not-crossing，则修正T帧状态为Intention-to-cross，防止由Not-crossing无意义地变为Crossing。

在步骤S144中，见图7，若T帧状态为Intention-to-cross且T-1帧状态为Crossing，则修改当前帧状态为Crossing，防止由Crossing无意义地变为Intention-to-cross。

在步骤S145中，输出当前帧的行人过街意图或者状态，并更新历史帧状态列表L_st。具体地，当前帧的行人过街意图或者状态为Crossing(正在过街)、Not-crossing(不过街)和Intention-to-cross(存在过街意图)三者之一，按照滑动窗口的思想，去除历史帧状态列表的第一个元素，并将当前帧的结果添加到历史帧状态列表L_st的末端。

本公开的流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

就本说明书而言，“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在存储器中。

应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路、具有合适的组合逻辑门电路的专用集成电路、可编程门阵列(PGA)、现场可编程门阵列(FPGA)等。

本公开领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述程序可以存储于一种可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。

此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。

本公开还提供了一种电子设备，包括：存储器，存储器存储执行指令；以及处理器或其他硬件模块，处理器或其他硬件模块执行存储器存储的执行指令，使得处理器或其他硬件模块执行上述的方法。

本公开还提供了一种可读存储介质，可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述的方法。

综上所述，本公开所述方法具有如下优势：

1、由于采用了运动增强模块捕捉并增强视频相邻帧之间行人的运动和动作信息，大大提高了行人过街意图识别的准确度。

2、采用时序分组1D卷积，在低复杂度下，关联和融合视频相邻帧之间存在的时序信息，使得历史帧的特征能够传递到当前帧，有助于在一段连续的时间内判断行人过街意图。

3、设计了在线行人过街意图识别的方法和系统，能够部署到自动驾驶车辆的平台上，在线并实时地进行行人过街意图识别，满足自动驾驶系统的实时使用需要。

4、本公开的系统装置轻量化，无需庞大的复杂计算，适应于车载低功耗处理器的处理能力，能够部署在自动驾驶车辆的平台上，进行实时的行人过街意图识别。

5、运动增强模块可以捕捉行人微小的动作信息，有利于对行人的过街意图做出判断。

可见，本公开在实际自动驾驶应用中，既适应车载低功耗处理器的处理能力，又基于实时视频数据，保证了对于复杂行人过街意图识别的实时性和有效性，提高了对行人过街意图识别的准确性，为实际自动驾驶决策提供了可靠的依据，大大提高了自动驾驶的安全性。

至此，已经结合附图所示的优选实施方法描述了本公开的技术方案，但是，本领域技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定，本公开的保护范围显然不局限于这些具体实施方式。在不偏离本公开的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案仍处于本公开的范围内。

Claims

1.一种基于视频数据的行人过街意图识别方法，其特征在于，包括：

步骤S140、对所述初步识别结果进行滤波，输出行人在当前帧的过街意图或状态。

2.根据权利要求1所述的一种基于视频数据的行人过街意图识别方法，其特征在于，

所述预处理包括：检测行人在视频图像中的外接框，并关联视频不同帧中的同一行人。

3.根据权利要求1或2所述的一种基于视频数据的行人过街意图识别方法，其特征在于，

对所述经过预处理后的数据的每一帧中的行人过街意图及状态进行识别，输出行人当前的意图或状态，包括正在过街(Crossing)、不过街(Not-crossing)和存在过街意图(Intention-to-cross)共3种。

4.根据权利要求1、2或3所述的一种基于视频数据的行人过街意图识别方法，其特征在于，

在所述步骤S110中，车载相机采集视频的原始帧率为30FPS，输入数据包含当前帧的视频图像，以及当前帧图像中所有的行人外接框坐标(x_lt,y_lt,x_rb,y_rb)以及行人ID，其中，(x_lt,y_lt),(x_rb,y_rb)分别代表行人在像素坐标系中外接框的左上角坐标和右下角坐标；将行人外接框扩张为k_context倍大小，得到带背景信息的行人外接框，计算公式如下所示：