CN115620393A

CN115620393A - 一种面向自动驾驶的细粒度行人行为识别方法及系统

Info

Publication number: CN115620393A
Application number: CN202211260738.2A
Authority: CN
Inventors: 阎莹; 冯成成; 袁华智; 李�杰; 田振鼎; 周墨; 张宇; 茅天一
Original assignee: Changan University
Current assignee: Changan University
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2023-01-17

Abstract

本公开提供了一种面向自动驾驶的细粒度行人行为识别方法及系统，属于自动驾驶与计算机视觉技术领域，包括连续采集路口的视频数据，构建行人数据集；对行人行为数据集进行行人检测和人体关键点信息提取，获取多部位骨架姿态数据，并基于2D骨架关键点沿时间序列堆叠生成3D人体热图体积；对视频帧进行采集并进行不同维度的三维卷积，基于人体骨骼关节沿时间维度堆叠热图表示人体姿势特征，通过3D残差级联CBAM机制提取时空特征，在残差层中引入自注意力模块获取时间空间的特征相关性，输出对行人过街的行为动作分类，使得自动驾驶系统系统具有识别复杂行人行为从而理解行人意图的能力。

Description

一种面向自动驾驶的细粒度行人行为识别方法及系统

技术领域

本公开涉及自动驾驶与计算机视觉技术领域，具体涉及一种面向自动驾驶的细粒度行人行为识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着自动驾驶系统的发展，环境感知、人机交互等得到广泛的应用。其中行人行为识别是自动驾驶领域研究的重要内容，但由于行人高度的不确定性和动态性，这仍然是一个具有挑战性的任务。早期的研究将行人视为移动的刚性物体，通过轨迹预测来预测他们未来的位置。

现有的研究试图通过行人的身体姿势和动作来识别行人的意图。然而，行人的意图被简单地视为二元结果，即过街或不过街。这不足以描述行人和车辆之间的动态通信过程。行人的行为应该得到进一步的精准描述，而不是得出是否要过马路的结论，尤其是当行人用手势与头部姿势车辆交流时，应更细致的分析出下一步的行为意图，对动作识别更细微化和动态化，尤其是当行人用手势与头部姿势车辆交流时。随着深度学习算法在行人动作识别研究中的应用，动作识别的准确率不断提升，而基于RGB视频的动作识别网络由于视频的冗余信息过多导致识别网络过于复杂，计算过程漫长，适用性不强。

发明内容

本公开为了解决上述问题，本公开提出一种面向自动驾驶的细粒度行人行为识别方法及系统，能够对行人过街过程中可能出现的手势动作、头部动作等细粒度的行为进行有效识别，实现将人的手势动作、头部动作引入过街行为中，在3D残差网络基础上融合通道与时空注意力机制，克服对细粒度动作的特征提取并充分融合时空特征，提高细粒度关键点特征的相关度。

根据一些实施例，本公开采用如下技术方案：

一种面向自动驾驶的细粒度行人行为识别方法，包括：

连续采集路口的视频数据，并对视频数据进行数据预处理；

对预处理后的视频数据进行人为标注划分行人动作类别，构建行人行为数据集；

对行人行为数据集进行行人检测和人体关键点信息提取，获取多部位骨架姿态数据，并基于2D骨架关键点沿时间序列堆叠生成3D人体热图体积；

对视频帧进行采集并进行不同维度的三维卷积，并对人体关键点进行局部时空序列特征以及通道特征提取，获取并增强全局时间空间的特征相关性，输出对行人过街的行为动作分类。

根据一些实施例，本公开采用如下技术方案：

数据采集处理模块，包括车载前视摄像头，用于连续采集路口的视频数据，并对视频数据进行数据预处理；

数据集构建模块，对预处理后的视频数据进行人为标注划分行人动作类别，构建行人行为数据集；

关键点提取模块，对行人行为数据集进行行人检测和人体关键点信息提取，获取多部位骨架姿态数据，并基于2D骨架关键点沿时间序列堆叠生成3D人体热图体积；

特征提取模块，用于对视频帧进行采集并进行不同维度的三维卷积，并对人体关键点进行局部时空序列特征以及通道特征提取，获取并增强全局时间空间的特征相关性，输出对行人过街的行为动作分类。

根据一些实施例，本公开还采用如下技术方案：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种面向自动驾驶的细粒度行人行为识别方法。

根据一些实施例，本公开还采用如下技术方案：

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种面向自动驾驶的细粒度行人行为识别方法。

与现有技术相比，本公开的有益效果为：

本公开包括给予骨架融合3D残差神经网络与注意力机制的行为动作模型，用于行人细粒度动作以及行为状态的识别，通过安装在车辆上的前视摄像头拍摄的实际道路环境与行人视频图像进行行人检测和行人人体相关位置关键点信息提取，并给予人体骨骼关节沿时间维度堆叠热图表示人体姿势特征，有利用模型的鲁棒性，不过分依赖于提取的关键点质量，降低的输入的扰动影响；此外，通过3D残差级联3D-CBAM机制提取通道与时空特征，在残差层中引入自注意力模块获取并增强时间空间的特征相关性；根据相关调研数据研究与量化分析，细化不同目的行人和行为，基于人工标注方法构建行人过街行为数据集，对模型参数进行优化训练，实现对行人行为动作分类，同时获得行人当前行为状态。本公开有效利用了行人人体关键点信息并转换为三维热图体积这一高层次语义特征，针对行人的细粒度行为特征细化动作分类，通过级联3D残差网络与时空与通道注意力机制在时序维度中加强细粒度行为特征的表现，通过在残差层中引入自注意力模块增强时间空间的特征相关性，实现了模型的改进，对行人过街阶段动作准确分类，提高了鲁棒性，使得自动驾驶系统具有识别复杂行人行为从而理解行人意图的能力。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开的步骤流程图。

图2为本公开行人骨架关键点可视化图。

图3为本公开均匀采样方式示意图。

图4为本公开3D残差网络模型框架结构图；

图5为本公开特征图处理过程示意图；

图6为本公开自注意力模块结构示意图；

图7为本公开转换成的热图关键点的过程示意图；

图8为本公开网络模型训练损失与准确率指标下降可视化结果图；

图9为本公开网络模型训练损失与准确率指标上升可视化结果图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

本公开的一种实施例中提供了一种面向自动驾驶的细粒度行人行为识别方法，包括以下步骤：

步骤1：连续采集路口的视频数据，并对视频数据进行数据预处理；

步骤2：对预处理后的视频数据进行人为标注划分行人动作类别，构建行人行为数据集；

步骤3：对行人行为数据集进行行人检测和人体关键点信息提取，获取多部位骨架姿态数据，并基于2D骨架关键点沿时间序列堆叠生成3D人体热图体积；

步骤4：对视频帧进行采集并进行不同维度的三维卷积，并对人体关键点进行局部时空序列特征以及通道特征提取，获取并增强全局时间空间的特征相关性，输出对行人过街的行为动作分类。

具体的，在步骤1中，通过使用低照度车载前视摄像机连续采集相关视频数据集，并对视频数据集进行数据预处理；

所述视频数据具体包含500个序列，通过放置在挡风玻璃上的前视摄像头记录道路情况，包括有无人行横道、行人视频图像。图像是以每秒16帧的速度拍摄，在这些序列中，300个是在车速20到30公里/小时的情况下拍摄的，车辆移动状态人车距离保持30m以上，而200个是在车辆静止的情况下拍摄的，人车距离保持3m以上。

所述预处理具体包括：视频剪辑、调整大小(以人为中心)、翻转、裁剪以及平移。

上述视频剪辑具体为以行人行为动作的连续特征为划分点将长视频事件分割为行人短视频动作；其余预处理操作中，源图像空间(上标或下标s)、预处理后图像空间(上标或下标i)，图像平面表示(上标或下标p表示以像素为单位，无上标表示以单位长度为单位)，即公式表示为：w＝^pw-1，h＝^ph-1，预处理后图像矩阵表示为ⁱI，相应的关键点坐标表示为ⁱk，源图像中内容的大小可以表示为O_s，X_s，Y_s坐标系中的一个边界框，边界框具有中心(^sx_b，^sy_b)和比例(^sw_b，^sh_b)，关键点坐标的公式具体表示为：

其中，cθ和sθ分别表示cos(θ)和sin(θ)。θ是旋转增量中的角度。网络输入矩阵中的每个像素可以回溯到源图像，具体公式表示为：

其中ⁱx是图像矩阵ⁱI中每个像素的坐标。

所述调整大小具体操作原理公式为：

所述翻转具体操作原理公式为：

所述裁剪具体操作原理公式为：

所述平移具体操作原理公式为：

其中Δx和Δy为平移量。

在步骤2中，具体的，对所述预处理后的视频数据，通过人为标注方法，划分行人的动作类别，并将视频序列分为训练集和测试集，从而构建行人行为数据集；

其中，所述行人行为动作分类具体是指通过相关调研数据研究与量化分析，细化不同目的行人和行为，将不同行人行为具体描述为一系列连续动作，并通过过街行人可能实现的行为动作考虑在内，分类各行人及动作包括有过街意图行人(驻足观望、停车手、沿路观望)、正在过街的行人(横穿观望过街、横穿过街、转向过街)、无过街意图行人(后退、礼让手、沿路直行)。其中行人动作类别分别标注为class i，其中i＝0，1，2，3，4，5，6，7，8，9。将行人行为标签数据集，按照8：1：1的比例分为训练集、验证集和测试集。所以，在所述数据预处理后的样本总量为7209，训练集为5614，验证集、测试集为798。

在步骤3中，具体的，对所述行人行为数据集进行行人检测和行人人体关键点信息提取，得到包括行人身体、手部、脚部的多部位骨架姿态数据，并基于2D骨架关键点沿时间序列生成3D人体热图体积作为3D残差网络的输入；

进一步的，所述行人检测和行人人体关键点信息具体操作是通过采用 Faster-RCNN，HRNet的算法和预训练模型，该算法可以识别并提取行人关键点坐标信息，并输出每个关键点识别的置信度。相对于传统提取17个行人关键点个数，机器只能简单地识别行人的行为姿态，无法理解行人复杂的过街行为，本公开所述关键点信息包括3种类型的边界框(身体框、手部框和脚步框)，其中身体部位又包括了头部和四肢，总共65个关键点(包含身体17个，脚部 6个，手部42个)具体如图2所示，其中关键点个数K＝65；每个关键点用(x,y,c) 表示，其中x和y分别表示横纵坐标,c表示该关键点置信度得分，即该关键点的准确率，其中x，y∈R，0＜c＜1。该提取的关键点信息作为行人姿态特征向量，主要影响行人的交通行为，可以通过头部、手势、脚掌方向等特征信息识别复杂的行人姿态如手部、头部姿态的变化等，从而更深层次理解行人的过街行为及过街意图。

表1行人关键点坐标与置信分数表

所述的生成伪热图是对所述行人关键点信息的二维姿势表示，大小为K×H ×W的热图，其中K是关节数，H和W是帧的高度和宽度。通过沿时间维度堆叠关节或肢体的热图，生成三维热图体积。关节热图公式为：

为防止3D热图体积的冗余对所述输入的3D人体热图体积在空间维度上进行裁剪，并通过均匀取样的方式对帧子集采样在时间维度上减小热图体积并保持视频的全局动态；

所述热图裁剪是解决热图与框架一样大低效的计算效率，尤其是当感兴趣的目标只在一个小区域内活动时。在这种情况下，首先找到最小的边界框，该边界框覆盖了帧中的所有2D姿势。然后，根据找到的框裁剪所有帧，并将其调整为目标大小。因此，可以在空间上减小3D热图体积的大小，同时保持所有2D 姿势及其运动。如图2所示，所述均匀采样是通过对整个视频剪辑片段均匀采样帧，主要通过将视频分成等长的n段，并随机选择一帧，以防在视频固定小时间窗口中采样的输入可能无法捕捉人类行为的整个动态，如图3所示均匀采样方式示意图。具体操作首先执行均匀采样，将视频分成等长的48片段，在这 48个片段中随机选择一帧，并丢弃其余帧，实现均匀采样48帧。然后，找到一个覆盖视频中所有人的全局裁剪框，并使用该框裁剪所有T帧以减小空间大小，使热图体积更紧凑；以防在视频固定小时间窗口中采样的输入可能无法捕捉人类行为的整个动态。

步骤4中，为了构建一个高效的动作识别模块，引入ResNet3D_50作为主干。ResNet3D_50的瓶颈块包含两个三维卷积滤波器，每个卷积滤波器后面紧跟着归一化BN和激活函数Relu。

基于残差网络残差原理，残差块分成两部分：直接映射部分和残差部分，残差部分，一般由两个或者三个卷积操作构成，残差块表示为：

x_l+1＝x₁+F(x_l,W_l)

在卷积网络中，x_l和x_l+1特征图数量不一样，这时候需要用1x1x1的3D卷积进行升维或降维，如图3左图所示，此时残差块表示为：

x_l+1＝h(x₁)+F(x_l,W_l)

其中x_l为输入，x_l+1为输出，h(x_l)是直接映射，反应在图中的右侧曲线；F(x₁,W_l)是残差部分，一般由两个或者三个卷积操作构成，如两图中左侧部分。

如图4所示，具体以3D残差网络为框架，其中基于一个卷积块conv1后，在不改变ResNet layer的网络结构下，保证可以使用预训练参数训练模型，从而级联通道融合时空特征的注意力机制，注意力机制具体通过串联的的方式引入在残差网络的最后一层残差后与第一层残差前，因为该注意力机制可以无缝集成到任何CNN架构中，总体参数量和计算量小，相对于复杂度更高的3D卷积，也没有增加过多的计算负担，并且可以进行端到端训练，主要通过在深度网络的每个卷积块上自适应地细化，增强图像特定区域的表征能力，主要加强对如手部、头部等细粒度姿态特征的提取和学习能力。然后在三层残差网络结构ResNet layer下对输入进行计算；为了适应3D残差网络，将空间注意机制的2D 卷积核改进为3D卷积核来获取时空特征权重，池化层采用3D平均池化层与最大池化层来聚合特征图的时空信息，空间卷积与时间卷积以并行方式执行，与空间注意力机制原理类似，在空间注意力的二维基础上，增加一个时间维度的注意力模块，来同时获取时间与空间特征权重，主要在基于通道与空间注意力模块的同时叠加时间维度特征，从而实现3D卷积神经网络与注意力机制的融合。

如图5所示，通过在特征层上应用通道注意力和空间注意力 CBAM(convolutionalblock attention module)具体是通道注意力模块级联时间与空间注意力模块的顺序排列结构。其中在第一个卷积块归一化输出后首先经过通道注意力机制，这部分模块相当于一个滤波器，重要的通道赋予较大权重，不重要的通道赋予较小权重，实现了在通道维度上的注意力机制；

M_C(F)＝σ{MLP[AvgPool(F)]+MLP[MaxPool(F)]}

其中，F为特征图，MC(F)为通道注意力模块，σ为Sigmod激活函数，MLP() 为多层感知机，AvgPool()和MaxPool()分别为平均值池化和最大值池化。

时空注意力模型关注的是有用的信息“在何时，在哪里”。相比于空间注意力机制，多了一层时序维度，并且因为时间与空间两个维度有更高的关联性，可以更好的同步进行时空注意力模块的生成。具体首先沿着时间维度，应用平均值池化和最大值池化对输入进行处理，不过是在通道维度上进行压缩采样，生成两个三维的空间矩阵，然后把它们堆叠在一起，最后输入一个卷积层，进行权重的学习优化，这就又生成了一个时空注意力滤波器，分别赋予时空维度一定的权重，如下式所示：

M_ST(F')＝σ{f[AvgPool(F'),MaxPool(F')]}

其中，MS(F′)MS(F′)为空间注意力模块，f为卷积层运算。输入特征图首先与通道注意力模块点乘，再与空间注意力模块点乘，得到最后经过CBAM注意力处理后的特征图，如下式所示：

F'＝M_C(F)*F

F”＝M_ST(F')*F'

其中，F为输入特征图，F′为经过通道注意力处理的特征图，F″为输出特征图。

进一步地，如图6所示，自注意力模块分别在三层残差网络结构中引进了 no_local模块，通过捕捉长距离特征之间依赖关系的基础上的一种非局部信息统计的注意力机制，可以捕获时间(一维时序信号)、空间(图片)和时空(视频序列)的长范围依赖，包含了同一帧的空间位置的相似度度量，还有不同帧之间同一位置、不同位置的相似度度量。

采用自注意力模块分别在三层残差网络结构中引进了3D no_local模块， no_local模块将中的自注意力网络扩展到了用于计算机视觉中图像/视频识别的通用空间/时空非局部网络。具体通过捕捉长距离特征之间依赖关系的基础上的一种非局部信息统计的注意力机制，可以捕获时间(一维时序信号)、空间(图片) 和时空(视频序列)的长范围依赖，包含了同一帧的空间位置的相似度度量，还有不同帧之间同一位置、不同位置的相似度度量。

自注意力模块其实就是non-local的嵌入高斯版本的一种特殊情况，其在神经网络的运算公式表示为：

其中x为输入的特征图表示成张量，y为输出张量，Wg，Wθ和

是权重矩阵，实际中是通过时空域的1x1x1 conv实现的，softmax是一个激活函数。 non-local block在神经网络的运算结构定义为：

z_i＝W_zy_i+x_i

其中+xi则表示的是一个残差连接。x为输入的特征数据(图像序列、视频)， y为输出特征数据。

no_local模块是基于非局部操作可以保证输入尺度和输出尺度不变，因此这种设计可以很容易嵌入到目前的残差网络架构中，插入位置如图6所示，在每个残差后block都加上non-local block，因为更多的non-local block能够捕获长距离特征多次转接的依赖，信息可以在时空域上距离较远的位置上进行来回传递，其中该模块通过计算特征中的自相关性，即得到每帧中每个像素对其他所有帧所有像素的关系，在通过CBAM-3D级联网络加强对细粒度特征的关注后，还能注意到细粒度特征不同帧之间的关系与变化，从而有利于对细粒度动作的识别。

具体输入维度：N×C×T×H×W，其中N＝batch_size，C为通道数，即关键点个数K，T为采样帧，H×W为图片长宽，在主干网络提取时空特征后，通过全平均池化层GAP将其转化成一个特征向量，最后全连接层FC对所述特征向量进行计算并输出类别概率。网络结构层的输入与输出如表2所示；

表2网络结构层

其中在残差层提取时空特征后，通过全局平均池化层GAP将其转化成一个特征向量，最后全连接层FC对所述特征向量进行计算并输出类别概率。

最后，选择损失函数与梯度下降法，通过参数调优对前述模型优化训练，当损失函数L收敛，结束模型训练，输出模型并测试，完成对行人行为动作分类。

损失函数采用交叉嫡损失函数，并且加入正则化为模型损失函数添加惩罚项，具体公式如下所示：

其中L₀代表原始的代价函数，后面那一项就是L2正则化项，w表示所有参数的向量集合，N_train为训练集样本量。λ就是正则项系数，权衡正则项与L₀项的比重。

进一步地，采用余弦退火策略调整学习率；使用动量(Momentum)的随机梯度下降法(SGD)优化训练误差，有利于避开局部极小值，减少损失曲线抖动，提高训练速度与稳定，具体参数设置如表3所示。

表3参数设置

参数	参数说明	值
			lr	学习率	0.002
batch_size	每批次数据样本数	16
			iter	迭代次数	3509
Epoch	迭代数据集的次数	15
			num_classes	数据类别数	10
weight_decay	权重衰减系数(L2正则)	0.01
			momentum	动量值	0.9

进一步地，如图8、9所示，所述模型训练中，设样本训练集数量为N_train，测试集为N_test，训练识别正确的样本数量为n_train，测试识别正确的样本数量为 n_test，总类别数为t，类别标签为i，每一类的样本数量为N_i，识别正确的样本数量n_i，每次迭代模型识别的准确率表示为top1_acc，模型测试的平均每分类准确率表示为mean_class_acc，其中

其中n， N，t＞0，且∈z，i∈z。所述损失函数L在下降过程趋于稳定且无法下降，模型达到收敛结束训练，保存训练的模型权重文件，测试训练过程中最优模型权重文件，模型测试的top1_ac最高达到0.91，mean_class_acc达到0.89。

实施例2

本公开的一种实施例中提供一种面向自动驾驶的细粒度行人行为识别系统，包括：

数据集构建模块，对预处理后的视频数据进行人行为为标注划分行人动作类别，构建行人行为数据集；

上述系统实现本公开实施例1中所述的任一方法所述的步骤。

实施例3

本公开的一种实施例中提供一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种面向自动驾驶的细粒度行人行为识别方法。

实施例4

本公开的一种实施例中提供一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种面向自动驾驶的细粒度行人行为识别方法。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种面向自动驾驶的细粒度行人行为识别方法，其特征在于，包括：

连续采集路口的视频数据，并对视频数据进行数据预处理；

2.如权利要求1所述的一种面向自动驾驶的细粒度行人行为识别方法，其特征在于，所述预处理具体包括：视频剪辑、调整大小、翻转、裁剪以及平移；所述视频剪辑为以行人行为动作的连续特征为划分点将长视频事件分割为行人短视频动作。

3.如权利要求1所述的一种面向自动驾驶的细粒度行人行为识别方法，其特征在于，所述行人检测和行人人体关键点信息提取的具体操作是识别并提取行人关键点坐标信息，并输出每个关键点识别的置信度，所述关键点信息包括4种类型的边界框，分别为身体框、头部框、手部框以及脚部框，关键点分别位于身体、脚部以及手部。

4.如权利要求1所述的一种面向自动驾驶的细粒度行人行为识别方法，其特征在于，对行人关键点信息进行二维姿势表示，通过沿时间维度堆叠关节以及肢体的热图，生成三维热图体积。

5.如权利要求1所述的一种面向自动驾驶的细粒度行人行为识别方法，其特征在于，对3D人体热图体积在空间维度上进行裁剪，并通过均匀取样的方式对帧子集采样，在时间维度上减小热图体积并保持视频的全局动态。

6.如权利要求1所述的一种面向自动驾驶的细粒度行人行为识别方法，其特征在于，对输入的关键点通道、关键帧、视频长宽，进行不同维度的三维卷积，捕获在多个相邻帧中编码的动态信息，利用融合的3D残差神经网络与注意力机制网络结构进行局部时空序列与通道特征的提取，其中采用人体全身关键点，通道作为3D残差网络的输入，并在残差层中引入自注意力模块获取全局时间空间的特征相关性。

7.如权利要求5所述的一种面向自动驾驶的细粒度行人行为识别方法，其特征在于，所述均匀采样是通过对整个视频剪辑片段均匀采样48帧，将视频分成等长的48段。

8.一种面向自动驾驶的细粒度行人行为识别系统，其特征在于，包括：

9.一种计算机可读存储介质，其特征是：其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-7中任一项所述的一种面向自动驾驶的细粒度行人行为识别方法。

10.一种终端设备，其特征是：包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行如权利要求1-7中任一项所述的一种面向自动驾驶的细粒度行人行为识别方法。