CN112818942B

CN112818942B - 一种车辆行驶过程中行人动作识别方法和系统

Info

Publication number: CN112818942B
Application number: CN202110243281.3A
Authority: CN
Inventors: 杨蒙蒙; 杨殿阁; 付峥; 江昆; 黄晋; 王思佳
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2022-11-18
Anticipated expiration: 2041-03-05
Also published as: CN112818942A

Abstract

本发明属于智能汽车的环境感知技术领域，涉及一种车辆行驶过程中行人动作识别方法和系统，包括以下步骤：S1获取行人视频图像；S2从行人视频图像中提取行人的2D关节点坐标和骨架；S3根据2D关节点坐标估算行人的3D关节点坐标，并对3D关节点坐标进行归一化；S4将骨架和经过归一化的3D关节点坐标输入时空自适应图网络模型，获得行人识别结果。其不仅可以解决由于行人的身高、衣着，交通场景光照、动作种类多以及复杂度高等因素的影响，同时克服了车辆在行驶过程中，行人检测尺度变化的影响，有效提升行人动作检测精度。

Description

一种车辆行驶过程中行人动作识别方法和系统

技术领域

本发明涉及一种车辆行驶过程中行人动作识别方法和系统，属于智能汽车的环境感知技术领域。

背景技术

在车辆自动驾驶过程中，对行人的感知极其重要。其不仅需要对行人进行检测，而且还要进一步检测出行人的动作，从而更好的理解行人意图，帮助车辆做出最优决策，提升自动驾驶车辆的安全性、可靠性。

目前针对行人的行为识别一般基于静止车辆时对行人的动作识别，而自动驾驶车辆大部分的工作在运动状态，因此行人动作识别算法要在从行人尺度不断变化的图像中准确识别出行人的动作。实际中，行人动作有多种，而且不同行人动作幅度、频率也不尽相同，而现有的行人识别方法并不能够对行人幅度、频率差异较大的动作准确识别，所以在实际应用中，行人的行为识别还面临着较为严峻的挑战。

发明内容

针对上述问题，本发明的目的是提供一种车辆行驶过程中行人动作识别方法和系统，其不仅可以解决由于行人的身高、衣着，交通场景光照、动作种类多以及复杂度高等因素的影响，同时克服了车辆在行驶过程中，行人检测尺度变化的影响，有效提升行人动作检测精度。

为实现上述目的，本发明采取以下技术方案：一种车辆行驶过程中行人动作识别方法，包括以下步骤：S1获取行人视频图像；S2从行人视频图像中提取行人的2D关节点坐标和骨架；S3根据2D关节点坐标估算行人的3D关节点坐标，并对3D关节点坐标进行归一化；S4将骨架和经过归一化的3D关节点坐标输入时空自适应图网络模型，获得行人识别结果。

进一步，步骤S3中根据2D关节点坐标估算行人的3D关节点坐标的方法为：将2D关节点坐标输入至卷积网络，卷积网络包括若干组全卷积模块，全卷积模块包括两部分，每个部分均由卷积层、归一化、Relu激活函数和Dropout正则化组成，两部分之间通过全连接的方式连接，最后通过全连接层输出3D关节点坐标。

进一步，对3D关节点坐标进行归一化的方法为：通过坐标系转换，将物理坐标系下的行人的3D关节点坐标转换到以行人根关节点为原点的三维坐标系下；计算三维坐标系的尺度因子，将每帧3D关节点坐标除以尺度因子，得到随着车辆移动但尺度固定的3D关节点坐标。

进一步，尺度因子为行人的臀部到胸部之间的距离。

进一步，时空自适应图网络模型包括自适应空间图网络和自适应时序图网络，自适应空间图网络根据人体结构，将同一帧的关节点连接成边，组成空间边L_s＝{v_it,v_jt|(i,j)∈B}B，从而组成一组自然连接的人体关节点坐标；自适应时序图网络将连续两帧中相同的关节点连接成边，组成时间边L_t＝{v_it,v_i(t+1)}。

进一步，自适应空间图网络的构建方法为：将同一帧的关节点分为若干子集，并分别对子集中的关节点进行卷积操作，获得初始图卷积网络；构建初始图卷积网络的邻接矩阵以及度矩阵；根据行人视频图像对邻接矩阵进行训练得到结构特征矩阵A₁；抽取动作特征通过叉乘获得大小与邻接矩阵相同的动作特征矩阵

其中k∈K，表示第k个子集划分，K为划分的子集总数；从而获得融合了人体结构和动作的特征矩阵

其中，λ是超参数，用于权衡结构特征和动作特征之间的重要性；

最后，基于融合了人体结构和动作的特征矩阵

和度矩阵分别在若干个子集中进行图卷积运算，获得自适应时序图网络的输出值。

进一步，图卷积运算的公式为：

其中，σ为归一化函数，δ为非线性ReLU激活函数，X是输入的图节点特征向量，W_k是学习权重，

为图卷积操作后的输出特征向量，OUT1是自适应空间图网络的输出值。

进一步，自适应时序图网络的构建方法为：采用滑窗切片的方式进行数据处理，当新的数据流进入时，采用切片方式剔除窗口第一帧数据，并补齐当前帧数据，保证每帧数据结果实时输出，并在全局分支中，根据窗口数据生成自适应时序卷积核；使用二维全局平均池化网络

来压缩自适应时序卷积核；用自适应加权对将经过压缩的自适应时序卷积核进行聚合，获得自适应时序图网络的输出值。

进一步，自适应时序图网络的输出值OUT2根据下式计算：

OUT2＝δ(conv_2d(X_t，(Ψ，1))，groups＝nt*C_out)

其中，δ为ReLU函数，conv_2d(*)为对时序自适应图网络输入特征进行二维卷积，(Ψ,1)为卷积核大小为，X_t为时序卷积网络的输入向量，即为空间图卷积网络的输出向量，nt为批量训练的数据量，C_out为空间图卷积网络的输出向量的通道数。

本发明还公开了一种车辆行驶过程中行人动作识别系统，包括：视频采集模块，用于获取行人视频图像；2D提取模块，用于从行人视频图像中提取行人的2D关节点坐标和骨架；3D转换模块，用于根据2D关节点坐标估算行人的3D关节点坐标，并对3D关节点坐标进行归一化；识别模块，用于将骨架和经过归一化的3D关节点坐标输入时空自适应图网络模型，获得行人识别结果。

本发明由于采取以上技术方案，其具有以下优点：

1、相比较于现有技术中通过提取行人2D姿态进行行人识别的方法，本发明通过估算行人3D姿态可以更好的反映行人真实空间动作。

2、本发明将行人3D姿态进行尺度归一化，可以解决检测到的行人3D骨架尺度随着车辆在运动而变化。

3、本发明以人体的自然骨架结构以及时间序列构建的时空全自适应图卷积网络，可以根据自适应空间图网络分支以学习更合适的图网络拓扑结构；根据自适应时序图网络分支，识别行人不同频率的动作。采用时空全自适应图网络可以显著提升行人动作识别的准确性。

附图说明

图1是本发明一实施例中车辆行驶过程中行人动作识别方法的流程图；

图2是本发明一实施例中3D关节点坐标与骨架的示意图；

图3是本发明一实施例中的3D骨架提取网络的结构示意图；

图4是本发明一实施例中的3D骨架尺度归一化过程的示意图，其中O1是物理坐标系的坐标原点，O2是以行人根关节点为原点的三维坐标系原点；

图5是本发明一实施例中的时空图卷积网络拓扑结构的示意图；

图6是本发明一实施例中的人体关节点坐标子集划分方法的示意图；

图7是本发明一实施例中的时空自适应图网络模型的结构示意图。

具体实施方式

为了使本领域技术人员更好的理解本发明的技术方向，通过具体实施例对本发明进行详细的描绘。然而应当理解，具体实施方式的提供仅为了更好地理解本发明，它们不应该理解成对本发明的限制。在本发明的描述中，需要理解的是，所用到的术语仅仅是用于描述的目的，而不能理解为指示或暗示相对重要性。

本发明涉及一种车辆行驶过程中行人动作识别方法和系统，其利用车载摄像头采集车辆周围信息，通过目标检测算法对行人进行检测，并使用深度卷积网络提取出的行人3D骨架；对所提取到的动作进行坐标统一和尺度归一化；根据人体的自然骨架结构以及时间序列构建时空全自适应图卷积网络，通过该网络实现行人动作的准确识别。本发明不仅可以解决由于行人的身高、衣着，交通场景光照、动作种类多以及复杂度等因素的影响，同时克服了车辆在行驶过程中，行人检测尺度变化的影响，有效提升行人动作检测精度；该方法也能克服不同行人动作幅度、频率不同对识别精度的影响，同时保证识别算法的实时性，以满足实际应用需求。下面通过两个实施例对本发明中方案进行详细说明。

实施例一

本实施例公开了一种车辆行驶过程中行人动作识别方法，如图1所示，包括以下步骤：

S1利用车载摄像头采集车辆周围信息，从而获取行人视频图像。

S2从行人视频图像中提取行人的2D关节点坐标和骨架。

使用深度卷积网络从行人视频图像中提取行人的2D关节点坐标以及骨架。由于实现行人检测和2D关节点坐标检测的方法在现有技术比较普遍，故此处不对其实现方法进行详细阐述，在本实施例中优选通过HRNET算法提取行人的2D关节点坐标与骨架，但本领域中所有的能够实现相应功能的算法均可以用于本发明中的技术方案。

S3根据2D关节点坐标估算行人的3D关节点坐标，并对3D关节点坐标进行归一化。

如图2所示，将步骤S2中提取出的2D关节点坐标映射到3D空间中，从而恢复出3D关节点坐标，结合骨架即可获得行人的3D位姿。图2中每个编号均代表一个关节点坐标，各编号分别代表：臀部0、右髋1、右膝2、右脚3、左髋4、左膝5、右脚6、脊柱7、胸部8、颈部9、头部10、左肩11、左肘12、左腕13、右肩14、右肘15和右腕16。

步骤S3中根据2D关节点坐标估算行人的3D关节点坐标的方法，如图3所示，为：将T帧的2D关节点坐标输入至卷积网络，卷积网络包括若干组全卷积模块，本实施例中优选卷积网络包括4组全卷积模块。全卷积模块包括两部分，每个部分均由卷积层、归一化、Relu激活函数和Dropout正则化组成，两部分之间通过全连接的方式连接，最后通过全连接层输出3D关节点坐标。

如图4所示，对3D关节点坐标进行尺度归一化的方法为：通过坐标系转换，将物理坐标系下的行人3D关节点坐标转换到以行人根关节点为原点(其坐标原点为O2)的三维坐标系下。其中，物理坐标系的坐标原点为O₁，以行人根关节点为原点的三维坐标系原点用O₂表示。计算该三维坐标系的尺度因子，尺度因子如图4所示为行人的臀部0到胸部8之间的距离。将视频图像中的每帧3D关节点坐标除以尺度因子，得到随着车辆移动但尺度固定的3D关节点坐标，即三维坐标系的尺度不随车辆移动而改变。

S4将骨架和经过归一化的3D关节点坐标输入时空自适应图网络模型，获得行人识别结果。

其中，时空自适应图网络模型根据人体的自然骨架结构以及时间序列构建，包括自适应空间图网络和自适应时序图网络。记一个有N个关节点和T帧的骨骼序列的时空图为G＝(V,E)，其关节点集合为V＝{v_it|t＝1,…,T,i＝1,…,N}。其中，E是根据人体节点的自然连接结构组成的边，对于该网络结构而言，关节点数目为16。第t帧的第i个关节点的特征向量P(v_it)为第i个关节点的三维坐标。如图5所示，自适应空间图网络根据人体结构，将同一帧的关节点连接成边，组成空间边L_s＝{v_it，v_jt|(i，j)∈B}B，从而组成一组自然连接的人体关节点坐标，如图5实线部分所示。自适应时序图网络将连续两帧中相同的关节点连接成边，组成时间边L_t＝{v_it，v_i(t+1)}，如图5虚线部分所示。自适应图卷积网络，时空图卷积网络主要由两部分组成，自适应空间图网络以及自适应时序图网络。图网络的基本构建内容包括：

同一帧的行人内部的关节点坐标的连接可以表示为邻接矩阵A，单位阵I表示自连接信息。自适应空间图网络的构建方法为：

将同一帧的关节点分为若干子集，并分别对子集中的关节点进行卷积操作。子集的分类方法如图6所示，为了更好表征行人动作特征，本实施例中优选像关节点分成3个子集。第一个子集为空间位置上比根关节点更远离整个骨架中心线的相邻关节点，在图6中表示为c，主要用于表征行人离心运动。第二个子集为空间位置上比根关节点更接近整个骨架中心线的相邻关节点，在图6中表示为b，主要用于表征行人近心运动。第三个子集为根关节点本身，在图6中表示为a，主要用于表征行人静止的运动特征。为了表征行人的运动特征，基于三个子集进行卷积获得初始图卷积网络，其卷积过程如下：

其中，A_k为第k个子集划分的邻接矩阵，Λ为采用子集划分后归一化的度矩阵，

中加入最后一项是为了防止

中存在零项；W_k为第k个子集划分节点学到的卷积权重；f_in表示该卷积层的输入特征向量；f_out表示经过该卷积层卷积操作后的输出特征向量。

如图7所示，初始化时空图的网络结构构建初始图卷积网络的邻接矩阵A以及度矩阵，由于初始化的图网络结构在训练过程中固定不变，而这样的固定结构不能很好的表征行人自然连接结构。因此本实施例设计了人体自然连接结构学习分支，即根据行人视频图像对邻接矩阵进行训练得到更加合理的结构特征矩阵A₁，其中矩阵元素代表连接对的连接强度。结构特征矩阵A₁会在网络迭代过程中不断更新，直至获得最佳的训练结果。

由于行人的动作多种多样，而运动的过程中人体关节点会存在某些隐式连接，比如在行人行走或奔跑时，行人的上臂会配合腿部运动进行摆臂，因此通过联合人体上臂运动可以更准确地判断行人的具体动作，即人体上臂与腿部存在隐式连接。而在人体自然连接结构中，并不能体现这种隐式连接。因此本实施例设计了基于人体动作的图拓扑结构学习分支。首先将输入数据分别传送至两个二维神经卷积网络ε、ζ。二维神经网络抽取动作特征后通过叉乘获得大小与邻接矩阵A相同的特征矩阵A₂，该特征矩阵A₂通过softmax函数将矩阵元素约束在0—1之间，从而得到基于人体动作的动作特征矩阵A₂。

为了充分表达任意关节点坐标之间的动作和结构特性，根据结构特征矩阵A₁和动作特征矩阵A₂获得融合了人体结构和动作的特征矩阵

其中k∈K，表示第k个子集划分，K为划分的子集总数；，λ是超参数，用于权衡结构特征和动作特征之间的重要性。

最后，基于融合了人体结构和动作的特征矩阵

图卷积运算的公式为：

以上通过空间图卷积网络可以学习到空间中相邻关节点坐标的局部特征。在此基础上，本实施例通过时序图卷积网络来学习不同时段的关节点坐标变化的局部特征。传统的时间图卷积网络中设定卷积核的大小为：[time_size]×[1]，其中[time_size]表示学习相邻[time_size]个关键帧中关节点坐标的变化特征，[1]表示只针对某一关节点坐标。时间图卷积在完成当前个关节点卷积操作后进行下一个关节点的卷积。而不同的行人动作频率不一样，而固定的卷积核并不能对不同频率的动作进行有效识别，因此本实施例中设计了对不同快慢的行人动作都能进行有效识别的时序自适应图卷积网络。

如图7所示，自适应时序图网络的构建方法为：为了保证了算法的实时性，满足实际应用需求，本实施例采用滑窗切片的方式进行数据处理，每次保证送入时空图网络的视频帧数为包含当前帧及之前的45帧数据，即窗口的大小为45。当新的数据流进入时，采用切片方式剔除窗口第一帧数据，并补齐当前帧数据，保证每帧数据结果实时输出，并在全局分支中，根据窗口数据生成自适应时序卷积核；由于不同通道的特征代表不同的含义，在卷积核相同的情况下无法实现有效的学习，因此本实施例根据不同的通道的特征学习自适应卷积核。为了有效地学习时序特征，使用二维全局平均池化网络

来压缩自适应时序卷积核，其公式为：

X′＝rescale(X)_(nt*c)*T*W*1

其中，W为人体节点总数，nt为批量训练的视频数目，c为输入特征向量的维度，X′是时间卷积网络的输入向量经过重新组合后的特征向量。

使用一维全局平均池化网络

进行采样，将多帧时序特征进行自适应下采样，得到固定大小为t帧的时序特征，此过程可用以下公式表示：

在时间建模中不考虑信道相关性的情况下，可以学习到c_ith信道的自适应卷积核为：

其中，

表示全连接层，δ为ReLU函数。

通过全局阶段得到自适应时序卷积后，采用自适应加权对将经过压缩的自适应时序卷积核进行聚合，获得自适应时序图网络的输出值。

自适应时序图网络的输出值OUT2根据下式计算：

OUT2＝δ(conv_2d(X_t,(Ψ,1)),groups＝nt*C_out)

其中，δ为ReLU函数，conv_2d(*)为对时序自适应图网络输入特征进行二维卷积，(Ψ，1)为卷积核大小为，X_t为时序卷积网络的输入向量，即为空间图卷积网络的输出向量，nt为批量训练的数据量，C_out为空间图卷积网络的输出向量的通道数。

时空全自适应图卷积网络训练首先对输入的数据进行batch normalization，然后在经过10个自适应时空网络单元后传入到全连接层，其中每个时空单元由一组空间自适应图卷积网络串联一组时序自适应图卷积网络组成，最后用SoftMax函数对行人动作进行分类，得到预测的行人动作类别。该时空全自适应图卷积网络的具体参数设置如下：网络输入特征为7维，前三组自适应时空网络单元特征输入为64维，中间四组自适应时空网络单元输入为128维，最后三组自适应时空网络单元输入特征维256维；在每次经过时空图卷积网络单元后，本实施例以0.6的概率随机将特征dropout，自适应时空网络卷积层stride统一设置为2。网络采用SGD优化器训练，学习总代数为500，学习率为0.01。

实施例二

基于相同的发明构思，本实施例公开了一种车辆行驶过程中行人动作识别系统，包括：

视频采集模块，用于获取行人视频图像；

2D提取模块，用于从行人视频图像中提取行人的2D关节点坐标和骨架；

3D转换模块，用于根据2D关节点坐标估算行人的3D关节点坐标，并对3D关节点坐标进行归一化；

识别模块，用于将骨架和经过归一化的3D关节点坐标输入时空自适应图网络模型，获得行人识别结果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。上述内容仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围。

Claims

1.一种车辆行驶过程中行人动作识别方法，其特征在于，包括以下步骤：

S1获取行人视频图像；

S2从所述行人视频图像中提取行人的2D关节点坐标和骨架；

S3根据所述2D关节点坐标估算行人的3D关节点坐标，并对所述3D关节点坐标进行归一化；

S4将骨架和经过归一化的3D关节点坐标输入时空自适应图网络模型，获得行人识别结果；

所述时空自适应图网络模型包括自适应空间图网络和自适应时序图网络，所述自适应空间图网络根据人体结构，将同一帧的关节点连接成边，组成空间边L_s＝{v_it,v_jt|(i,j)∈B}B，从而组成一组自然连接的人体关节点坐标；所述自适应时序图网络将连续两帧中相同的关节点连接成边，组成时间边L_t＝{v_it,v_i(t+1)}；

所述自适应空间图网络的构建方法为：将同一帧的关节点分为若干子集，并分别对所述子集中的关节点进行卷积操作，获得初始图卷积网络；构建所述初始图卷积网络的邻接矩阵以及度矩阵；根据所述行人视频图像对所述邻接矩阵进行训练得到结构特征矩阵A₁；抽取动作特征通过叉乘获得大小与所述邻接矩阵相同的动作特征矩阵A₂；从而获得融合了人体结构和动作的特征矩阵

其中k∈K，表示第k个子集划分，K为划分的子集总数；λ是超参数，用于权衡结构特征和动作特征之间的重要性；

最后，基于融合了人体结构和动作的特征矩阵

和度矩阵分别在若干个所述子集中进行图卷积运算，获得所述自适应时序图网络的输出值；

所述自适应时序图网络的构建方法为：采用滑窗切片的方式进行数据处理，当新的数据流进入时，采用切片方式剔除窗口第一帧数据，并补齐当前帧数据，保证每帧数据结果实时输出，并在全局分支中，根据窗口数据生成自适应时序卷积核；使用二维全局平均池化网络

来压缩所述自适应时序卷积核；用自适应加权对将经过压缩的所述自适应时序卷积核进行聚合，获得所述自适应时序图网络的输出值。

2.如权利要求1所述的车辆行驶过程中行人动作识别方法，其特征在于，所述步骤S3中根据所述2D关节点坐标估算行人的3D关节点坐标的方法为：将所述2D关节点坐标输入至卷积网络，所述卷积网络包括若干组全卷积模块，所述全卷积模块包括两部分，每个部分均由卷积层、归一化、Relu激活函数和Dropout正则化组成，两部分之间通过全连接的方式连接，最后通过全连接层输出3D关节点坐标。

3.如权利要求2所述的车辆行驶过程中行人动作识别方法，其特征在于，对所述3D关节点坐标进行归一化的方法为：通过坐标系转换，将物理坐标系下的行人的3D关节点坐标转换到以行人根关节点为原点的三维坐标系下；计算所述三维坐标系的尺度因子，将每帧3D关节点坐标除以尺度因子，得到随着车辆移动但尺度固定的3D关节点坐标。

4.如权利要求3所述的车辆行驶过程中行人动作识别方法，其特征在于，所述尺度因子为行人的臀部到胸部之间的距离。

5.如权利要求1所述的车辆行驶过程中行人动作识别方法，其特征在于，所述图卷积运算的公式为：