CN117238026B

CN117238026B - 一种基于骨骼和图像特征的姿态重建交互行为理解方法

Info

Publication number: CN117238026B
Application number: CN202310838898.9A
Authority: CN
Inventors: 赵小虎; 有鹏; 叶圣; 尤星懿; 刘勇
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2023-07-10
Filing date: 2023-07-10
Publication date: 2024-03-08
Anticipated expiration: 2043-07-10
Also published as: CN117238026A

Abstract

本发明公开了一种基于骨骼和图像特征的姿态重建交互行为理解方法，具体步骤如下：首先，进行数据集构建及预处理；其次，对骨骼特征和图像特征进行提取；然后，将提取到的骨骼特征和图像特征进行融合与重建；最后，进行实验评估验证。本发明采用上述一种基于骨骼和图像特征的姿态重建交互行为理解方法，既保留了骨骼特征对于人体行为信息提取的纯粹性，又利用图像特征保留了环境等有效图像信息，达到对模型特征信息进一步补足的效果，通过图卷积网络提取骨骼特征，增加了输入骨骼点信息的关联性，获取了精准的骨骼特征，通过VisionTransformer网络结合多头注意力机制，可以快速精准的提取有效图像特征。

Description

一种基于骨骼和图像特征的姿态重建交互行为理解方法

技术领域

本发明涉及人类行为理解领域，尤其是涉及一种基于骨骼和图像特征的姿态重建交互行为理解方法。

背景技术

现有技术中，针对人类行为理解方法，常用的方法包括基于人体姿态估计的行为理解算法和基于图像信息的目标检测算法，其中依赖于人体骨骼关键点的人体姿态分类算法其优势在于，人体骨骼关键点信息去除了图像中的冗余噪声信息，保障了纯粹的行为信息，但完全舍弃图像信息会造成有效信息的丢失。而依赖于图像的目标检测算法则可以获得足够多的图像特征以及人体特征，但是存在着大量的噪声干扰信息，不利于行为理解。

通过对OpenPose算法的轻量化改进、遮挡预测和三维人体姿态估计算法，保障了本文模型可以快速、精确地提取完整的人体骨骼信息。然而单纯的依赖人体骨骼信息的算法对交互行为表现效果不佳。对于一些“人-物”交互行为，如打羽毛球动作和打网球动作、双手看书和双手持水杯，容易误判。同时针对一些“人-人”交互行为，如偷窃、打架、拥抱等行为单纯使用骨骼数据去判别，表现依然不佳。其原因在于单纯的骨骼数据完全舍弃了图像特征，即未考虑模型的环境感知能力。

为了综合利用骨骼特征和图像特征的优势，增强模型的环境感知能力和交互行为理解，需要提出一种基于骨骼和图像特征的姿态重建交互行为理解方法，用以进一步提高模型准确性，可以快速精准地提取有效图像特征。

发明内容

本发明的目的是提供一种基于骨骼和图像特征的姿态重建交互行为理解方法，既保留了骨骼特征对于人体行为信息提取的纯粹性，又利用图像特征保留了环境等有效图像信息，达到对模型特征信息进一步补足的效果，通过图卷积网络提取骨骼特征，增加了输入骨骼点信息的关联性，获取了精准的骨骼特征，通过Vision Transformer网络结合多头注意力机制，可以快速精准的提取有效图像特征。

为实现上述目的，本发明提供了一种基于骨骼和图像特征的姿态重建交互行为理解方法，具体步骤如下：

S1、数据集的构建和预处理；

S2、骨骼特征提取：首先通过引入Bahdanau注意力神经网络，以获取具有不同权重的人体姿态骨骼数据；然后通过图卷积神经网络建立人体姿态有向图模型，用以提取精准的骨骼特征；

S3、图像特征提取：首先在获取到三维骨骼数据的同时，保留二维骨骼数据，用于获取图像中的人体区域，提取有效图像特征；然后引入骨骼扩张系数λ作为可训练参数，通过神经网络进行训练；

S4、特征融合与重建：在获取到相同维度的骨骼特征和图像特征后，将二者特征融合共同输入到分类网络中；

S5、实验评估验证。

优选的，在步骤S1中，所述数据集的构建和预处理包括：

S11、数据集构建：骨骼特征的提取，首先通过改进的OpenPose算法提取人体二维骨骼信息，然后分别通过遮挡预测网络和三维人体姿态估计生成完整的三维人体骨骼数据作为骨骼数据。

优选的，在步骤S11数据集构建中，一种遮挡情况下的三维人体姿态估计算法步骤如下：

S111、数据集预处理；

S112、生成对抗式插补网络；

S113、姿态遮挡预测网络架构；

S114、三维人体姿态估计；

S115、实验分析验证。

优选的，在步骤S2中，骨骼特征提取的步骤如下：

S21、骨骼特征权重网络：对步骤S1输入的三维姿态数据，对其进行基本的初始化权重分布，设置注意力权重由激活函数归一化得到，具体公式如下所示：

其中值score为输入与输出之间的关联函数，其定义如下所示：

其中v表示偏移向量，是模型中可以训练的参数，x_i表示输入矩阵向量，r_j为特征概率。可得不同骨骼点的特征权重如式下所示：

w_ij＝v*α_ij；

S22、图卷积网络：卷积层操作由信号x和信号g的卷积运算可得，其中信号x表示输入的图信息，信号g表示卷积核，二者的卷积操作通过傅里叶变换得到，其中F函数表示傅里叶变换，用以将信号映射到傅里叶域中，如下所示：

x*g＝F^-1(F(x)⊙F(g))。

优选的，在步骤S3图像特征提取中，每个编码器分别由两个子模块构成：多头注意力模块和前馈神经网络模块，如下所示：

z′_l＝MSA(LN(z_l-1))+z_l-1,l＝1,...L；

z_l＝MSA(LN(z′_l))+z′_l,l＝1,...L。

优选的，在步骤S4特征融合与重建中，Wide模块由线性模块y＝w^Tx+b形式构成，其中x表示输入特征向量，其形式为x＝[x₁,x₂...,x_n]，w＝[w₁,w₂,...,w_n]为模型训练参数，b表示模型偏置项；输入的融合特征包括原始输入特征和转换后的特征向量，其中转换特征由叉积变换得到，如下所示，其中c_ki表示布尔变量，即第i个若是第k个变换φ_k的一部分，则为1，否则为0：

其中前向传播的具体含义如下所示，其中a_(l+1)表示第l+1层的输出，σ表示激活函数：

a_(l+1)＝σ(W_(l)a_(l)+b_(l))；

通过损失函数计算损失，优化模型参数，通过小批次梯度下降优化算法；其中y表示预测类别标签，σ表示激活函数，φ(x)表示叉积变换，x表示输入特征向量，模型的最终输出概率表达式如下所示：

优选的，在步骤S5实验评估验证中，模型训练环境建立在Windows10环境下，使用CUDA 10.1建立GPU环境进行训练，Python3.6.5作为编译器。

因此，本发明采用上述一种基于骨骼和图像特征的姿态重建交互行为理解方法，既保留了骨骼特征对于人体行为信息提取的纯粹性，又利用图像特征保留了环境等有效图像信息，达到对模型特征信息进一步补足的效果，通过图卷积网络提取骨骼特征，增加了输入骨骼点信息的关联性，获取了精准的骨骼特征，通过Vision Transformer网络结合多头注意力机制，可以快速精准的提取有效图像特征。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1是本发明姿态重建交互行为理解方法的行为理解部分骨骼数据；

图2是本发明姿态重建交互行为理解方法的遮挡预测数据集；

图3是本发明姿态重建交互行为理解方法的Human3.6M部分数据集；

图4是本发明世界坐标系与相机坐标系变换关系(Z轴旋转)；

图5是本发明姿态重建交互行为理解方法的生成对抗式插补网络结构图；

图6是本发明姿态重建交互行为理解方法的姿态遮挡预测网络结构图；

图7是本发明姿态重建交互行为理解方法的非线性模块网络结构；

图8是本发明姿态重建交互行为理解方法的OWM模块原理图；

图9是本发明姿态重建交互行为理解方法的不同姿态缺失值实验对比；

图10是本发明本文遮挡预测算法Loss变化曲线；

图11是本发明姿态重建交互行为理解方法的遮挡预测效果展示；

图12是本发明三维人体姿态估计表现效果；

图13是本发明NTU-RGB+D部分骨骼数据；

图14是本发明人体姿态图卷积架构流程图；

图15是本发明姿态重建交互行为理解方法的图像特征提取网络；

图16是本发明图像融合Wide&Deep网络结构；

图17是本发明骨骼特征与图像特征融合整体网络结构；

图18是本发明行为理解算法对各行为的识别准确率；

图19是本发明注意力网络骨骼特征权重分布；

图20是本发明Vision Transformer注意力图像特征激活图；

图21是本发明姿态重建交互行为理解方法的模型效果展示系统。

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

S1、数据集的构建和预处理

本发明数据集分别使用自建的交互行为数据集和公开的行为理解数据集NTU-RGB+D。自行构建的人类行为样本包含“人-物”交互行为、“人-人”交互行为以及常规动作，其中“人-物”交互行为样本设置了羽毛球动作与网球动作、看书与端水等动作，即采集的样本为“人-物”交互的相似行为；“人-人”交互行为采集了偷窃、打架、拥抱等多人交互行为；常规动作则包括行走、站立、跑步、摔倒等个体行为。为了保障数据的泛用性，提高模型的鲁棒性，采集多种不同身高、体型的目标对象行为数据作为样本。训练样本分别通过现场摄像头采样和网络搜集两种途径获得，然后对图片统一缩放至640×480尺寸，每类动作分别采样200张图片，共计4000张图片。

S11、数据集构建

骨骼特征的提取，首先通过改进的OpenPose算法提取人体二维骨骼信息，然后分别通过遮挡预测网络和三维人体姿态估计生成完整的三维人体骨骼数据作为骨骼数据。其中采集到的部分骨骼数据如图1所示，每行表示其人体姿态的三维坐标(x，y，z)，通过三维人体姿态估计和遮挡预测后得到16组数据，表示单个人体的一个动作的骨骼信息。

其中，在步骤S11数据集构建中，一种遮挡情况下的三维人体姿态估计算法步骤如下：

S111、数据集的预处理

数据集包含两个部分，一是基于生成对抗式插补网络实现对三维人体姿态的遮挡预测，实验所需要使用COCO人体姿态数据集。二是将二维人体姿态数据映射为三维人体姿态数据，实验所需使用的数据集为公开数据集Human3.6M数据集。

1.遮挡预测数据集

遮挡预测数据集的重点在于完整的人体骨骼关键点数据的建立，即需要给模型提供具有缺失数据的人体姿态数据集和完整未缺失的人体姿态数据集。具有缺失的数据集可以由完整未缺失的数据集随机位置缺失构建而成，故遮挡预测数据集可直接对COCO数据集进行人体骨骼关键点预测。

为了使得遮挡预测具有良好的普遍适用性，适应不同个体以及多种目标行为。本发明选择使用COCO人体姿态数据集中的图像数据，通过改进的OpenPose算法将其分为多种动作提取人体骨骼关键点，并将完整的人体骨骼关键点数据进行保存作为训练数据集。如图2所示，为其中部分人体骨骼关键点数据集，图中每一行表示提取对象的一个人体姿态数据，数据以浮点数进行保存，用以保证有足够的精度。

2.Human3.6M人体姿态数据集

Human3.6M数据集是目前为止，最大的三维人体姿态估计公开数据集。该数据集采集目标为十一名专业演员表演的十七种动作，如走路、打电话和参与讨论等不同类别，共采集360万张样本。数据的采集设备使用4个视频摄像头和10个运动摄像机，拍摄使用面积为十二平方米。其中四个摄像头分别从不同角度进行拍摄，以此作为不同视角的视频数据，而三维人体骨骼关键点的坐标数据由动作捕捉设备采集获得。Human3.6M中的部分视频数据，如图3所示。

为了保障Human3.6M数据集数据与OpenPose算法结构的一致性，需要对数据进行预处理，对齐不同骨骼点的位置关系。二者的骨骼点对应关系，如下表所示。

表1Human3.6M数据集与OpenPose人体姿态结构关系

在获取到二维骨骼数据后，建立非线性模型学习二维数据到三维数据的映射关系。设计非线性网络的输入为二维人体姿态数据网络输出形式为/>非线性网络的学习函数表达形式为G^*:/>通过优化模型参数，达到最小化网络预测结果与真实结果均方误差的目的，具体的含义如下所示，其中ξ表示其损失函数，这里为均方差损失函数：

按照Human3.6M数据集官方提供的标准，设人体三维骨架结构的髋关节为坐标中心点，通过一系列的旋转和平移变换，实现世界坐标系到相机坐标系的转换，即符合右手坐标系的刚体变换。

世界坐标系与相机坐标系的变换关系，如图4所示。里以Z轴旋转为例。其中O-X1Y1Z1表示世界坐标系，O-XYZ表示相机坐标系，θ表示X与X1之间的夹角，具体变换公式，如下所示：

同理，计算按照X，Y轴旋转角度α和β公式如下所示：

然后根据R₁、R₂、R₃可得旋转矩阵R：

R＝R₁R₂R₃

最终可得世界坐标与相机坐标之间的转换关系，如下所示。其中(X_W,Y_W,Z_W)为点的绝对坐标，(X_C,Y_C,Z_C)为点的相机坐标，R表示旋转矩阵，定义T为偏移向量。

在获取转换的坐标后，对数据进行归一化，并将数据集划分为训练集和测试集，其中实验者编号为(1,5,6,7,8)采集的数据为训练集，实验者(9,11)数据设置为测试集，并将预测值与真实值之间的均方误差作为模型的评估标准。其中归一化计算的步骤如下所示，这里μ，σ分别样本的均值和标准差，x表示原始数据,x'表示归一化的数据；

S112、生成对抗式插补网络

人体姿态架构具有一定规律性，故可以通过神经网络学习骨骼点位置的相关性，从而实现对遮挡情况下的人体骨骼关键点缺失数据的预测。本发明通过建立生成对抗式插补网络实现对缺失人体骨骼关键点的预测，以获取完整的人体骨骼关键点信息。其中生成器用以预测缺失的数据，通过不断减少模型损失优化模型参数。判别器用以区分预测结果和真实结果，以达到对抗生成器的目的，从而使得生成器的预测输出更接近真实。生成对抗式插补网络结构图，如图5所示：

具体流程如下：首先根据输入的数据生成三个矩阵，分别为原始数据、随机噪声以及包含0和1的掩膜矩阵。在掩膜矩阵中，用0表示该位置数据缺失，1表示该位置的值未缺失。然后将这三个矩阵输入到生成器中，通过生成器预测出的值与原始的缺失数据在缺失位置进行插补预测，作为最终的输出结果。最后将生成器的输出结果和掩膜矩阵输入到判别器中，其目的用来判别掩膜向量中缺失的数据位置未缺失的概率。

1.生成器网络

生成器的输入由原始数据张量X、随机噪声张量Z和掩膜矩阵M构成，定义X'为生成器输出矩阵，为预测输出矩阵，由缺失位置的预测值加上未缺失的真实值构成，d表示数据的维度，生成器的函数运算G如下所示：

G:X×{0,1}^d×[0,1]^d

生成器输出矩阵X'和预测结果矩阵如下所示：

X′＝G(X,M,(1-M)⊙Z)；

其中⊙表示Hadamard乘积，为逐元素相乘。

2.判别器网络

生成对抗式插补网络中的判别器网络D用以对抗生成器，但其目标不在于区分样本的真假，而是区分不同位置的真假概率，将其作为预测掩膜M。然后通过训练判别器网络D，使其正确预测掩膜张量的概率最大化，训练生成器网络G，用以最小化判别器正确预测掩膜张量的概率。

引入提示张量H用以判别准确的掩膜值，即当其为0.5时，表示不能从H中获得M的准确值，而值为0或1时表示可以获得准确值，E为存在量词。这里定义值V(D,G)如下所示：

网络优化目标如下所示：

定义的损失函数ξ：

则有预测掩膜张量即如下所示：

S113、姿态遮挡预测网络架构

本发明通过建立人体骨骼关键点的位置信息和关联信息，以实现对人体姿态表达的有效理解，然后通过构建生成对抗式插补网络，实现对人体姿态数据的遮挡预测。

由于遮挡等情况造成的人体骨骼数据缺失，单纯的依赖关节位置信息，易导致有效特征的丢失，即关节连接信息的丢失和骨架结构的丢失。通过融入关节结构性特征，以进一步提高模型对特征的高效利用。这里定义姿态的位置特征由提取到的骨骼位置坐标和一个指示标量表示，当其为0时表示该位置缺失，非0则表示该位置没有缺失。关节的结构性特征使用关联矩阵进行表示，元素的值由0和1构成，1表示该元素所在行和列的关节是相互连接关系，0则表示该元素所在行和列的关节不是连接关系。

生成对抗式网络的基础思想在于动态的博弈过程，最终的平衡点为纳什均衡点。网络的训练通过在不同阶段固定不同的训练器实现，同时需要首先训练判别器网络，以避免出现模式崩溃等问题。其中，在训练判别器时，需要首先固定住生成器，通过引入生成器预测的缺失数据和原始的真实数据输入到判别器中，计算误差并反向传播，更新判别器的参数；在训练生成器时，需要固定住判别器网络，将生成器输出的预测值作为负样本，输入到判别器中，根据判别器的误差，反向传播更新生成器的参数。具体的网络结构流程图如图6所示：

S114、三维人体姿态估计

本发明通过设计非线性模型，以实现对二维人体姿态数据的三维映射学习，从而使模型获取足够的空间信息，解决不同视角下输出人体骨骼关键点信息不统一的问题。

1.非线性模块设计

设置每个非线性模型分别由1024个神经元、BatchNorm归一化、ReLu激活函数和Dropout层构成，然后设置每个非线性模块之间通过残差进行连接，以防止训练过程中出现梯度消失问题。然后引入BatchNorm归一化，用以约束神经网络层，保证梯度回传的稳定性，接着通过ReLu激活函数实现模型的非线性拟合，最后再通过Dropout随机使得神经元失活，以防止模型在训练过程中产生过拟合问题，使得模型能够得到最优结果。非线性网络结构设计如图7所示：

2.OWM模块

通过建立非线性网络学习三维人体姿态数据的映射关系，使得原始的OpenPose二维人体姿态数据转为三维人体姿态数据，但随着环境的变化和动作类别的多样性增加，非线性模型难以适应过多的复杂样本，易造成灾难性遗忘的问题。本部分通过引入OWM模块，用以提高模型的泛化能力，使得模型的适应性变强。

OWM模块在学习新的样本时，为了保留之前学习到的特征，在旧任务上的特征解空间的正交方向修改权重值，使权重增量不与过往任务发生作用，从而保证在新样本中寻求到的解，仍然存在之前的解空间中。这里假设之前训练的输入向量矩阵集为A，矩阵I表示一个单位矩阵，α为参数，则需要找到与输入空间正交的方向如式下所示：

P＝I-A(A^TA+αI)^-1A；

其中权重参数的修正诱导学习率，如下所示，这里λ表示学习率，ΔW'为反向传播权重变化：

ΔW＝λPΔW'。

如图8所示，为OWM模块原理图。

S115、实验分析验证

本发明的实验分为遮挡预测实验和三维人体姿态估计两部分进行。其中遮挡预测实验通过计算真实数据与预测缺失数据的均方根误差等指标进行评估，三维人体姿态估计实验通过计算预测三维坐标与真实坐标误差进行评估。

1.遮挡预测实验

引入缺失率参数，生成具有缺失的人体姿态数据，分别按照缺失数由1至12个骨骼点进行实验，通过本发明引入人体关联矩阵的生成对抗式插补网络GAIN_Pose与其他算法进行对比实验，分别与机器学习算法MissForest和深度学习算法MICE等进行对比。其中数据缺失分别按照不同缺失数从1至12和不同的动作进行实验对比，评估指标使用均方根误差。本发明遮挡预测算法的实验环境如表2所示。

表2遮挡预测模型训练环境

设置的具体模型参数如表3所示。

表3遮挡预测模型训练参数

参数名	含义	参数值
			Optimizer	优化器	Adam
Init_lr	初始学习率	0.001
			Epoch	全部数据集训练次数	5000
BatchSize	训练批次样本数	128
			Init_BP	神经网络初始化方法	Kaiming

如表4所示，为遮挡预测对比实验在不同动作上预测值与真实值的误差对比表。可以发现本文算法，对遮挡情况下对缺失的人体骨骼关键点的预测表现最优，误差平均仅有0.0657，同时在站立、行走等简单动作评估上表现更优。

表4遮挡预测对比实验误差

设计算法	行走	奔跑	站立	坐着
					本文算法	0.0595	0.0686	0.0552	0.0793
MissForest	0.0784	0.2032	0.0663	0.2245
					MICE	0.0838	0.3365	0.0786	0.3569
Auto-Encoder	0.0824	0.2639	0.0793	0.2844

如图9所示，为各个算法在不同骨骼缺失值时的实验对比评估效果图。可见随着缺失点数量的增加，模型的损失逐步增加。当在缺失值低于9时，本文算法表现较优，但缺失率过大其变化曲线急剧增加，不适用于数据缺失过多的情况。

如图10所示，为本文算法训练过程中的Loss变化曲线。有图可见，模型拟合振幅趋于平稳，在4500轮左右损失值基本不发生变化，曲线拟合。

如图11所示，为遮挡预测效果展示。

2.三维人体姿态估计实验

为了验证模型结构的有效性，将本文算法分别与非线性残差神经网络、最大边际神经网络姿态估计算法、运动补偿姿态估计算法、卷积网络三维姿态估计算法以及基于图像序列的三维姿态估计算法进行对比。

本发明三维姿态估计实验的环境如表5所示，通过GPU实现加速训练。

表5三维人体姿态估计模型训练环境

类别	环境参数
		操作系统	Windows 10
CPU内存	16G
		脚本语言	Python 3.6.5
深度学习框架	Tensorflow
		CPU型号	AMD Ryzen 7 4800H with Radeon Graphics
GPU型号	NVIDIA GeForce GTX 1650

实验使用Adam为优化器，全部数据集训练次数为1000轮，初始学习率设置为0.001并随着训练次数呈指数衰减。BatchSize设置为64，并通过Kaiming初始化神经网络，以保证训练过程中梯度回传的稳定性，提高模型训练速度。模型训练参数如表6所示：

表6三维人体姿态估计模型训练参数

参数名	含义	参数值
			Optimizer	优化器	Adam
Init_lr	初始学习率	0.001
			Epoch	迭代次数	1000
BatchSize	BatchSize	64
			Init_BP(Initial Back Propagation)	神经网络初始化方法	Kaiming

为了验证模型的效果，分别计算不同算法预测的三维人体骨骼关键点数据与原始的三维人体骨骼关键点数据之间的距离误差，以毫米为单位。在Direct、Discuss、Eating等不同动作上进行验证，得到的实验对比如表7所示：

表7三维人体姿态估计实验评估效果

如图12所示，为本文三维人体姿态估计的测试效果。

本发明针对人体姿态估计算法中存在的遮挡情况下人体骨骼点数据缺失的问题以及二维骨骼数据缺失三维空间信息的问题，分别建立了遮挡预测网络和三维人体姿态估计模型。其中生成对抗式插补网络，综合利用骨骼点张量和人体关联张量实现了遮挡情况下对人体缺失数据的预测，并与MissForset等插补算法进行比对，验证了本文算法对于遮挡缺失数据的有效性，在预测表现上相对实验最优算法误差平均减少了54.1％。此外，通过构建非线性网络实现对二维到三维的人体姿态估计。同时为了提高模型的泛化能力，增强模型的持续学习能力，在网络中引入了OWM模块，并在Human3.6M数据集上实验验证，与最大边际神经网络等算法进行对比，使用预测值与真实值之间的距离误差作为评估指标，在实验表现上相对实验最优算法误差平均减少了13.8％，验证了改进措施的有效性。

S12、NTU-RGB+D数据集

如图13所示，为NTU-RGB+D部分骨骼数据集。NTU-RGB+D公开数据集，由Rose Lab实验室采集，包含有56880个样本数据，并分为60种行为，其中日常行为有40类，“人-人”交互行为有11类。该数据集包含的数据形式包括RBG图片、深度信息、三维人体骨骼数据等。

S2、骨骼特征提取

完整的三维人体骨骼信息具备固有的人体结构性规律，常规的基于骨骼的行为理解方法是使用人体姿态估计算法预测骨骼关键点，然后进行分类，并没有综合考虑人体结构的规律性，即不同骨骼点之间的连接关系。故本发明通过引入Bahdanau注意力神经网络，以获取具有不同权重的人体姿态骨骼数据，然后通过图卷积神经网络建立人体姿态有向图模型，用以提取精准的骨骼特征。

S21、骨骼特征权重网络

建立融入注意力机制的神经网络模型以获取不同人体骨骼点的权重信息。针对输入的三维姿态数据，对其进行基本的初始化权重分布，设置注意力权重由激活函数归一化得到，具体公式如下所见。

其中v表示偏移向量，是模型中可以训练的参数，x_i表示输入矩阵向量，r_j为特征概率。可得不同骨骼点的特征权重如下所示：

w_ij＝v*α_ij。

S22、图卷积网络

综合考虑骨骼关键点的位置和肢体之间的角度建立人体骨骼拓扑结构，当两组人体行为信息相近时，它们经过降维后的目标值也相近，因此将人体骨骼结构以图结构表示，即可获得图卷积操作后的特征表达形式。这里每一组人体姿态有向图由其单位矩阵和用以表达身体肢节连接关系的邻接矩阵构成。卷积层操作由信号x和信号g的卷积运算可得，其中信号x表示输入的图信息，信号g表示卷积核，二者的卷积操作通过傅里叶变换得到，其中F函数表示傅里叶变换，用以将信号映射到傅里叶域中。如下所示：

x*g＝F^-1(F(x)⊙F(g))；

傅里叶变换函数F(x)可以写作U^Tx，其中U表示拓扑图对应的拉普拉斯矩阵，经过特征变换后的矩阵，即拉普拉斯矩阵的特征向量构成了矩阵U的每一行。则可得L＝U∧U^T。图卷积运算公式如下所示，这里gφ表示卷积运算，可以用切比雪夫多项式近似计算：

x*g＝U(U^Tx⊙U^Tg)＝U_gφU^Tx；

最后假设图卷积神经网络中第l层提取到的特征为这里/>表示特征图尺寸为K*C，其训练参数设为/>将其与图拉普拉斯矩阵的相关矩阵/>进行运算，则可得最终卷积如下所示，这里σ表示激活函数，本模型使用LeakyReLu(LeakyRectifiedLinearUnit)作为激活函数，同时将相关矩阵Z设置为可训练参数，用以防止模型训练过程中出现过拟合问题。

f^l+1＝σ(ZF^lW)。

如图14所示，为人体姿态图卷积骨骼特征提取流程图。

S3、图像特征提取

在获取到三维骨骼数据的同时，保留二维骨骼数据，用于获取图像中的人体区域，提取有效图像特征。然后引入骨骼扩张系数λ作为可训练参数，通过神经网络进行训练。设原始的分割人体矩形区域的表达形式可设置为(X_min,Y_min),(X_max,Y_max)＝(min(I_x),min(I_y)),(max(I_x),max(I_y))，其中(X_min,Y_min),(X_max,Y_max)分别表示分割区域的左下角(X,Y)坐标和右上角(X,Y)坐标，I_x和I_y分别表示输入骨骼数据的(X,Y)坐标。则最终得到的图像分割矩形区域为(X_l,Y_l),(X_r,Y_r)＝(X_min-λ,Y_min-λ),(X_max+λ,Y_max+λ)，其中λ的默认初始值为1，表示扩张1个像素点。

本发明图像特征的提取通过Vision Transformer架构以获取图像特征张量，其由编码器和解码器构成，每个编码器和解码器由多头注意力(Multi-Head Attention,MSA)和全连接网络构成，并在每个注意力层和神经网络层之间通过残差进行连接。首先将分割的人体矩形区域输入到Vision Transformer中作为结构区块，然后将区块通过线性变换转换为维度为D的特征向量，并与其位置编码向量进行组合。然后将输入的图像分为不同的图像块，构建成图像序列z₀，并将其输入到编码器中。这里每个编码器分别由两个子模块构成：多头注意力模块和前馈神经网络模块，其中每个神经网络模块前增加LN(LayerNorm)归一化层，中间加入Gelu层，如下所示：

z′_l＝MSA(LN(z_l-1))+z_l-1,l＝1,...L；

z_l＝MSA(LN(z′_l))+z′_l,l＝1,...L。

对于输入的图像序列，将其中每一个元素与训练过程中产生的键向量K，值向量V和查询向量Q相乘，然后计算当前元素Q值与其他元素K值的点积，作为score值，并进行归一化以保证梯度回传的稳定性，最后通过SoftMax得到多头注意力特征权重。

如图15所示，为Vision Transformer图像特征提取网络架构，其中每一个图像块通过线性投影矩阵进行展平，然后加上位置编码向量作为网络的共同输入，以保证原始特征在形成图像序列过程中，仍然保留着特征的位置信息。

S4、特征融合与重建

在获取到相同维度的骨骼特征和图像特征后，将二者特征融合共同输入到分类网络中。本发明使用Wide&Deep神经网络进行特征重建融合，最后通过SoftMax分类器获得行为类别的概率。其网络结构分别建立线性模块和非线性模块，其中线性模块主要用来拟合输入与输出之间的直接关系，使得模型具有良好的记忆能力。非线性模块则是保留了原始神经网络中优秀的拟合能力，使得模型的泛化能力得到进一步提升，并在非线性和线性特征之间直接达到一定的平衡性。如图16所示，为特征融合Wide&Deep网络结构图。

Wide模块由线性模块y＝w^Tx+b形式构成，其中x表示输入特征向量，其形式为x＝[x₁,x₂...,x_n]，w＝[w₁,w₂,...,w_n]为模型训练参数，b表示模型偏置项。输入的融合特征包括原始输入特征和转换后的特征向量，其中转换特征由叉积变换得到，如下所示，其中c_ki表示布尔变量，即第i个若是第k个变换φ_k的一部分，则为1，否则为0：

/>

Deep模块主要由非线性神经网络构成，其主要目的在于将输入的特征转换为低维嵌入式向量，通过模型训练减小损失，使其结果最优。其中前向传播的具体含义如下所示，其中a_(l+1)表示第l+1层的输出，σ表示激活函数：

a_(l+1)＝σ(W_(l)a_(l)+b_(l))；

最后组合Wide模块与Deep模块各自输出的值取对数，并加权预测值，然后通过损失函数计算损失，优化模型参数，通过小批次梯度下降优化算法，将两个部分的梯度同时反向传播完成梯度回传。如下所示，为模型的最终输出概率表达式，其中y表示预测类别标签，σ表示激活函数，φ(x)表示叉积变换，x表示输入特征向量。

如图17所示，为骨骼特征与图像特征融合整体网络结构图。

S5、实验评估验证

本部分实验分别采用纯骨骼的人类行为理解算法和纯图像目标检测行为理解算法，用来与本文算法进行效果比对。其中骨骼行为理解算法分别采用了时序模型LSTM、Transformer序列模型和DNN(Dynamic Neural Network)神经网络算法。基于目标检测的行为理解算法采用单阶段的目标检测算法YOLOv5和双阶段目标检测算法Fast R-CNN算法与本文算法进行对比。

S51、模型训练环境及参数

本实验模型训练环境建立在Windows10环境下，使用CUDA 10.1建立GPU环境进行训练，Python3.6.5作为编译器。本文算法具体的训练环境如表8所示。

表8本文行为理解算法训练环境

类别	环境参数
		操作系统	Windows 10
运行内存	16G
		脚本语言	Python 3.6.5
深度学习框架	Pytorch
		CPU型号	AMD Ryzen 7 4800H with Radeon Graphics
GPU型号	NVIDIA GeForce GTX 3090

设置的具体模型参数如表9所示：

表9本文行为理解算法模型训练参数

参数名	含义	参数值
			Optimizer	优化器	Adam
Init_lr	初始学习率	0.001
			Epoch	全部数据集训练次数	1000
BatchSize	训练批次样本数	128

S52、实验评估

本发明实验通过准确率ACC(Accuracy)指标，来评估模型性能。以模型推理阶段每秒模型可识别的图片数量FPS值，来评估模型速度。其中骨骼分类对比实验数据集由纯骨骼数据构成，针对每组骨骼数据标注其对应的类别标签，然后分别使用LSTM、Transformer与DNN算法进行实验评估。而图像目标检测部分，则通过LabelMe标定图像数据中的不同行为，形成包含有图像区域和标签信息的Json文件，然后使用YOLOv5等目标检测进行实验评估。数据集评估分为个体行为评估与交互行为评估，其中个体行为包括行走、站立等日常行为，“人-物”交互行为包括打网球、打羽毛球等，“人-人”交互行为包括打架、拥抱等。

如表10所示，为行为理解算法在本地数据集的实验表现效果。

表10行为理解算法本地数据集准确率对比

使用方法	个体行为	交互行为	所有行为	FPS
					骨骼特征+LSTM	0.8332	0.6993	0.7663	34
骨骼特征+Transformer	0.8624	0.7433	0.8029	33
					骨骼特征+DNN	0.8533	0.7235	0.7884	34
图像特征+Fast R-CNN	0.8906	0.7988	0.8447	25
					图像特征+YOLOv5	0.8956	0.7863	0.8410	29
本文算法	0.9223	0.8892	0.9058	32

如表11所示，为行为理解算法应用于公开数据集在不同视角下的实验效果对比。

表11NTU-RGB+D数据集准确率对比

使用方法	X-View	X-Sub
			骨骼特征+LSTM	81.3％	66.3％
骨骼特征+Transformer	84.7％	71.5％
			骨骼特征+DNN	84.5％	70.8％
图像特征+Fast R-CNN	87.3％	75.4％
			图像特征+YOLOv5	87.9％	77.6％
本文算法	90.4％	82.6％

由实验结果分析可知，单纯的依赖于骨骼信息的行为理解算法具有较高的速度，并且在个体行为理解上具有较高的识别准确率，但是在交互行为理解上，算法表现不佳。考虑其原因在于其忽略了原始的图像信息，即针对交互行为这种依赖于有效图像信息的行为，单一的骨骼行为理解算法会导致信息提取的丢失。

同理，将纯粹依赖于图像信息的目标检测算法用于人类行为理解，由于算法模型结构较为复杂，会导致模型的运行速度较慢，运行实时性变差。但模型识别准确率比单一的骨骼行为理解更高。

经过对比，本发明融合图像特征和骨骼特征的行为理解算法，综合利用了图像的有效特征，可以更好地去除冗余噪声，在识别准确率上表现最好。同时由于模型轻量化的改进，模型运行速度也得到了一定提升，更具有应用价值。

如图18所示，为本文算法对各行为的识别准确率图。

如图19所示，为注意力网络骨骼特征权重分布图。其中图(a)为全局数据集对于骨骼特征权重分布，其得到整体动作骨骼特征权重从0-15值为[0.0045845401，0.0188367274，0.0657692422，0.0883763475，0.0069323099，0.1142232353，0.0594012654，0.0465061087，0.0306623435，0.076545381，0.0605252366，0.0756979099，0.0852956267，0.0544496286，0.1227602038，0.0894338934]。图(b)为打网球动作骨骼特征权重分布。从中可见，针对网球动作时，其骨骼特征关注主要集中于手部、腰部等关节位置，针对全局动作，其权重分布则相对均匀。

如图20所示，为各行为动作Vision Transformer注意力图像特征激活图。

如图21所示，为模型效果展示系统。

因此，本发明采用上述一种基于骨骼和图像特征的姿态重建交互行为理解方法，将骨骼特征和图像特征进行融合，并重建特征，既保留了骨骼特征对于人体行为信息提取的纯粹性，又利用图像特征保留了环境等有效图像信息，达到对模型特征信息进一步补足的效果。具体地，通过图卷积网络提取的骨骼特征很好地利用了人体骨架的关节有向图结构，增加了输入骨骼点信息的关联性，获取了精准的骨骼特征。然后，通过VisionTransformer网络将图像分为图像块序列，并结合了多头注意力机制，可以快速精准的提取有效图像特征。在实验部分，使用本文算法与单纯的骨骼特征识别算法LSTM、Transformer、DNN和图像目标检测行为分类算法Fast R-CNN、YOLOv5进行对比，最终本文算法相对其中最优算法准确率提高了7.2％，同时速度提高了28％，验证了本文算法的高效性和精准性，表明本文算法可以更好地应用于人类行为理解。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于骨骼和图像特征的姿态重建交互行为理解方法，其特征在于，具体步骤如下：

S1、数据集的构建和预处理；

S11、数据集构建：骨骼特征的提取，首先通过改进的OpenPose算法提取人体二维骨骼信息，然后分别通过遮挡预测网络和三维人体姿态估计生成完整的三维人体骨骼数据作为骨骼数据；其中，一种遮挡情况下的三维人体姿态估计算法步骤如下：

S111、数据集的预处理：数据集包含两个部分，一是基于生成对抗式插补网络实现对三维人体姿态的遮挡预测，实验所需要使用COCO人体姿态数据集；二是将二维人体姿态数据映射为三维人体姿态数据，实验所需使用的数据集为公开数据集Human3.6M数据集；

S112、生成对抗式插补网络：通过建立生成对抗式插补网络，对缺失人体骨骼关键点进行预测，获取完整的人体骨骼关键点信息；

S113、构建姿态遮挡预测网络架构：在训练判别器时，需要首先固定住生成器，通过引入生成器预测的缺失数据和原始的真实数据输入到判别器中，计算误差并反向传播，更新判别器的参数；在训练生成器时，需要固定住判别器网络，将生成器输出的预测值作为负样本，输入到判别器中，根据判别器的误差，反向传播更新生成器的参数；

S114、三维人体姿态估计：基于非线性模块和OWM模块网络学习三维人体姿态数据的映射关系；

S115、实验分析验证：实验分为遮挡预测实验和三维人体姿态估计两部分进行,其中，遮挡预测实验通过计算真实数据与预测缺失数据的均方根误差等指标进行评估，三维人体姿态估计实验通过计算预测三维坐标与真实坐标误差进行评估；

其中，骨骼特征提取的步骤如下：

其中v表示偏移向量，是模型中可以训练的参数，x_i表示输入矩阵向量，r_j为特征概率，可得不同骨骼点的特征权重如式下所示：

w_ij＝v*α_ij；

x*g＝F^-1(F(x)⊙F(g))；

在图像特征提取中，每个编码器分别由两个子模块构成：多头注意力模块和前馈神经网络模块，如下所示：

z′_l＝MSA(LN(z_l-1))+z_l-1,l＝1,...L；

z_l＝MSA(LN(z′_l))+z′_l,l＝1,...L；

在特征融合与重建中，Wide模块由线性模块y＝w^Tx+b形式构成，其中x表示输入特征向量，其形式为x＝[x₁,x₂...,x_n]，w＝[w₁,w₂,...,w_n]为模型训练参数，b表示模型偏置项；输入的融合特征包括原始输入特征和转换后的特征向量，其中转换特征由叉积变换得到，如下所示，其中c_ki表示布尔变量，即第i个若是第k个变换φ_k的一部分，则为1，否则为0：

a_(l+1)＝σ(W_(l)a_(l)+b_(l))；

S5、实验评估验证：在步骤S5实验评估验证中，模型训练环境建立在Windows10环境下，使用CUDA 10.1建立GPU环境进行训练，Python3.6.5作为编译器。