CN111160164A

CN111160164A - 基于人体骨架和图像融合的动作识别方法

Info

Publication number: CN111160164A
Application number: CN201911310343.7A
Authority: CN
Inventors: 钱久超; 刘桂玉; 刘佩林; 朱肖光; 应忍冬
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-05-15
Anticipated expiration: 2039-12-18
Also published as: CN111160164B

Abstract

本发明提供了一种基于人体骨架和图像融合的动作识别方法及存储介质，包括：时间特征提取步骤：输入3D人体骨架序列并利用骨架网络实现时间特征提取；空间特征提取步骤：利用RGB图像使用双注意力神经网络实现空间特征提取；特征融合步骤：将3D骨架序列所提取的时间特征和RGB图像提取的空间特征进行融合。本发明利用3D骨架序列主要是为了提取时间上的信息，利用图像信息主要是为了提取细节信息以及与人交互的物体信息，最后将二者进行融合，保证了动作识别的稳定性和准确性。

Description

基于人体骨架和图像融合的动作识别方法

技术领域

本发明涉及人工智能中的计算机视觉领域，具体地，涉及基于人体骨架和图像融合的动作识别方法。尤其地，涉及基于3D人体骨架和RGB图像融合的动作识别方法。

背景技术

在监控，人机交互，手势识别、行为分析等应用领域，人物动作的检测、识别和分析成为其中的重点。这些应用带动了一大批计算机视觉研究者开始进行动作识别的研究。动作识别作为人机交互的一个重要手段，得到了越来越多的关注。

动作识别的种类按输入信息主要分三种：基于RGB视频的动作识别，基于3D深度图片的动作识别和基于3D人体骨架序列的动作识别。基于RGB视频的动作识别，当前的研究主要利用3D卷积网络和双流网络。RGB视频中含有丰富的肢体和物体信息，但是缺乏肢体的运动变化。基于3D深度图片的动作识别，主要依赖于用深度相机提取的深度图片。但是，深度图片对相机的视角变化非常敏感。基于3D骨架的动作识别，利用深度相机直接提取出人体关节点的空间位置信息，然后将坐标信息送入循环神经网络进行识别。由于3D骨架的维度比较小，计算速度非常之快。但是3D骨架缺乏人体、物体的细节信息。本发明所提出的基于RGB图片和3D骨架的动作识别，首次提出将3D骨架信息和RGB图片特征进行融合。在提取图片特征的过程中，本发明提出的注意力模块可获取RGB图片中具有关键信息的部位。本发明通过RGB图片和3D骨架的融合，克服了3D骨架缺失物体信息和肢体细节信息的缺点，使识别精度得到了提高。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于人体骨架和图像融合的动作识别方法。

根据本发明提供的一种基于人体骨架和图像融合的动作识别方法，包括：

时间特征提取步骤：输入3D人体骨架序列并利用骨架网络实现时间特征提取；

空间特征提取步骤：利用RGB图像使用双注意力神经网络实现空间特征提取；

特征融合步骤：将3D骨架序列所提取的时间特征和RGB图像提取的空间特征进行融合。

优选地，所述时间特征提取步骤包括：

骨架序列获取步骤：使用微软的Kinect相机获得3D人体骨架序列，所述3D人体骨架序列包括人体关节点相对于相机的三维坐标；

骨架数据坐标转换步骤：对3D骨架序列进行坐标变换，即将坐标系的原点设置为动作序列第一帧中第一个人的脊柱点，将所有帧所有坐标的值都进行转换；

对训练集中的3D骨架序列进行旋转而扩增数据，获得旋转后的骨架数据，具体的旋转方法如公式(4)所示，将每一个关节点的坐标x,y,z乘上公式(4),就得到了旋转后的坐标，公式(1),(2),(3)中的α，β，γ，分别表示x，y，z轴沿顺时针方向的旋转角度，这里，α，β在0°至30°之间随机取值，γ取值为0，公式(1)至(4)如下所示：

R＝R_z(γ)R_y(β)R_x(α) (4)

其中，

R_x(α)表示x方向的旋转矩阵；

R_y(β)表示y方向的旋转矩阵；

R_z(γ)表示z方向的旋转矩阵；

R表示旋转在三个方向上总的旋转矩阵；

骨架数据增强步骤：对旋转后的骨架数据通过尺度变换进行扩增，扩增方法如公式(5)所示，将每一个关节点的坐标x,y,z乘上公式(5),就得到了尺度变换后的坐标，将尺度因子s_x，s_y，s_z在1至1.2之间随机取值，公式(5)如下所示：

其中

S表示下x,y,z三个方向的尺度因子矩阵

s_x表示x方向的尺度因子；

s_y表示y方向的尺度因子；

s_y表示z方向的尺度因子；

多层LSTM识别神经网络的搭建步骤：搭建多层双向LSTM网络，用来处理骨架序列，记为骨架网络；

神经网络训练步骤：利用训练集训练骨架网络，训练后保存骨架网络权重，对于骨架网络的训练，优化器为Adam，学习率为1e-4，batch size＝128，使用的损失函数为交叉熵损失函数，交叉熵损失函数的定义如公式(6)所示：

其中，

Loss表示网络的损失函数；

i为类别变量；

C代表数据集中动作的总类别；

y_i为一个动作序列的真实标签；

p_i为神经网络所预测的概率。

特征获取步骤：将3D人体骨架序列输入到训练后的骨架网络，获得骨架序列的时间特征。

优选地，所述空间特征提取步骤包括：

图片数据的投影裁剪和增强步骤：将3D骨架利用投影方程投影到2D平面上，找出人体骨架的位置和边框，裁剪出带有人体部分的原图像，再根据找出的人体骨架的边框，对原图像再进行裁剪，并对剪裁后的图像进行水平镜像翻转，扩充图像数据集，获得RGB图像；

自注意力模块的设计步骤：构建自注意力模块，提取自注意力特征，所述自注意力模块包括：1×1的卷积层、全局平均池化层以及线性变换层；

骨架注意力的生成步骤：根据以下公式计算骨架注意力：

j_max＝max_index(||J₁-J_middle||₂)

其中，

j_max表示移动距离最大的关节点；

J₁，J_middle分别代表第一帧和中间帧关节点的3D空间位置；

找出移动距离最大的关节点j_max之后，开始生成骨架注意力M；

骨架注意力特征提取步骤：用Xception网络提取出图片的特征图，将特征图与骨架注意力相乘之后，经过全局平均池化，再经过全连接层降低维度，全连接层的输出的特征即骨架注意力特征；

双注意力网络的融合步骤：令两个注意力模块分别同时接收RGB图像和3D骨架序列所生成的骨架注意力，并将输出特征进行拼接，获得骨架序列的空间特征；

双注意力网络的训练步骤：对于双注意力网络网络的训练，获得训练后的双注意力神经网络权重，训练的优化器为Adam，学习率为1e-4，batch size＝128，使用的损失函数为交叉熵损失函数，交叉熵损失函数的定义如公式(6)所示。

优选地，所述特征融合步骤包括：

搭建特征融合网络；

根据获得的骨架网络权重和双注意力神经网络权重，开始训练特征融合网络，优化器为Adam，学习率为预设值，训练完毕后，用该训练完毕后的神经网络进行动作识别。

优选地，所述找出移动距离最大的关节点j_max之后，开始生成骨架注意力M指：

首先计算出骨架序列中第一帧到中间帧移动距离最大的关节点，如下公式所示：

j_max＝max_index(||J₁-J_middle||₂)

其中，

J₁，J_middle分别代表第一帧和中间帧关节点的3D空间位置；

分别计算每一个关节点的移动距离，即公式(3)至(5)中关节点间的欧式距离；max_index函数代表找出其中最大值的索引，也即找出移动距离最大的关节点；

找出移动距离最大的关节点j_max之后，开始生成骨架注意力M了；

M在最初是和输入图片有同样的尺寸的矩阵；

对于M矩阵中的取值，在j_max为中心的一个方框中，设M_p＝1，其他位置设M_p＝0，其中p代表M矩阵中每个像素点的位置；

生成的矩阵M即为注意力权重。

优选地，所述特征融合网络：RGB图片流RGB stream、骨架流skeleton stream以及特征融合模块；

对于骨架流，有三层Bi-LSTM，对于时间特征，提取最后一个Bi-LSTM层最后一个时间步所输出的特征，维度为B×F，其中B为batch size，F为特征维度，双向LSTM的隐藏单元为N个，所以F＝2N；

对于图片流，首先利用xception的特征提取层提取出了特征图，然后利用双注意力网络，得到空间特征；

在得到时间特征和空间特征之后，特征融合模块将时间特征和空间特征进行拼接，拼接之后进行L2 norm归一化，最后送入全连接层和softmax层进行分类识别，Softmax层的输出即为识别结果。

根据本发明提供的一种存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现上述中任一项所述的基于人体骨架和图像融合的动作识别方法的步骤。

与现有技术相比，本发明具有如下的有益效果：

本发明提出的于3D人体骨架和RGB图像融合的动作识别神经网络，旨在解决3D骨架动作识别中缺乏物体以及像素信息的问题。基于3D骨架的动作识别技术因为维度小，所以运算速度很快。但3D骨架缺乏细节的RGB像素信息，包括人物的肢体以及与人交互的物体信息。在相似的动作中，仅用3D骨架进行动作识别容易引起混淆。为了解决这个问题，使3D动作识别精度更高、更加稳定，本文提出了一个融合3D骨架信息和RGB图片信息的深度神经网络模型。该模型分为两个流，一个网络流用来处理3D骨架序列，另一个网络流处理2D图片，最后再将二者进行特征融合，以提高识别精度。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明提出的3D骨架时间特征提取网络

图2是本发明提出的投影裁剪的图像预处理和扩增方法示意图。

图3是本发明提出的自注意力模块结构示意图。

图4是本发明提出大的骨架注意力生成方式示意图。

图5是本发明提出的双注意力网络的结构示意图。

图6是本发明提出的基于3D人体骨架和RGB图像融合的动作识别神经网络总体结构示意图。

图7是本发明提出的搭建整体的神经网络示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

具体地，所述时间特征提取步骤包括：

R＝R_z(γ)R_y(β)R_x(α) (4)

其中，

R_x(α)表示x方向的旋转矩阵；

R_y(β)表示y方向的旋转矩阵；

R_z(γ)表示z方向的旋转矩阵；

R表示旋转在三个方向上总的旋转矩阵；

其中

S表示下x,y,z三个方向的尺度因子矩阵

s_x表示x方向的尺度因子；

s_y表示y方向的尺度因子；

s_y表示z方向的尺度因子；

其中，

Loss表示网络的损失函数；

i为类别变量；

C代表数据集中动作的总类别；

y_i为一个动作序列的真实标签；

p_i为神经网络所预测的概率。

具体地，所述空间特征提取步骤包括：

骨架注意力的生成步骤：根据以下公式计算骨架注意力：

j_max＝max_index(||J₁-J_middle||₂)

其中，

j_max表示移动距离最大的关节点；

J₁，J_middle分别代表第一帧和中间帧关节点的3D空间位置；

具体地，所述特征融合步骤包括：

搭建特征融合网络；

具体地，所述找出移动距离最大的关节点j_max之后，开始生成骨架注意力M指：

j_max＝max_index(||J₁-J_middle||₂)

其中，

J₁，J_middle分别代表第一帧和中间帧关节点的3D空间位置；

M在最初是和输入图片有同样的尺寸的矩阵；

生成的矩阵M即为注意力权重。

具体地，所述特征融合网络：RGB图片流RGB stream、骨架流skeleton stream以及特征融合模块；

下面通过优选例，对本发明进行更为具体地说明。

优选例1：

下面结合附图，对本发明提出的的基于3D人体骨架和RGB图像融合的动作识别神经网络识别方法进行详细说明：

如图1所示，在完成A1-A4步的预处理之后，每一个动作的骨架序列I变成了二维的矩阵。I∈R^M×T,其中M代表骨架特征的维度M＝J×3，J代表人物的关节点个数，T代表一个骨架序列的时间步数。

本发明所设计的骨架识别神经网络，是一个3层的循环神经网络，如图1所示，每个循环层之后都跟上了一个dropout层防止过拟合。本文对LSTM/双向LSTM/双向GRU的性能都进行了测试。其中每个循环层的隐藏单元为H，时间步为T。三层循环层后面是一个全连接层(Fully Connected layer)，本文取最后一个循环层的最后一个时间步的输出，作为全连接层的输入特征。全连接层的参数维度为H×C，C为数据集中动作类别的个数。

网络的最后是一个softmax层。Softmax的表达式如下：

其中，z代表全连接层的输出特征，维度为C。通过公式可可以看出，softmax方程能将一个C维的向量压缩成一个0-1之间的数值，所有数值之和为1。在概率理论中，softmax的输出代表类别分布的概率。

通过softmax层的处理，我们可以将全连接层的输出能变成一个概率，即神经网络对输出个类别预测的概率。Softmax层的输出结果即为分类结果。

如图2所示，当知道3D骨架的三维空间坐标以及相机参数时，可以通过投影方程计算出人体的2D像素坐标。投影过后的2D像素坐标位置，如图2中间图片中的红色人体骨架所示。由图可知，人物在原始图片中很容易被定位出来。投影裁剪即表示通过投影出来的人物边框，对图片进行裁剪。

除了裁剪人体边框，本文还依此对图片数据集进行了扩增。设w和h分别为投影边框的宽和高。本文分别以边框的四个角为原点，按照宽和高分别为w+w′，h+h′依次对原始图片进行裁剪。这样，除了原始的人体边框图片，数据集中的图片又被扩增了4倍。本文又对裁剪过后的5张图片进行了镜像反转，这样图片数据集中的图片数量变成了原来的十倍。

如图3所示的自注意力模块的实现方法，本文首先取出Xception网络的最后一层特征图，然后再将特征图送入本文所提出的注意力模块。在输入图片为299×299时，Xception所输出的特征图尺寸为10×10×1280。特征图的宽和高均为10，通道数为1280。

自注意力模块如图3中的虚线框所示。图中的Conv1×1代表1×1的卷积层，Pool代表全局平均池化层，Linear代表线性变换层，输出维度为256，Concat代表拼接层。Conv1×1的输入为10×10×1280，输出为10×10×1。输出尺寸和特征图的尺寸相同，只不过通道数变成了1。Conv1×1的输出再经过一个sigmoid函数，就可以将值归一化到0-1之间。此时就得到了我们的注意力权重。注意力权重的参数共有10×10＝100个，对应于特征图中的每个位置。

得到注意力权重后，再将之与特征图相乘，图3-6中的

代表每个对应位置的元素相乘。注意，本文所提出的注意力权重，对于特征图中同一个位置的所有通道都是相同的。经过相乘之后，特征图的尺寸不变，仍旧是10×10×1280。再通过Pool，即全局平均池化，得到一个1×1280的特征。然后再将这个特征送入线性变换层，线性变换层的输出维度为256。所以，线性变换层的参数个数为1280×256。

自注意力模块的具体表达式如公式(8)和公式(9)所示：

e_i＝Conv1D(a_i),i＝1,2…L (8)

α_i＝sigmoid(e_i),i＝1,2…L (9)

在公式8中，Conv1D代表1×1卷积，1×1卷积的输出就是本发明所谓的自注意力权重。对于唯一的输入a_i，利用1×1的卷积核多层感知机由相同的功效。在公式9中，sigmoid函数被用来替代传统注意力模块中的softmax，sigmoid函数同样可以将注意力权重映射到0-1之间。

在公式(8)和公式(9)中，i仍然代表特征图中的不同位置，L＝w_f×h_f，这里的w_f和h_f分别代表特征图的宽和高。

虚线框代表一个注意力模块。本文使用了两个注意力模块。每个注意力模块的输入为特征图，输出为一个256维的特征向量通过后面可视化可知，不同的注意力模块所关注的部位是不同的，因此要用到两个模块，这两个模块是并行的，输入相同都是Xception网络输出的特征图。将两个模块输出的用Concat层拼接，得到一个512维的特征向量。这个向量即为自注意力模块提取出来的特征向量。

如图4所示，本发明所提出的骨架注意力不同于自注意力或其他需要训练的注意力，它的生成是手工设定的。骨架注意力是作用于图片的注意力，但是需要依靠3D骨架的先验信息来生成。图4展示了骨架注意力生成的过程。

图4中t₀代表第一帧的3D骨架信息，t_m代表动作序列中间帧的骨架信息。骨架注意力具体的计算方式如公式10所示。首先要计算出第一帧到中间帧移动距离最大的关节点。J₁，J_middle分别代表第一帧和中间帧关节点的3D空间位置。分别计算每一个关节点的移动距离，即公式3-5中关节点间的欧式距离。max_index函数代表找出其中最大值的索引，也就是找出移动距离最大的是哪个关节点。

j_max＝max_index(||J₁-J_middle||₂) (10)

找出移动距离最大的关节点j_max之后，就可以开始生成骨架注意力M了。M在最初是和输入图片有同样的尺寸的矩阵，尺寸为299×299。对于M矩阵中的取值，在j_max为中心的一个方框中，设M_p＝1，其他位置设M_p＝0。方框的大小为80x80个像素大小。其中p代表M矩阵中每个像素点的位置。

在设置完M矩阵的取值后，最后将M的尺寸变换为w_f×h_f，也就是和Xception网络所提取的特征图相同的大小。在进行尺寸变换时，所采用的插值方式为双线性插值。在得到骨架注意力之后，就可以将之送入神经网络了。骨架注意力和神经网络的结合方式：首先，仍然是用Xception网络提取出图片的特征图。然后将骨架注意力与特征图相乘。与自注意力模块相比，可以发现二者的总体结构是相同的，都是利用注意力权重和特征图在每个像素位置上相乘。不同的是，自注意力的注意力权重是网络自己训练的，而骨架注意力的注意力权重是手工设定的。

如图5所示，双注意力网络有两个输入，一个是预处理过后的RGB图片(大小为299×299)，另一个是3D骨架序列所生成的骨架注意力。两个注意力模块都能生成和特征图尺寸相同注意力权重，大小为10×10。这两种注意力权重都和特征图(10×10×1280)实现点对点的相乘。注意每种注意力权重只在空间位置上具有不同的值，在通道C＝1280上是相同的。

特征图在与注意力权重相乘之后，分别经过全局平均池化，得到3个256维的向量，其中两个256维的模块是由自注意力模块生成的，另外一个256维的向量是由骨架注意力模块生成的。将这三个256维的向量拼接成一个768的向量。再送入全连接层和softmax层进行分类，softmax层的输出即为识别结果。

如图6所示，本文所提出的融合网络结构主要分为两个流以及一个特征融合部分。其中一个是RGB图片流(RGB stream)，另一个是骨架流(skeleton stream)。其中RGB流用于提取空间上的特征(Spatial feature)，而骨架网络流用于提取时间上的特征(Temporalfeature)。RGB流的输入为单张动作图片，骨架流的输入为多帧骨架序列。

对于时间特征，本文提取最后一个Bi-LSTM层最后一个时间步所输出的特征，维度为B×T，其中B为batch size。对于空间特征，本文利用了设计的双注意力网络，所提取的是双注意力模块输出后的融合特征。在得到时间特征和空间特征之后，本文将这两个特征进行了拼接。拼接之后进行了L2 norm归一化，最后送入全连接层和softmax层进行分类识别。

对于整个特征融合网络的训练，主要分以下三步：

1)RGB图片流网络训练：第一层至注意力模块前的网络层来自于原始的Xception网络，对于这部分网络参数载入Imagenet预训练的权重。利用图片训练整个注意力卷积网络，分类标签为该类动作的标签，训练好后保存权重。

2)骨架流网络训练：利用骨架序列直接训练整个骨架网络，分类标签为该骨架序列的工作类别，训练好后保存网络权重。

3)融合网络模块的训练：注意力网络部分，去掉最后一层全连接和softmax层，载入1)中提前训练好的权重。骨架网络部分，去掉最后一层全连接层和softmax层，载入2)中提前训练好的权重。固定以上两部分权重，同时输入两种数据，开始训练融合网络模块。训练完成。

优选例2：

本发明所要解决的问题在于克服3D骨架动作识别中缺乏物体信息的问题。3D骨架只有人体关节点，并没有人体的像素信息和与人交互的物体像素信息。所述方法通过利用自行设计的双注意网络流提取RGB图像中的空间特征，再与3D骨架进行融合，克服了这种缺点。

为解决上述技术问题，本发明采用的技术方案如下：

一种基于3D人体骨架和RGB图像融合的动作识别方法，包括如下步骤：

步骤A，输入3D人体骨架序列利用骨架网络实现时间特征提取。人体骨架序列使用微软的Kinect相机获得，包含了人体25个关节点相对于相机的三维坐标。特征提取主要包括骨架数据坐标转换(步骤A-1,A-2)、骨架数据增强(步骤A-3)、多层LSTM识别神经网络的搭建(步骤A-5)、神经网络的训练(步骤A-6)。

步骤B，利用RGB图像使用双注意力神经网络实现空间特征提取，主要包括图片数据的投影裁剪和增强、自注意力模块的设计、骨架注意力的生成、双注意力网络的融合。

步骤C，将3D骨架序列所提取的时间特征和RGB图像提取的空间特征进行融合。

步骤A中，利用多层双向LSTM网络实现时间特征提取，包括步骤如下：

步骤A-1，对3D骨架序列进行坐标变换，即将坐标系的原点设置为动作序列第一帧中第一个人的脊柱(torso)点，将所有帧所有坐标的值都进行转换。

步骤A-2，对训练集中的3D骨架序列进行旋转而扩增数据，具体的旋转方法如公式(4)所示。将每一个关节点的坐标x,y,z乘上公式(4),就得到了旋转后的坐标。公式(1),(2),(3)中的α，β，γ，分别表示x，y，z轴沿顺时针方向的旋转角度，再这里，α，β在0至30°之间随机取值。γ取值为0。

R＝R_z(γ)R_y(β)R_x(α) (4)

其中，

R_x(α)表示x方向的旋转矩阵

R_y(β)表示y方向的旋转矩阵

R_z(γ)表示z方向的旋转矩阵

R表示旋转在三个方向上总的旋转矩阵

步骤A-3，对旋转过后的骨架数据通过尺度变换进行扩增，扩增方法如公式(5)所示，将每一个关节点的坐标x,y,z乘上公式(5),就得到了尺度变换后的坐标，将尺度因子也s_x，s_y，s_z在1至1.2之间随机取值。

其中

S表示下x,y,z三个方向的尺度因子矩阵

s_x表示x方向的尺度因子；

s_y表示y方向的尺度因子；

s_y表示z方向的尺度因子；

步骤A-4，对3D骨架序列再时间步上进行降采样。因为所截取的动作视频是变长的，而网络的输入要求定长，所以将动作序列降采样为T。

步骤A-5，搭建多层双向LSTM网络，用来处理骨架序列，本发明称之为骨架网络。骨架网络的具体结构如附图1所示。

步骤A-6，利用训练集训练骨架网络，保存权重。对于骨架网络的训练，优化器为Adam，学习率为1e-4，batch size＝128本发明所使用的损失函数为交叉熵损失函数，交叉熵损失函数的定义如公式所示：

Loss表示网络的损失函数

i为类别变量，

C代表数据集中动作的总类别，

y_i为一个动作序列的真实标签，

p_i为神经网络所预测的概率。

步骤A-7，当骨架网络训练完毕之后，将全连接层之前的输出结果保存下来，此结果即为骨架序列的时间特征。

步骤B中，输入RGB图像使用双注意力神经网络实现空间特征提取，包括步骤如下：

步骤B-1，将3D骨架利用投影方程投影到2D平面上，找出人体骨架的位置和边框，裁剪出带有人体的那一部分图像，如附图2所示；

步骤B-2，利用B-1中找到的人体边框，分别以四个边框为顶点对原图像再进行裁剪，这样就得到了5张图片，并对这5张图片进行水平镜像翻转，图像数据集被扩充了十倍，如附图2所示；

步骤B-3，构建自注意力模块，提取自注意力特征，如附图3虚线框中所示；

步骤B-4，骨架注意力生成，骨架注意力的生成需要图片和骨架两种数据，如附图4所示；

步骤B-5，提取骨架注意力特征，骨架注意力就相当于代替了自注意力模块中的Conv1×1的输出结果。在特征图与骨架注意力相乘之后，经过全局平均池化“Pool”，得到一个1×1×1280维的向量。再经过全连接层降低维度，全连接层的输出为256维了，这256维的特征就是骨架注意力特征。

步骤B-6，双注意力网络的合并。合并方式即两个注意力网络同时接收输入，并将输出特征进行拼接。如附图5所示；

步骤B-7，双注意力网络的训练，仍然利用公式(6)的交叉熵损失函数，优化器为Adam，学习率为1e-4，batch size＝128，保存权重。

步骤C，将3D骨架序列所提取的时间特征和RGB图像提取的空间特征进行融合，包括步骤如下：

步骤C-1，搭建整体的神经网络示意图，如附图6所示；

本文所提出的融合网络结构主要分为两个流以及一个特征融合部分。其中一个是RGB图片流(RGB stream)，另一个是骨架流(skeleton stream)。其中RGB流的输入为单张动作图片，骨架流的输入为多帧骨架序列。

对于骨架流，如图7所示，有三层Bi-LSTM，其中Bi-LSTM是已有的发明，叫做双向长短时神经网络层。对于时间特征，本文提取最后一个Bi-LSTM层最后一个时间步所输出的特征，维度为B×F，其中B为batch size，F为特征维度，双向LSTM的隐藏单元为300个，所以F＝600。

对于图片流，本文首先利用xception的特征提取层提取出了特征图。Xception是已有发明。然后利用了图五所示的双注意力网络，得到空间特征。

在得到时间特征和空间特征之后，本文将这两个特征进行了拼接。拼接之后进行了L2 norm归一化，最后送入全连接层和softmax层进行分类识别。Softmax层的输出即为识别结果。

步骤C-2，载入A-6和B-7中训练的两个神经网络的部分权重，开始训练整体神经网络，优化器为Adam，学习率为1e-4，batch size＝16(可根据运行环境适当调整)，训练完毕，即可用该神经网络进行动作识别。

本发明的有益效果是：本发明提出的于3D人体骨架和RGB图像融合的动作识别神经网络，旨在解决3D骨架动作识别中缺乏物体以及像素信息的问题。基于3D骨架的动作识别技术因为维度小，所以运算速度很快。但3D骨架缺乏细节的RGB像素信息，包括人物的肢体以及与人交互的物体信息。在相似的动作中，仅用3D骨架进行动作识别容易引起混淆。为了解决这个问题，使3D动作识别精度更高、更加稳定，本文提出了一个融合3D骨架信息和RGB图片信息的深度神经网络模型。该模型分为两个流，一个网络流用来处理3D骨架序列，另一个网络流处理2D图片，最后再将二者进行特征融合，以提高识别精度。

优选例3：

步骤A，输入3D人体骨架序列利用多层双向LSTM网络实现时间特征提取，主要包括骨架数据坐标转换、骨架数据增强、多层LSTM识别神经网络的搭建、神经网络的训练。

步骤A中，所述的骨架动作识别网络的预处理、搭建和训练，包括步骤如下：

步骤A-2，对训练集中的3D骨架序列进行旋转而扩增数据，具体的旋转方法如公式(4)所示。将每一个关节点的坐标x,y,z乘上公式(4),就得到了旋转后的坐标。公式(1),(2),(3)中的α，β，γ，分别表示x，y，z轴沿顺时针方向的旋转角度，再这里，α，β再0-30°之间随机取值。

4.R＝R_z(γ)R_y(β)R_x(α) (4)

步骤A-3，对旋转过后的骨架数据通过尺度变换进行扩增，扩增方法如公式(5)所示，将每一个关节点的坐标x,y,z乘上公式(5),就得到了尺度变换后的坐标，将尺度因子也s_x，s_y再1-1.2之间随机取值。

公式中，i为类别变量，C代表数据集中动作的总类别，y_i为一个动作序列的真实标签，p_i为神经网络所预测的概率。

步骤B-3，构建自注意力模块，提取自注意力特征，如附图3所示；

步骤B-6，双注意力网络的合并，如附图5所示；

步骤C-1，搭建整体的神经网络示意图，如附图7所示；

在本申请的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于人体骨架和图像融合的动作识别方法，其特征在于，包括：

2.根据权利要求1所述的基于人体骨架和图像融合的动作识别方法，其特征在于，所述时间特征提取步骤包括：

R＝R_z(γ)R_y(β)R_x(α) (4)

其中，

R_x(α)表示x方向的旋转矩阵；

R_y(β)表示y方向的旋转矩阵；

R_z(γ)表示z方向的旋转矩阵；

R表示旋转在三个方向上总的旋转矩阵；

其中

S表示下x,y,z三个方向的尺度因子矩阵

s_x表示x方向的尺度因子；

s_y表示y方向的尺度因子；

s_y表示z方向的尺度因子；

其中，

Loss表示网络的损失函数；

i为类别变量；

C代表数据集中动作的总类别；

y_i为一个动作序列的真实标签；

p_i为神经网络所预测的概率。

3.根据权利要求2所述的基于人体骨架和图像融合的动作识别方法，其特征在于，所述空间特征提取步骤包括：

骨架注意力的生成步骤：根据以下公式计算骨架注意力：

j_max＝max_index(||J₁-J_middle||₂)

其中，

j_max表示移动距离最大的关节点；

J₁，J_middle分别代表第一帧和中间帧关节点的3D空间位置；

4.根据权利要求3所述的基于人体骨架和图像融合的动作识别方法，其特征在于，所述特征融合步骤包括：

搭建特征融合网络；

5.根据权利要求3所述的基于人体骨架和图像融合的动作识别方法，其特征在于，所述找出移动距离最大的关节点j_max之后，开始生成骨架注意力M指：

j_max＝max_index(||J₁-J_middle||₂)

其中，

J₁，J_middle分别代表第一帧和中间帧关节点的3D空间位置；

M在最初是和输入图片有同样的尺寸的矩阵；

生成的矩阵M即为注意力权重。

6.根据权利要求4所述的基于人体骨架和图像融合的动作识别方法，其特征在于，所述特征融合网络：RGB图片流RGB stream、骨架流skeleton stream以及特征融合模块；

7.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的基于人体骨架和图像融合的动作识别方法的步骤。