CN113536926A

CN113536926A - 基于距离向量和多角度自适应网络的人体动作识别方法

Info

Publication number: CN113536926A
Application number: CN202110659972.1A
Authority: CN
Inventors: 姜明; 杨海杰; 张旻
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-10-22

Abstract

本发明公开了一种基于距离向量和多角度自适应网络的人体动作识别方法。本发明步骤如下:利用Openpose工具对数据集中视频的每一帧进行人体骨骼点检测来生成带有骨骼点坐标以及骨骼点名称的视频数据集2；将视频数据集2输入到多角度自适应网络中，利用LSTM网络以及卷积网络自动学习确定转变到最佳视角所需要的旋转参数与位移；根据旋转参数与位移，将骨骼点坐标转化成最佳视角下的骨骼点坐标；计算最佳视角下骨骼点之间的距离向量，包括空间距离与方向；将最佳视角下的骨骼点坐标、动作类别名称以及骨骼点之间的距离向量输入到时空图卷积网络中；时空图卷积网络学习时间与空间的特征，对最终动作类别进行判断。本发明具有很好的鲁棒性与精确度。

Description

基于距离向量和多角度自适应网络的人体动作识别方法

技术领域

本发明涉及动作识别领域，具体涉及一种基于距离向量和多角度自适应网络的人体动作识别方法，属于计算机视觉图像处理技术领域。

背景技术

随着互联网技术的飞速发展和视频监控设备的逐渐普及，视频已成为每个人日常生活的重要媒介。视频数据信息的总量呈指数增长，如何获取并且分析视频中的内容显得尤为重要。人体动作识别任务已经成为计算机视觉领域研究的焦点，在人机交互，视频监控，视频理解，虚拟现实等领域有着广泛应用。

基于骨骼点检测的人体动作识别可以很好的解决该问题。该方法首先对输入视频序列中的人进行骨骼点检测，再将预测到的骨骼点构建成为图结构，骨骼点作为图的各个顶点，骨骼点与骨骼点之间的连接作为图的边。接着利用动作识别方法对时序下的图结构特征进行学习，预测动作类别。之前大量的研究都是将固定的骨架图送入网络，这样只能捕获骨骼点之间局部物理关系，造成隐式骨骼点相关性的遗漏。另外，在不同高度和方向的视角下，相同动作的特征呈现也有很大的差异，会造成动作类别识别误差。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于距离向量和多角度自适应网络的人体动作识别方法，以解决在动作识别过程中骨骼点相关性遗漏以及在不同角度下缺乏鲁棒性的问题。

一种基于距离向量和多角度自适应网络的人体动作识别方法，包括以下步骤：

步骤(1)获取动作识别数据集1，利用Openpose工具对数据集中视频的每一帧进行人体骨骼点检测来生成带有骨骼点坐标以及骨骼点名称的视频数据集2；

步骤(2)将视频数据集2输入到多角度自适应网络中，利用LSTM网络以及卷积网络自动学习确定转变到最佳视角所需要的旋转参数与位移；

步骤(3)根据旋转参数与位移，将骨骼点坐标转化成最佳视角下的骨骼点坐标；

步骤(4)计算最佳视角下骨骼点之间的距离向量，包括空间距离与方向；

步骤(5)将最佳视角下的骨骼点坐标、动作类别名称以及骨骼点之间的距离向量输入到时空图卷积网络中；

步骤(6)时空图卷积网络学习时间与空间的特征，对最终动作类别进行判断。

进一步，步骤(2)所述的多角度自适应网络构建过程如下：

多角度自适应主网络主要由两条LSTM分支网络组成。

(2-1)构建一条LSTM网络用来确定位移d_k。

(2-2)构建另一条LSTM网络用来学习并确定合适的视角，即获得旋转参数α_k,θ,β_k,θ,γ_k,θ。

其中，三个参数分别表示为绕x、y、z轴旋转的角度。当获取到旋转参数和指定角度下的位移之后，将骨架坐标数据根据参数进行旋转变换，得到新的骨架坐标点集合。然后将新的骨架坐标点集合以及对应的动作标签输入到多个LSTM组成的网络，从端到端对骨架数据进行学习，将特征全连接后，最后通过SoftMax函数得到输出。

进一步，步骤(3)所述的获取最佳视角下的骨骼点坐标过程如下：

通过多角度自适应网络获取到位移d_k与旋转参数R_k,θ(α_k,θ,β_k,θ,γ_k,θ)之后，根据公式(1)进行计算新的骨骼点坐标。

v'_k,i,θ＝[x'_k,i,θ,y'_k,i,θ,z'_k,i,θ]^T＝R_k,θ(v_k,i-d_k) (1)

进一步，步骤(4)所述的计算骨骼点之间的距离向量过程如下：

(4-1)距离向量主要由骨骼点之间的距离和骨骼点相对方向组成，其中骨骼点之间的距离可以表示为：

其中(x,y,z)为骨骼点的坐标，如果人体骨骼点检测的输出为二维坐标，可将深度信息置为相同，实现二维坐标三维化。式(2)表示同一帧下第i个骨骼点与第j个骨骼点之间的空间距离，式(3)表示第m帧的第i个骨骼点与第n帧的第i个骨骼点之间的空间距离。

(4-2)骨骼点之间的相对位置可以表示为：

其中(x,y,z)为骨骼点的坐标，

为一个方向向量，式(4)表示同一帧下第j个骨骼点相对于第i个骨骼点的方位，式(5)表示第n帧的第i个骨骼点相对第m帧的第i个骨骼点的方位。

进一步，步骤(6)所述的构建时空图卷积网络过程如下：

(6-1)记一个具有N个节点和K帧的骨骼序列时空图为G＝(V,E)，其节点集合为V＝{v_ki|k＝1,…,K,i＝1,…,N}。

(6-2)根据人体结构，将每一帧的骨骼点连接起来形成空间边Es＝{v_kiv_kj|(i,j)∈B}，将连续两帧中的相同节点连接成边，形成时序边Et＝{v_kiv_(k+1)i}。

(6-3)将骨骼点之间的距离向量、骨骼点坐标位置、动作名称组成了新的输入特征向量F_new(v_ti)。以常见的图像二维卷积操作为参考，时空图卷积操作可以写成：

式(6)表示同一帧不同骨骼点的图卷积操作，式(7)表示不同帧相同骨骼点的图卷积操作。其中，B(v_mi)为骨骼点的领域约束条件，对于空间图卷积网络，B(v_mi)＝{v_mj|L(v_mj,v_mi)≤D}，L(v_mj,v_mi)表示的是从v_nj到v_mi的最短距离。对于时间图卷积网络，

K为卷积核大小，Γ控制时间域的卷积核大小，即设置最大间隔视频帧数。p为采样函数，获取以该骨骼点为中心的周围邻居骨骼点，w为权重函数，Z为归一化项。

下面对时空图卷积操作进行更为详细的描述：

在图像中，采样函数p是定义在中心位置为x的近邻像素上的。在骨骼点图中，采样函数的结果指的是一个骨骼点v_mi的近邻集合B(v_mi)，那么采样函数可以写为：

p(v_mi,v_mj)＝v_mj (8)

对于权重函数w，将骨骼点的近邻集合根据距离划分为固定个数的8个子集，每一个子集都有一个标签，通过映射函数根据标签来获取对应的权重函数，可以用式(9)表示：

w(v_mi,v_mj)＝w'(L(v_mi,v_mj)) (9)

因此图卷积操作进一步表示为：

(6-4)在测试阶段，通过输入一段视频序列，经过人体骨骼点检测技术得到每一帧视频对应的骨骼点，再经过动作识别技术便得到了一系列动作标签以及对应的得分，最高得分对应的动作标签便是最后的结果。

本发明所具有的优点如下：提出了一种基于距离向量和多视角自适应网络的动作识别方法，首先利用多视角自适应网络自动确定不同高度下的最佳观测点，生成相同动作类别下的多个骨骼点坐标组合，提高精度的同时也提高对特定场景下的鲁棒性。其次利用各个骨骼点之间的距离向量来捕捉动作的变化信息，能够学习到丰富的联动特征，在时空图网络的基础上提高了识别精度。

附图说明

图1是本发明的整体实施方案流程图；

图2是不同角度(不同高度)下的最佳视角示意图；

图3是不同角度(不同高度)下的骨架示意图；

图4是多角度自适应网络模型图；

图5是骨骼点距离向量示意图；

图6是时空图网络示意图；

具体实施方式

下面结合附图对本发明做详细描述。

实施例1

在实际场景中，人体动作会受各方面因素影响，同一个动作在不同角度下会有较大差异且骨骼点之间的关联没有被充分利用，本发明提出了一种基于距离向量和多角度自适应网络的人体动作识别方法，流程图参照图1，包括如下步骤：

多角度自适应主网络主要由两条LSTM分支网络组成。

(2-1)构建一条LSTM网络用来确定位移d_k。

v'_k,i,θ＝[x'_k,i,θ,y'_k,i,θ,z'_k,i,θ]^T＝R_k,θ(v_k,i-d_k) (1)

(4-2)骨骼点之间的相对位置可以表示为：

其中(x,y,z)为骨骼点的坐标，

(6-3)将人体骨骼点检测的输出进行三维化后，再经过上述的时空图处理之后，把该图结构数据输入到动作识别网络模型中，同时学习骨骼序列在时间和空间下的特征信息以及该特征信息对应的动作标签。

实施例2

如附图2，为不同高度下的最佳视角，可以看出这是一个弯腰的动作序列，第1行是从原视频抽取的4帧图像，第2行是原始骨骼点以及对应的人体动作建模。第3行是在视角与水平夹角为0°下的最佳视角，可以发现经过转换的骨架信息更容易学习，但动作却没有改变。第4行与第5行分别为视角与水平夹角为θ₁与θ₂下的最佳视角以及对应的人体建模，θ₂>θ₁。可以发现，不同高度下的最佳视角也有不同，通过将骨骼点进行变换，获取不同高度视角下的骨骼点，对它们一同进行训练，达到数据增强的目的。

实施例3

如附图3，子图(a)、(b)、(c)分别为某一视频帧下不同高度下的新视角。其中(a)为自适应网络确定的最佳视角，(b)、(c)为添加角度约束条件下的最佳视角。从第1帧到第t帧，人体姿态不断发生变化，多视角自适应网络总能找到最佳视角并在此基础上提升高度来进行学习。

实施例4

如附图4，将视频某一帧的原始骨架坐标输入网络，主网络主要由两条LSTM分支网络组成。第一条LSTM网络用来确定位移d_k，另一条LSTM网络用来学习并确定合适的视角，即获得旋转参数α_k,θ,β_k,θ,γ_k,θ。其中，三个参数分别表示为绕x、y、z轴旋转的角度。当获取到旋转参数和指定角度下的位移之后，将骨架坐标数据根据参数进行旋转变换，得到新的骨架坐标点集合。然后将新的骨架坐标点集合以及对应的动作标签输入到多个LSTM组成的网络，从端到端对骨架数据进行学习，将特征全连接后，最后通过SoftMax函数得到输出。

实施例5

如附图5，假设(a)为视频的第n帧图像，(b)为视频的第n+1帧图像，对于第n帧的K₁骨骼点，它与其他骨骼点的距离向量由虚线箭头表示，K₁到K₂的虚线箭头表示不同帧相同骨骼点之间的距离向量。从图中可以看出在第n+1帧的时候骨骼点K₂与骨骼点F₂的距离更近了，方向也有轻微的改变。通过构建同一帧下不同骨骼点以及不同帧下相同骨骼点之间的距离向量，可以有效地捕捉动作的变化信息，并通过时空图卷积网络进行学习。

实施例6

如附图6，人体在运动的一段时间内，通过人体骨骼点检测方法识别出每一帧的骨骼点，如图6为若干帧的骨架图信息。记一个具有N个节点和K帧的骨骼序列时空图为G＝(V,E)，其节点集合为V＝v_ki|k＝1,…,K,i＝1,…,N}，图6的B_k,i即表示第k帧的第i个骨骼点。根据人体结构，将每一帧的骨骼点连接起来形成空间边Es＝{v_kiv_kj|(i,j)∈B}，其中B为第k帧所有骨骼点的集合，图6的虚线边即为空间边。将连续两帧中的相同节点连接成边，形成时序边Et＝{v_kiv(_k+1)_i}，图6的带箭头虚线边即为时序边。

Claims

1.基于距离向量和多角度自适应网络的人体动作识别方法，其特征包括以下步骤：

步骤(1)获取动作识别数据集I，利用Openpose工具对数据集I中视频的每一帧进行人体骨骼点检测来生成带有骨骼点坐标以及骨骼点名称的视频数据集II；

步骤(2)将视频数据集II输入到多角度自适应网络，利用LSTM网络以及卷积网络自动学习确定转变到最佳视角所需要的旋转参数与位移；

2.根据权利要求1所述的基于距离向量和多角度自适应网络的人体动作识别方法，其特征在于步骤(2)具体实现如下：

多角度自适应主网络主要由两条LSTM分支网络组成；

(2-1)构建一条LSTM分支网络用来确定位移d_k；

(2-2)构建另一条LSTM分支网络用来学习并确定最佳的视角，即获得旋转参数α_k，θ，β_k，θ，γ_k，θ；

其中，α_k，θ，β_k，θ，γ_k，θ分别表示为绕x、y、z轴旋转的角度；当获取到旋转参数和指定角度下的位移之后，将骨架坐标数据根据参数进行旋转变换，得到新的骨架坐标点集合；然后将新的骨架坐标点集合以及对应的动作标签输入到多个LSTM组成的网络，从端到端对骨架数据进行学习，将特征全连接后，最后通过SoftMax函数得到输出。

3.根据权利要求2所述的基于距离向量和多角度自适应网络的人体动作识别方法，其特征在于步骤(3)所述的获取最佳视角下的骨骼点坐标过程如下：

通过多角度自适应网络获取到位移d_k与旋转参数R_k，θ(α_k，θ，β_k，θ，γ_k，θ)之后，根据公式(1)计算新的骨骼点坐标；

v′_k，i，θ＝[x′_k，i，θ，y′_k，i，θ，z′_k，i，θ]^T＝R_k，θ(v_k，i-d_k) (1)

x′_k，i，θ，y′_k，i，θ，z′_k，i，θ分别表示经过x、y、z轴的旋转参数后获得的坐标；v_k，i表示原骨骼点坐标。

4.根据权利要求3所述的基于距离向量和多角度自适应网络的人体动作识别方法，其特征在于步骤(4)所述的计算骨骼点之间的距离向量过程如下：

(4-1)距离向量主要由骨骼点之间的距离和骨骼点相对方向组成，其中骨骼点之间的距离表示为：

其中(x，y，z)为骨骼点的坐标，如果人体骨骼点检测的输出为二维坐标，可将深度信息置为相同，实现二维坐标三维化；式(2)表示同一帧下第i个骨骼点与第j个骨骼点之间的空间距离，式(3)表示第m帧的第i个骨骼点与第n帧的第i个骨骼点之间的空间距离；

(4-2)骨骼点之间的相对位置表示为：

其中(x，y，z)为骨骼点的坐标，

5.根据权利要求4所述的基于距离向量和多角度自适应网络的人体动作识别方法，其特征在于步骤(6)所述的时空图卷积网络构建过程如下：

(6-1)记一个具有N个节点和K帧的骨骼序列时空图为G＝(V，E)，其节点集合为V＝{v_ki|k＝1，...，K，i＝1，...，N}；

(6-2)根据人体结构，将每一帧的骨骼点连接起来形成空间边Es＝{v_kiv_kj|(i，j)∈B}，将连续两帧中的相同节点连接成边，形成时序边Et＝{v_kiv_(k+1)i}；

(6-3)将骨骼点之间的距离向量、骨骼点坐标位置、动作名称组成了新的输入特征向量F_new(v_ti)，时空图卷积操作如下：

式(6)表示同一帧不同骨骼点的图卷积操作，式(7)表示不同帧相同骨骼点的图卷积操作；其中，B(v_mi)为骨骼点的领域约束条件，对于空间图卷积网络，B(v_mi)＝{v_mj|L(v_mj，v_mi)≤D}，L(v_mj，v_mi)表示的是从v_mj到v_mi的最短距离；对于时间图卷积网络，B(v_mi)＝

K为卷积核大小，Γ控制时间域的卷积核大小，即设置最大间隔视频帧数；p为采样函数，获取以该骨骼点为中心的周围邻居骨骼点，w为权重函数，Z为归一化项；

下面对时空图卷积操作进行更为详细的描述：

在图像中，采样函数p是定义在中心位置为x的近邻像素上的；在骨骼点图中，采样函数的结果指的是一个骨骼点v_mi的近邻集合B(v_mi)，那么采样函数可以写为：

p(v_mi，v_mj)＝v_mj (8)

w(v_mi，v_mj)＝w′(L(v_mi，v_mj)) (9)

因此图卷积操作进一步表示为：