CN111563409A

CN111563409A - 一种基于骨架自相似性的跨视角动作识别方法

Info

Publication number: CN111563409A
Application number: CN202010161732.4A
Authority: CN
Inventors: 邵展鹏; 刘鹏; 胡超群; 周小龙
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2020-08-21

Abstract

本发明提出一种基于骨架自相似性的跨视角动作识别方法，包括以下步骤：S1，以精细到粗糙的方式获取3个尺度的骨架序列；S2，将骨架自相似性表示为自相似图像SSI；S3，构建时空卷积模块SCM；S4，构建序列编码模块SEM；S5，基于SCM和SEM的主干网络，通过多流融合构建多流神经网络MSNN。本发明考虑到使用不同尺度的骨架信息可以有效的提高识别性能并很好的处理遮挡情况。因此，首先以精细到粗糙的方式获取了3个尺度的人体骨架。在更精细的尺度上，其相应人体骨架中包含更多的关节；多尺度SSI方案的提出使得本发明具有更好的鲁棒性，有效地防止了侧视角带来的遮挡问题。

Description

一种基于骨架自相似性的跨视角动作识别方法

技术领域

本发明涉及视觉中动作识别技术领域，尤其是涉及一种基于骨架自相似性的跨视角动作识别方法。

背景技术

人类动作识别由于其广泛的应用而一直是活跃的研究领域，例如视频理解，人机交互和辅助机器人。在固定的通用视角下，该领域中大多数现有方法都能很好地实现动作识别。然而当相机视角变化，它们的性能却非常有限甚至变得不可预知。这种所谓的“跨视角”场景下的动作识别是一项非常具有挑战性的任务，这是因为不同传感器从各种视角捕获的相同动作的视觉外观可能完全不同。因此，设计一个在视角变化场景下仍能表现良好的跨视角动作识别方法，是该领域一项主要的挑战。

为了解决由于视角改变而产生的人体动作视觉变化，相关研究人员提出了很多非常有价值的解决方法。其中，一种可行的方法是通过仿真方法在人体对象周围模拟大量的虚拟相机来枚举尽可能多的视角，以生成多个视角的动作训练数据。但是，这种方法非常耗时，因为它需要合并所有视角并标注大量的视频数据。另一种可行的方法是为不同视角下的动作设计工程特征或学习不同视角下共同不变的特征。这种方法的性能在很大程度上受到特征学习模型的训练视角数量的限制。

近年来，基于人体骨架数据的动作识别受到了越来越多的关注，因为这些数据不仅对外观，环境背景和视角的变化具有很好的鲁棒性。此外，人体骨架数据是一种高度结构化的数据，可有利于产生能够克服遮挡和噪声问题的高判别性动作表示，例如以不同尺度对骨架进行采样和分解。但是，现有基于骨架的跨视角动作识别方法的性能受到其对骨架数据的不灵活预处理的限制。具体来说，为了标准化骨架数据的坐标系统，原始骨架数据通常被转换到一个以人体中心为原点的局部坐标系下。但是，这种预处理不能有效地处理视线变化下的人体外观变化。首先，这种预处理需要人体的严格刚体假设成立。其次，当动作序列中不包含人体的直立姿势时，以人体几个关键点为中心的局部坐标系建立方法将完全不可行。此外，骨架中的遮挡可能为跨视角场景中的预处理和模型学习引入更多的变化。

发明内容

本发明解决了视线变化下的人体外观变化影响动作识别的问题，提出一种基于骨架自相似性的跨视角动作识别方法，通过多尺度的骨架自相似性来学习跨视角动作表示，创建具有视角不变性的动作描述。本发明可以在视角变化时显示出较高的结构稳定性。本发明创造性的将每一帧的骨架自相似性表示为一帧图像，并相应地设计了一个多流深度学习模型，学习多尺度的具有视角独立性的自相似性特征表示，在处理跨视角动作识别任务中实现了较好的效果。

为实现上述目的，本发明提供以下的技术方案：

一种基于骨架自相似性的跨视角动作识别方法，包括以下步骤：

S1，以精细到粗糙的方式获取3个尺度的骨架序列；

S2，将骨架自相似性表示为自相似图像SSI；

S3，构建时空卷积模块SCM；

S4，构建序列编码模块SEM；

S5，基于SCM和SEM的主干网络，通过多流融合构建多流神经网络MSNN。

本发明考虑到使用不同尺度的骨架信息可以有效的提高识别性能并很好的处理遮挡情况。因此，首先以精细到粗糙的方式获取了三个尺度的人体骨架。在更精细的尺度上，其相应人体骨架中包含更多的关节；多尺度SSI方案的提出使得本发明具有更好的鲁棒性，有效地防止了侧视角带来的遮挡问题。

作为优选，所述步骤S2具体包括以下步骤：

计算每一帧骨架的所有关节之间的成对欧式距离来生成骨架自相似图像SSI，每个动作序列都具有3个尺度的骨架序列，每个动作序生成相应的三组不同尺度的SSI；

设一个动作序列为P，每个动作序列都有3个尺度的骨架序列，即对于L＝3， P＝[p₁,...,p_L]，其中p_l表示第l个尺度的骨架序列，p_l是一组3D关节位置序列；

令

其中

表示在尺度l下的骨架N_l个关节在3D空间中的x，y和z坐标序列(总共T帧)，其中l尺度下第t帧的骨架序列表示为P_l(t)，其骨架自相似性表示为SSI图像 I_l(t)，定义为大小为N_l×N_l的对称方矩阵：

其中d_ij可以是度量空间中的任意距离，以测量骨架中第i个关节和第j个关节的位置之间的距离；矩阵对角元素是通过将关节与其自身比较计算而生成的距离，因此全为零；确定了I_l(t)后，则可以将尺度l的骨架序列生产的SSI公式化为：

其中T表示骨架序列的帧数。

作为优选，所述步骤S3具体包括以下步骤：

S301，构建立体卷积神经网络3D CNN分支；

S302，构建时间注意力分支；

S303，添加时间分布的空间金字塔池化层TSPP。

作为优选，所述步骤S301具体包括以下步骤：

设置3个3D卷积层和2个最大池化层，自相似图像SSI先通过2个3D卷积层，再通过1个最大池化层，再通过1个3D卷积层，最后通过1个最大池化层，输出的时空特征是

在时间维度上具有下采样长度T_α，特征长度为K_l。因为SSI是一种立方体形状张量，所以在本发明中设计了一个轻便的3D CNN应用于SSI提取时空特征，兼顾了性能和效率，有效的解决了跨视角的动作识别任务。

作为优选，所述步骤S302具体包括以下步骤：

在得到从3D CNN的最后一层获取的时空特征后，设置一个时间注意力模块，其根据帧的信息重要性，包括一些关键帧包含区分度较高的信息，而其他帧仅提供上下文信息，自动地对帧进行不同的注意力权重分配；SCM模块的最终输出v_l由v_l,M和v_l,A共同决定：

v_l＝v_l,M e v_l,A

其中v_l,A是v_l,M的注意力权重，用于重新校准时间信息以自动执行信息帧的软选择，e表示逐元素相乘；

时间注意机制是通过三个全连接层FC层实现的，通过帧之间非线性交互实现信息帧的选择；

首先引入了一个具有参数W₁的空间降维FC1层，然后是ReLU激活函数。然后引入具有参数W₂的时间降维FC2层，其后是Sigmoid激活函数。最后，为了能在3D CNN分支输出v_l,M的时间维度上进行权重计算，在FC2层输出向量上进行特征求和池化以及重复K_l操作，获得v_l,A：

其中I_l,A表示时间注意分支的输入，T_α表示下采样时间长度，K_l表示特征长度，θ()和δ()分别表示ReLU和Sigmoid函数；repeat(g,n)表示在二维向量的最后一维中重复元素n次。

作为优选，所述步骤S303具体包括以下步骤：

在网络的3D CNN分支的最后一个最大池化层后，放置了一个时间分布的空间金字塔池化层，该层将每个时刻的输出特征图划为4×4个空间单元，在每个空间单元中应用最大池化以获得每个滤波器的特征响应；通过合并所有单元的特征响应，最终产生一个固定长度的向量

作为输出卷积特征，其中T_α表示在时间维度上的下采样长度；K_l＝4×4×fn，其中fn是滤波器数量；采用TSPP 层作为时间注意力分支的第一层，以输出固定长度向量I_l,A作为后续FC层的输入向量。

作为优选，所述步骤S4具体包括以下步骤：

LSTM神经元内部可以保持长期记忆，并学会何时记住或忘记内部存储器单元中存储的信息。因此，使用两个LSTM层构建SEM模块，输出为z_l(t_α)，最后沿着时间轴对z_l(t_α)求和，从而产生最终的动作表示u_l:

其中u_l为SEM的输出动作表示，t_α表示当前时间。

作为优选，所述步骤S5具体包括以下步骤：

本发明将SCM和SEM作为构建多流神经网络MSNN的主干。SCM用于提取 SSI图像的时空特征，该时空特征被进一步输入到SEM，以建模动作序列之间的时序依赖关系。最后，通过融合三个主干网络形成多流神经网络，从不同尺度的 SSI图像学习动作表示。基于此主干结构，此步骤具有两种融合方案对多个流进行融合，即早期融合和后期融合。早期融合是线性串接多个流的SCM输出特征，并将该串接的输出特征连接到一个共同的SEM输入。最后，该SEM产生一个动作表示输出U后期融合是通过串接多个流的SEM输出特征，直接形成一个动作组合表示U；此后，在U之后增加一个批量归一化BN层，以消除U中的协变量偏移；最后，将归一化后的U输入到SoftMax分类器，根据给定的U来预测属于第i类别的概率为，

其中，

表示U为第i类别的概率，其中w_s,i(w_s,i)表示SoftMax层中权重矩阵W_s的第i行(第j列)，C表示类的总数；

将MSNN的最终优化目标函数表示为具有L2范数正则化的交叉熵损失函数 L：

其中y＝(y₁，y₂，...，y_C)是真实值标签，

表示序列U属于第i个动作类别的预测概率；W表示网络权重的全局矩阵，此处合并为一个矩阵；L2正则化应用于W，以减少网络过度拟合。标量λ₁的作用是平衡正则项在目标函数中的贡献。

本发明有以下有益效果：本发明创造性的通过学习骨架自相似性进行跨视角动作识别，该方法在视角变化情况下表现出较稳定的不变性。同时，多尺度SSI 方案的提出使得本发明具有更好的鲁棒性，有效地防止了侧视角带来的遮挡问题，并且本发明设计了一个轻便的多流深度模型，兼顾了性能和效率，有效的解决了跨视角的动作识别任务。

附图说明

图1是本发明技术方案的总体流程示意图；

图2是多尺度人体骨架的采样方法示例，其中包括一个典型的人体骨架关节图和不同尺度下采样的骨架关节。

图3是多流神经网络主要模块的流程示意图，(a)是时空卷积模块，(b)是序列编码模块；

图4是多流神经网络中3D CNN分支的参数分配示意图；

图5是早期融合示意图；

图6是后期融合示意图。

具体实施方式

实施例1：

本实施例提出一种基于骨架自相似性的跨视角动作识别方法，包括以下步骤：

S1，以精细到粗糙的方式获取3个尺度的骨架序列；

S2，将骨架自相似性表示为自相似图像SSI；

S3，构建时空卷积模块SCM；

S4，构建序列编码模块SEM；

步骤S1具体包括以下步骤：

如图2，不同尺度采样的骨架关节以关节号表示，这些关节组成不同尺度的人体骨架数据，其中数字对应的是上图中人体骨架的关节号码。

不同尺度的骨架采样规则是：在尺度1下，人体骨架的全部关节被采样用于计算自相似图像，并且尺度1中相邻两关节组成的运动部件成为人体基本运动部件；在尺度2下，相邻两个基本运动部件组成一个虚拟运动部件(更大的运动部件)，以此为原则采样能组成这些虚拟运动部件的首尾关节。以此类推，在尺度 3下人体骨架将只有5个虚拟运动部件，同样采样能组成此5个虚拟运动部件的首尾关节。

尺度表如下：

步骤S2具体包括以下步骤：

参考图1，计算每一帧骨架的所有关节之间的成对欧式距离来生成骨架自相似图像SSI，每个动作序列都具有3个尺度的骨架序列，每个动作序生成相应的三组不同尺度的SSI；

令

其中

其中T表示骨架序列的帧数。

参考图3和图4，步骤S3具体包括以下步骤：

S301，构建立体卷积神经网络3D CNN分支：

在时间维度上具有下采样长度T_α，特征长度为 K_l。因为SSI是一种立方体形状张量，所以在本发明中设计了一个轻便的3D CNN应用于SSI提取时空特征，兼顾了性能和效率，有效的解决了跨视角的动作识别任务；

S302，构建时间注意力分支：

在得到从3D CNN的最后一层获取的时空特征后，设置一个时间注意力模块，其根据帧的信息重要性，包括一些关键帧包含区分度较高的信息，而其他帧仅提供上下文信息，自动地对帧进行不同的注意力权重分配；SCM模块的最终输出 v_l由v_l,M和v_l,A共同决定：

v_l＝v_l,M e v_l,A

其中I_l,A表示时间注意分支的输入，T_α表示下采样时间长度，K_l表示特征长度，θ()和δ()分别表示ReLU和Sigmoid函数；repeat(g,n)表示在二维向量的最后一维中重复元素n次；

S303，添加时间分布的空间金字塔池化层TSPP：

步骤S4具体包括以下步骤：

其中u_l为SEM的输出动作表示，t_α表示当前时间。

参考图5，步骤S5具体包括以下步骤：

将SCM和SEM作为构建多流神经网络MSNN的主干，如图1所示。其中， SCM用于提取SSI图像的时空特征，该时空特征被进一步输入到SEM，以建模动作序列之间的时序依赖关系。最后，通过融合三个主干网络形成多流神经网络，从不同尺度的SSI图像学习动作表示。基于此主干结构，早期融合是线性串接多个流的SCM输出特征，并将该串接的输出特征连接到一个共同的SEM输入，最后，该SEM产生一个动作表示输出U。

实施例2：

本实施例提出一种基于骨架自相似性的跨视角动作识别方法，相较于实施例 1的步骤S5，采用后期融合替换早期融合，参考图6，步骤S5具体包括以下步骤：

将SCM和SEM作为构建多流神经网络MSNN的主干，如图1所示。其中， SCM用于提取SSI图像的时空特征；该时空特征被进一步输入到SEM，以建模动作序列之间的时序依赖关系。最后，通过融合三个主干网络形成多流神经网络，从不同尺度的SSI图像学习动作表示。基于此主干结构，后期融合是通过串接多个流的SEM输出特征，直接形成一个动作组合表示U；

实施例3：

对于实施例1和2，在U之后增加一个批量归一化BN层，以消除U中的协变量偏移；最后，将归一化后的U输入到SoftMax分类器，根据给定的U来预测属于第i类别的概率为，

其中，

其中y＝(y₁，y₂，...，y_C)是真实值标签，

Claims

1.一种基于骨架自相似性的跨视角动作识别方法，其特征是，包括以下步骤：

S1，以精细到粗糙的方式获取3个尺度的骨架序列；

S2，将骨架自相似性表示为自相似图像SSI；

S3，构建时空卷积模块SCM；

S4，构建序列编码模块SEM；

S5，基于时空卷积模块SCM和序列编码模块SEM的主干网络，通过多流融合构建多流神经网络MSNN。

2.根据权利要求1所述的一种基于骨架自相似性的跨视角动作识别方法，其特征是，所述步骤S2具体包括以下步骤：

设一个动作序列为P，每个动作序列都有3个尺度的骨架序列，即对于L＝3，P＝[p₁,...,p_L]，其中p_l表示第l个尺度的骨架序列，p_l是一组3D关节位置序列；

令

其中

表示在尺度l下的骨架N_l个关节在3D空间中的x，y和z坐标序列，总共T帧，其中l尺度下第t帧的骨架序列表示为P_l(t)，其骨架自相似性表示为SSI图像I_l(t)，定义为大小为N_l×N_l的对称方矩阵：

其中T表示骨架序列的帧数。

3.根据权利要求2所述的一种基于骨架自相似性的跨视角动作识别方法，其特征是，所述步骤S3具体包括以下步骤：

S301，构建立体卷积神经网络3D CNN分支；

S302，构建时间注意力分支；

S303，添加时间分布的空间金字塔池化层TSPP。

4.根据权利要求3所述的一种基于骨架自相似性的跨视角动作识别方法，其特征是，所述步骤S301具体包括以下步骤：

在时间维度上具有下采样长度T_α，特征长度为K_l。

5.根据权利要求4所述的一种基于骨架自相似性的跨视角动作识别方法，其特征是，所述步骤S302具体包括以下步骤：

v_l＝v_l,Me v_l,A

首先引入了一个具有参数W₁的空间降维FC1层，然后是ReLU激活函数；然后引入具有参数W₂的时间降维FC2层，其后是Sigmoid激活函数；最后，为了能在3D CNN分支输出v_l,M的时间维度上进行权重计算，在FC2层输出向量上进行特征求和池化以及重复K_l操作，获得v_l,A：

6.根据权利要求5所述的一种基于骨架自相似性的跨视角动作识别方法，其特征是，所述步骤S303具体包括以下步骤：

作为输出卷积特征，其中T_α表示在时间维度上的下采样长度；K_l＝4×4×fn，其中fn是滤波器数量；采用TSPP层作为时间注意力分支的第一层，以输出固定长度向量I_l,A作为后续FC层的输入向量。

7.根据权利要求1所述的一种基于骨架自相似性的跨视角动作识别方法，其特征是，所述步骤S4具体包括以下步骤：

使用两个LSTM层构建SEM模块，输出为z_l(t_α)，最后沿着时间轴对z_l(t_α)求和，从而产生最终的动作表示u_l:

其中u_l为最终的动作表示，t_α表示当前时间。

8.根据权利要求7所述的一种基于骨架自相似性的跨视角动作识别方法，其特征是，所述步骤S5具体包括以下步骤：

将时空卷积模块SCM和序列编码模块SEM作为构建多流神经网络MSNN的主干，时空卷积模块SCM用于提取自相似图像SSI的时空特征；该时空特征被进一步输入到序列编码模块SEM，以建模动作序列之间的时序依赖关系；最后，通过融合三个主干网络形成多流神经网络，从不同尺度的自相似图像SSI学习动作表示，基于此主干网络，利用早期融合串接多个流的时空卷积模块SCM输出特征，将该融合特征连接到一个共同的序列编码模块SEM输入，最后，该序列编码模块SEM产生一个最终的动作表示输出U。

9.根据权利要求7所述的一种基于骨架自相似性的跨视角动作识别方法，其特征是，所述步骤S5具体包括以下步骤：

将时空卷积模块SCM和序列编码模块SEM作为构建多流神经网络MSNN的主干，时空卷积模块SCM用于提取自相似图像SSI的时空特征；该时空特征被进一步输入到序列编码模块SEM，以建模动作序列之间的时序依赖关系；最后，通过融合三个主干网络形成多流神经网络，从不同尺度的自相似图像SSI学习动作表示；基于此主干结构，后期融合是通过串接多个流的SEM输出特征，直接形成一个最终的动作组合表示U。

10.根据权利要求8或9所述的一种基于骨架自相似性的跨视角动作识别方法，其特征是，所述步骤S5后增加步骤S6，所述步骤S6包括：

在U之后增加一个批量归一化BN层，以消除U中的协变量偏移；最后，将归一化后的U输入到SoftMax分类器，根据给定的U来预测属于第i类别的概率为，

其中，

将多流神经网络MSNN的最终优化目标函数表表示为具有L2范数正则化的交叉熵损失函数L：

其中y＝(y₁，y₂，...，y_C)是真实值标签，

表示序列U属于第i个动作类别的预测概率；W表示网络权重的全局矩阵，此处合并为一个矩阵；L2正则化应用于W，标量λ₁。