CN112613405B

CN112613405B - 任意视角动作识别方法

Info

Publication number: CN112613405B
Application number: CN202011541269.2A
Authority: CN
Inventors: 姬艳丽; 高玲玲
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2022-03-25
Anticipated expiration: 2040-12-23
Also published as: CN112613405A

Abstract

本发明公开了一种任意视角动作识别方法，获取基准视角动作序列和任意视角动作序列，并对每个任意视角动作序列生成对应的映射图像，构建任意视角动作识别模型，包括视角转换模块、注意力学习网络模块和分类模块，视角转换模块用于将任意视角动作序列旋转至基准视角后发送给注意力学习模块，注意力学习模块用于采用注意力机制对旋转后的动作序列进行注意力学习并进行加权操作，将得到的旋转加权后的动作序列发送给分类模块，分类模块进行特征提取并分类，对多视角动作识别模型进行训练，获取待进行动作识别人员的动作序列，输入任意视角动作识别模型得到动作识别结果。本发明可以避免视角差异带来的影响，提高动作识别准确率。

Description

任意视角动作识别方法

技术领域

本发明属于动作识别技术领域，更为具体地讲，涉及一种任意视角动作识别方法。

背景技术

随着深度学习的兴起，在行为识别领域，各种优秀的算法一直在出现并获得更高的动作识别准确率。但是在某些具体的应用场景下，例如地震多发区域的救灾环境比较复杂，对动作识别的准确率影响很大，如何将动作识别有效应用在具体的救灾行为识别任务并能克服视角差异所带来的影响是一个巨大的挑战。

传统的行为识别方法有利用卷积神经网络和循环神经网络分别进行动作在空间上和时间上的特征提取，或者设计图卷积神经网络来提取人体骨骼的高阶语义信息。然而当面临较大的视角变化时，同一个动作的特征会发生显著的变化，从而导致系统无法准确判断同一动作。当这个问题出现在救灾现场，那搜救设备的效率就会大大降低，从而增加搜救人员的工作量。

发明内容

本发明的目的在于克服现有技术的不足，提供一种任意视角动作识别方法，借助视角转换模块将动作数据转换到基准视角，从而避免视角差异带来的影响，提高动作识别准确率。

为了实现上述发明目的，本发明任意视角动作识别方法包括以下步骤：

S1：根据需要设置用于视角转换的基准视角，然后同时在基准视角和其他任意视角拍摄同一人员动作视频，分别对基准视角动作视频和任意视角动作视频进行骨骼序列提取并处理至预设长度，作为基准视角动作序列和任意视角动作序列；

对于所需识别的N个动作分别获取若干对基准视角动作序列和任意视角动作序列，标注每个动作序列对应的动作类别标签；

针对每个视角下的骨骼序列生成对应的映射图像，映射方法如下，将骨骼序列的帧和每一帧的关节分别对应图像的横纵轴，关节的三维坐标对应图像的RGB通道；

S2：构建任意视角动作识别模型，包括视角转换模块、注意力学习网络模块和分类模块，其中：

视角转换模块包括卷积神经网络和视角旋转模块，其中卷积神经网络的输入为任意视角动作序列对应的映射图像，处理得到旋转参数发送给视角旋转模块；视角旋转模块根据接收到的旋转参数对任意视角动作序列进行视角旋转，得到旋转后的动作序列并发送给注意力学习模块；

注意力学习模块包括注意力学习网络和加权处理模块，其中注意力学习网络对旋转后的动作序列进行学习，得到注意力矩阵，加权处理模块根据注意力矩阵对旋转后的动作序列进行加权处理，得到旋转加权后的动作序列发送给分类模块；

分类模块包括动作特征提取模块和分类器，动作特征提取模块用于对旋转加权后的动作序列进行特征提取，将提取到的动作特征发送至分类器进行动作分类，得到动作类别的预测标签；

S3：采用训练样本对视角转换模块和注意力学习模块进行联合训练，具体训练方法如下：

将任意视角动作序列S_v输入视角转换模块，经视角转换后得到旋转后动作序列S_r，输入注意力学习模块得到旋转加权后的动作序列S_Ar；将对应的基准视角动作序列S_g直接输入注意力学习模块，得到加权后的动作序列S_Ag；计算动作序列S_Ar和动作序列S_Ag之间的偏差作为视角损失，利用此损失训练视角转换模块和注意力学习模块；

S4：采用训练样本对注意力学习模块和分类模块进行联合训练，具体训练方法如下：

将任意视角动作序列S_v输入采用步骤S3中训练好的视角转换模块，经视角转换后得到旋转后动作序列S_r，将旋转后动作序列输入注意力学习模块得到旋转加权后的动作序列S_Ar，然后输入至分类模块得到预测标签，计算该预测标签和步骤S1所标记的真实标签之间的偏差作为分类损失，利用此损失训练注意力学习模块和分类模块；

S5：对于待进行动作识别的人员，在任意视角拍摄其动作视频，进行骨骼序列提取并处理至预设长度，得到待识别动作序列，将待识别序列输入训练好的任意视角动作识别模型得到动作识别结果。

本发明任意视角动作识别方法，首先获取基准视角动作序列和任意视角动作序列，并对每个任意视角动作序列生成对应的映射图像，构建任意视角动作识别模型，包括视角转换模块、注意力学习网络模块和分类模块，视角转换模块用于将任意视角动作序列旋转至基准视角后发送给注意力学习模块，注意力学习模块用于采用注意力机制对旋转后的动作序列进行注意力学习并进行加权操作，将得到的旋转加权后的动作序列发送给分类模块，分类模块进行特征提取并分类，采用基准视角动作序列和任意视角动作序列对多视角动作识别模型进行训练，获取待进行动作识别人员的动作序列，输入任意视角动作识别模型得到动作识别结果。

本发明可将任意视角的动作序列转换至基准视角，可以消除视角差异带来的影响，有助于提高识别准确率，因此可以适应救灾环境下较大的视角变化，从而在复杂的灾难现场下准确识别人体人员动作，判断人员伤亡情况，为搜救提供决策依据。

附图说明

图1是本发明任意视角动作识别方法的具体实施方式流程图；

图2是本发明中任意视角动作识别模型的结构图；

图3是本实施例中卷积神经网络的结构图；

图4是本实施例中注意力学习网络的结构图；

图5是本实施例中动作特征提取模块的结构图；

图6是本发明中视角转换模块和注意力学习模块联合训练示意图；

图7是本发明中注意力学习模块和分类模块联合训练示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明任意视角动作识别方法的具体实施方式流程图。如图1所示，本发明任意视角动作识别方法的具体步骤包括：

S101：获取训练样本：

根据需要设置用于视角转换的基准视角，然后同时在基准视角和其他任意视角拍摄同一人员动作视频，分别对基准视角动作视频和任意视角动作视频进行骨骼序列提取并处理至预设长度，作为基准视角动作序列和任意视角动作序列。骨骼序列提取是本领域的一种现有技术，其具体过程在此不再赘述。

对于所需识别的N个动作分别获取若干对基准视角动作序列和任意视角动作序列，标注每个动作序列对应的动作类别标签。

针对每个视角下的骨骼序列生成对应的映射图像，映射方法如下，将骨骼序列的帧和每一帧的关节分别对应图像的横纵轴，关节的三维坐标对应图像的RGB通道。

为了获得更好的训练效果，可以对动作序列进行预处理，包括脏数据的筛选剔除、序列帧数的归一化以及人体中心的归一化等。

S102：构建任意视角动作识别模型：

构建任意视角动作识别模型。图2是本发明中任意视角动作识别模型的结构图。如图2所示，本发明中的任意视角动作识别模型包括视角转换模块、注意力学习网络模块和分类模块，下面分别对每个模块进行详细说明。

·视角转换模块

视角转换模块用于将任意视角动作序列旋转至利于分类的基准视角，得到旋转后的动作序列并发送给注意力学习模块。如图2所示，本发明中视角转换模块包括卷积神经网络和视角旋转模块，其中：

卷积神经网络用于学习视角转换参数，其输入为任意视角动作序列对应的映射图像，得到旋转参数发送给视角旋转模块。

此卷积神经网络的具体结构可以根据需要进行设置。卷积神经网络的雏形是基于生物神经学提出的神经认知机制，经典的卷积神经网络有LeNet、AlexNet、ResNet等等。卷积神经网络一般由输入层、卷积层、池化层、全连接层和输出层组成，其特定的组合使得效率大大提高，同时它具有局部区域连接和权值共享的特点，使得它的训练不如层层叠加的全连接层的网络那样耗时，并且对于图像也有更高效的特征提取方式。卷积神经网络对于视觉类任务有着非常好的表现，在直至现在的所有计算机视觉类任务如目标检测、物体分类、语义分割等等都以卷积神经网络作为其研究基础，再在其上进行新的创新与改进。

图3是本实施例中卷积神经网络的结构图。如图3所示，本实施例中卷积神经网络包括四个级联的卷积单元、最大池化层(Max Pooling)和全连接层(FC)，其中：

每个卷积单元分别包括一个卷积层(Conv)、一个批量归一化层(BN)以及一个ReLu层，卷积层用于对所接收到的图像进行卷积操作，第一个卷积单元和第三个卷积单元的卷积核个数都设置为128，卷积核的尺寸为5*5，步长为2；而第二个卷积单元和第四个卷积单元的卷积核个数都设置为128，卷积核的尺寸为3*3，步长为1。批量归一化(BatchNormalization)层用于对对应卷积层输出的特征进行批量归一化。批量归一化注重对每个批次的特征数据进行归一化，保证数据分布一致。ReLu层用于对对应批量归一化层的处理结果采用Relu激活函数进行处理，将处理结果进行输出。

最大池化层用于接收第四个卷积单元的ReLu层处理结果并对其进行最大池化，将处理结果输出至全连接层。通过最大池化可以去除冗余特征，并将特征展平在一个维度。

全连接层用于对最大池化层的结果进行处理得到旋转参数R_v的6维张量，分别对应三个坐标轴的旋转参数和位移参数。

视角旋转模块根据接收到的旋转参数对任意视角动作序列进行视角旋转，得到旋转后的动作序列并发送给注意力学习模块。

记旋转参数为(α,β,γ,m,n,o)，其中α,β,γ分别为XYZ轴的旋转参数，m,n,o分别为XYZ轴的旋转参数。记动作序列中某一帧t中某一关节j的动作向量为S(t,j)，S(t,j)即为仅有XYZ轴坐标的3维向量。视角旋转的公式可以表示如下：

S_r(t,j)＝r(S(t,j)-d)

其中，S_r(t,j)表示视角旋转后的动作向量，r表示旋转矩阵，d＝[m,n,o]^T表示位移向量。

旋转矩阵r的具体表达式为：

r＝r_αr_βr_γ

其中：

·注意力学习模块

注意力学习模块用于采用注意力机制对旋转后的动作序列进行处理得到注意力矩阵，再采用注意力矩阵对旋转后的动作序列进行重要性加权，得到旋转加权后的动作序列发送给分类模块。注意力学习模块连接前后视角转换模块和分类模块，根据输入的旋转后的动作序列，学习到视角转换的注意力；根据后续的特征提取和动作分类，学习到动作识别的注意力。

注意力机制对于序列学习任务有很重要的作用，它可以有效地提高序列任务的系统性能。刚开始注意力最常使用在自然语言处理任务中，之后也慢慢渗透到了计算机视觉领域。在处理图像的注意力时，主流有两种方法，一种是空间的注意力，另一种是通道的注意力。对于第一种是直接提取一张图像的二维特征，细化到每个像素对于三个彩色通道其值是一样的，而第二种则与之相反。

结合到本发明的具体任务，需要提取动作序列的注意力。首先是在视角转换时，针对于任意视角和基准视角所学习到的转换注意力，即在该动作序列进行视角转换时一些重要的关节和帧；其次是在最后动作分类时，针对特征提取所学习到的分类注意力，即在该动作序列进行动作识别时一些关键的关节和帧。

如图2所示，本发明中注意力学习模块包括注意力学习网络和加权处理模块，其中注意力学习网络对旋转后的动作序列进行学习，得到注意力矩阵，加权处理模块根据注意力矩阵对旋转后的动作序列进行加权操作，得到旋转加权后的动作序列发送给分类模块。

图4是本实施例中注意力学习网络的结构图。如图4所示，本实施例中注意力学习网络模块是一种时空注意力网络，包括第一卷积层、第二卷积层、最大池化层(MaxPooling)、平均池化层(Average Pooling)和sigmoid层，其中：

第一卷积层的卷积核尺寸为3*3，步长为1，用于对输入的动作序列进行卷积操作，将得到的特征输出至第二卷积层。

第二卷积层的卷积核尺寸为3*3，步长为1，用于对接收到的特征图进行卷积操作，将得到的特征输出至最大池化层。

最大池化层用于对接收到的第二卷积层特征进行最大池化。

平均池化层用于对接收到的第二卷积层特征进行平均池化，将得到的特征与最大池化层得到的特征进行拼接，输出至第三卷积层。

第三卷积层的卷积核尺寸为1*1，用于对接收到的特征进行卷积操作，将得到的通道维度为1的特征输出至Sigmoid层。

Sigmoid层用于将从第三卷积层接收的特征中各元素的值转换到为(0,1)区间，得到注意力矩阵。

·分类模块

分类模块用于对旋转加权后的动作序列进行特征提取并进行动作分类，得到动作识别结果。如图2所示，本发明中分类模块包括动作特征提取模块和分类器，其中动作特征提取网络用于对旋转加权后的动作序列进行特征提取，将提取到的动作特征发送至分类器进行动作分类，得到动作类别的预测标签。

动作特征提取模块的具体结构可以根据需要设置，本实施例中采用的是图卷积神经网络，它可以处理图类的不规则数据如人体骨骼。由传统的卷积神经网络引申出的图卷积网络，图卷积方法可分为两种，基于频谱的方法和基于空间的方法。基于频谱的方法，从图信号处理的角度，引入滤波器来定义图卷积，因此基于频谱的图卷积可理解为从图信号中去除噪声。基于空间的图卷积方法，通过汇集邻居节点的信息来构建图卷积。当图卷积在节点级运作时，可以将图池化模块和图卷积进行交错叠加，从而将图粗化为高级的子图。

图5是本实施例中动作特征提取模块的结构图。如图5所示，本实施例中动作特征提取模块基于时空图卷积网络(STGCN)构建，STGCN是第一个将GCN应用到基于骨骼的动作识别中的算法，将人体动作序列构造成一个个骨骼图，再利用时空图卷积去学习其中的特征。本实施例中动作特征提取模块包括BN层和9个图卷积单元，其中：

BN层用于对输入的动作序列进行数据的归一化操作，将归一化后的动作序列发送给第一图卷积单元。

每个图卷积单元用于对输入的动作序列进行图卷积操作，将得到的特征图发送给后续图卷积单元，第九图卷积单元的输出即为富含高阶语义信息的动作特征。第一图卷积单元的输入通道维度是3，输出通道维度为64，图卷积的步长为1；第二个和第三个图卷积单元的输入通道维度为64，输出通道维度为64，图卷积步长为1；第四个图卷积单元的输入通道维度是64，输出通道维度为128，图卷积的步长为1；第五个和第六个图卷积单元的输入通道维度为128，输出通道维度为128，图卷积步长为1；第七个图卷积单元的输入通道维度是128，输出通道维度为256，图卷积的步长为2；第八个和第九个单元的输入通道维度为256，输出通道维度为256，图卷积步长为1。

本实施例中，采用一个全连接层作为分类器，即将动作特征提取模块中第九图卷积单元输出的特征在一个维度展平后输入全连接层，得到N维向量，其中N是动作类型数量。

S103：视角转换模块和注意力学习模块联合训练：

采用训练样本对视角转换模块和注意力学习模块进行联合训练。图6是本发明中视角转换模块和注意力学习模块联合训练示意图。如图6所示，本发明中视角转换模块和注意力学习模块联合训练的具体方法如下：

将任意视角动作序列S_v输入视角转换模块，经视角转换后得到旋转后动作序列S_r，输入注意力学习模块得到旋转加权后的动作序列S_Ar；将对应的基准视角动作序列S_g直接输入注意力学习模块，得到加权后的动作序列S_Ag；计算动作序列S_Ar和动作序列S_Ag之间的偏差作为视角损失，利用此损失训练视角转换模块和注意力学习模块。

本实施例中，采用动作序列S_Ar和动作序列S_Ag之间的KL散度作为视角损失。KL散度即信息损失，是两个概率分布差别的非对称度量。本实施例中视角损失L_v的计算公式如下式所示：

其中，P(i)表示本批次训练样本中第i个旋转加权后的动作序列

的信息熵，Q(i)表示本批次训练样本中第i个加权后的动作序列

的信息熵，i,i′＝1,2,…,B，B表示batch size。ω₁表示权重参数。

本实施例中视角转换模块和注意力学习模块联合训练时输入的动作序列batchsize为32，learning rate的初始值为0.0001，其衰减率为0.1，优化器使用Adam，设置最大训练epoch为100。

S104：注意力学习模块和分类模块联合训练：

采用训练样本对注意力学习模块和分类模块进行联合训练。图7是本发明中注意力学习模块和分类模块联合训练示意图。如图7所示，本发明中注意力学习模块和分类模块联合训练的具体方法如下：

将任意视角动作序列S_v输入采用步骤S103中训练好的视角转换模块，经视角转换后得到旋转后动作序列S_r，将旋转后动作序列输入注意力学习模块得到旋转加权后的动作序列S_Ar，然后输入至分类模块得到预测标签，计算该动作类别和步骤S101所标记的真实标签之间的偏差作为分类损失，利用此损失训练注意力学习模块和分类模块。

本实施例中采用经典的分类交叉熵来作为分类损失，分类损失L_C的计算公式如下式所示：

y＝{y₁,y₂,…,y_B′}

其中，y_j、

分别表示本批次训练样本中第j个任意视角动作序列动作类别的真实标签和预测标签，

表示本批次训练样本中第j个旋转加权后的任意视角动作序列经动作特征提取网络提取得到的特征，j,j′＝1,2,…,B′，B′表示batch size。ω₂表示权重参数。

本实施例中注意力学习模块和分类模块联合训练时输入的动作序列batch size为32，learning rate的初始值为0.0001，其衰减率为0.1，优化器使用Adam，设置最大训练epoch为100。

S105：动作识别：

对于待进行动作识别的人员，在任意视角拍摄其动作视频，进行骨骼序列提取并处理至预设长度，得到待识别动作序列，将待识别序列输入训练好的任意视角动作识别模型得到动作识别结果。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种任意视角动作识别方法，其特征在于，包括以下步骤：

针对每个视角下的骨骼序列生成对应的映射图像，映射方法如下：将骨骼序列的帧和每一帧的关节分别对应图像的横纵轴，关节的三维坐标对应图像的RGB通道；

视角转换模块包括卷积神经网络和视角旋转模块，其中卷积神经网络的输入为任意视角动作序列对应的映射图像，处理得到旋转参数发送给视角旋转模块；视角旋转转换模块根据接收到的旋转参数对任意视角动作序列进行视角旋转，得到旋转后的动作序列并发送给注意力学习模块；

2.根据权利要求1所述的任意视角动作识别方法，其特征在于，所述步骤S2中视觉转换模块中卷积神经网络包括四个级联的卷积单元、最大池化层和全连接层，其中：

每个卷积单元分别包括一个卷积层、一个批量归一化层以及一个ReLu层，卷积层用于对所接收到的图像进行卷积操作，第一个卷积单元和第三个卷积单元的卷积核个数都设置为128，卷积核的尺寸为5*5，步长为2；而第二个卷积单元和第四个卷积单元的卷积核个数都设置为128，卷积核的尺寸为3*3，步长为1；批量归一化层用于对对应卷积层输出的特征进行批量归一化；ReLu层用于对对应批量归一化层的处理结果采用Relu激活函数进行处理，将处理结果进行输出；

最大池化层用于接收第四个卷积单元的ReLu层处理结果并对其进行最大池化，将处理结果输出至全连接层；

3.根据权利要求1所述的任意视角动作识别方法，其特征在于，所述步骤S2中注意力学习网络包括第一卷积层、第二卷积层、最大池化层、平均池化层和第三卷积层，其中：

第一卷积层的卷积核尺寸为3*3，步长为1，用于对输入的动作序列进行卷积操作，将得到的特征输出至第二卷积层；

第二卷积层的卷积核尺寸为3*3，步长为1，用于对接收到的特征进行卷积操作，将得到的特征输出至最大池化层；

最大池化层用于对接收到的第二卷积层特征进行最大池化；

平均池化层用于对接收到的第二卷积层特征进行平均池化，将得到的特征与最大池化层得到的特征进行拼接，并输出至第三卷积层；

第三卷积层的卷积核尺寸为1*1，用于对接收到的特征进行卷积操作，将得到的通道维度为1的特征输出至Sigmoid层；

4.根据权利要求1所述的任意视角动作识别方法，其特征在于，所述步骤S2中动作特征提取网络包括BN层和9个图卷积单元，其中：

每个图卷积单元用于对输入的动作序列进行图卷积操作，将得到的特征图发送给后续图卷积单元，第九图卷积单元的输出即为富含高阶语义信息的动作特征；第一图卷积单元的输入通道维度是3，输出通道维度为64，图卷积的步长为1；第二个和第三个图卷积单元的输入通道维度为64，输出通道维度为64，图卷积步长为1；第四个图卷积单元的输入通道维度是64，输出通道维度为128，图卷积的步长为1；第五个和第六个图卷积单元的输入通道维度为128，输出通道维度为128，图卷积步长为1；第七个图卷积单元的输入通道维度是128，输出通道维度为256，图卷积的步长为2；第八个和第九个单元的输入通道维度为256，输出通道维度为256，图卷积步长为1。