CN111191630A

CN111191630A - 适用于智能交互观演场景的演艺动作识别方法

Info

Publication number: CN111191630A
Application number: CN202010013997.XA
Authority: CN
Inventors: 李绍彬; 蓝善祯; 张岳; 张晓晔; 王鹏程; 汪洋
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2020-05-22
Anticipated expiration: 2040-01-07
Also published as: CN111191630B

Abstract

本发明涉及一种适用于智能交互观演场景的演艺动作识别方法，依据定点摄像头摄录的定点画面，采用姿态估计算法进行单人的关节点检测，得到相关骨骼关键点在图像中的像素位置，建立时空图，依据时空图计算这些关节点之间的距离和角度特征，将这些特征送入到LSTM建模的结构化动作识别网络中学习动作特征，通过全连接层和Softmax函数进行动作识别。本发明能够识别演艺场景中定点位置的演员的细粒度动作，为后续的各种智能化操作奠定了基础。

Description

适用于智能交互观演场景的演艺动作识别方法

技术领域

本发明涉及适用于智能交互观演场景的演艺动作识别方法。

背景技术

基于人体姿态估计的动作识别技术主要分为两部分，首先对连续时刻下的视频帧进行定点位置单人人体关节点检测，得到的单个人的人体的关节点信息，然后将关节点信息作为动作识别网络的输入，由后续设计的动作识别网络自主地学习动作的特征，然后得到相应场景下动作类别。

目前人体动作识别深度学习技术主要有两大类解决思路，一是基于图像分类的方法，二是基于人体姿态分类的方法。基于图像信息的动作识别技术具有数据获取方便，特征信息丰富等优点，但这种方法受背景影响较大，目前主要用来识别粗粒度动作(跑步，打球，游泳等的区分)。基于人体姿态估计的动作识别算法以人体的骨骼点的时序变化作为动作特征，因此具有不受背景干扰、能够识别细粒度动作、识别精度高等优点。在演艺场景中，大多都是同一或者相似场景，在这种场景中，演员肢体的小范围动作属于细粒度动作范畴(手臂向上挥动，手臂向下挥动等的区分)。目前尚缺乏对演艺场景中细粒度动作的识别技术，现有技术识别精度不高，无法精确捕捉演员的动作特征，难以满足智能交互观演等场景下的识别和预测要求。

发明内容

为解决上述技术问题，本发明提供了适用于智能交互观演场景的演艺动作识别和预测方法，以能够精确识别演员等的细粒度动作，满足智能交互观演等场景下的识别和预测要求。

本发明的技术方案是：一种适用于智能交互观演场景的演艺动作识别方法。依据定点摄像头摄录的定点画面，采用姿态估计算法进行单人的关节点检测，得到相关骨骼关键点(或称关节点)在图像中的像素位置，例如，优选采用Head(头)、Torso(躯干)、LeftShoulder(左肩)、Right Shoulder(右肩)、Left Elbow(左肘)、Right Elbow(右肘)、LeftWrist(左腕)、Right Wrist(右腕)、Left Hip(左髋)、Right Hip(右髋)、Left Knee(左膝)、Right Knee(右膝)、Left Ankle(左踝)和Right Ankle(右踝)共14个关节点，建立时空图，依据时空图计算这些关节点之间的距离和角度特征，将这些特征送入到LSTM建模的结构化动作识别网络中学习动作特征，通过全连接层和Softmax函数进行动作识别。

优选通过注意力机制降低时空图中的连接冗余。

注意力(attention)机制在2014年由Mnih等人提出，一开始，提出注意力机制主要是因为卷积神经网络对大型的图片的处理计算量巨大，因此作者提出一个循环神经网络模型，能够从一张图片或者一段视频中提取信息，通过自主选择一系列区域(pitch)或者位置，使得网络只对选中的区域在高分辨率情况下进行处理，这样无疑减小了计算量，又使得网络更加“关注”重要区域。Song等基于骨架信息，采用长短期记忆网络(LSTM，Long Short-Term Memory)来搭建基础框架，用于学习有效的特征并且对时域的动态过程建模，实现端到端(End-to-End)的动作识别。时域注意力子网络(Temporal Attention)学习一个时域注意力模型来给不同帧分配合适的权值；空域注意力子网络(SpatialAttention)学习一个注意力模型来给每一帧中不同关节点分配合适的权值，作用于网络的输入关节点上。

本发明利用了两个数据集来验证该发明的可行性，其一为公开的关节点数据集J-HMDB，该数据集是一种粗粒度的动作数据集，包含21类动作。其二为自建太极拳动作数据集，相比于J-HMDB，该数据集的动作类间类内差异都较小，是一种细粒度的动作数据集，包含15类动作。

太极拳关节点的数据集构建过程可分为四个阶段：筛选、检测关节点、修改、数据处理。在筛选阶段，为防止动作类别不明确或错误的状况，简化后期工作，选出自遮挡较小、全身出镜的动作样本，再手动修改每一个动作样本的起始帧和结束帧，构建成太极拳动作的图像数据集；关节点检测阶段采用Alphapose算法，自上而下的关节点检测策略，首先利用人体检测器检测到人，然后将检测到的人的区域送入到另一个网络进行关节点检测；虽然前期已经手动筛选过了自遮挡严重的样本，但是关节点检测算法的性能有限，仍然会存在一些检测错误的关节点，这就需要手动地修改这些检测错误的关节点，选用Labelimg作为标注工具，进行关节点的修改标注工作，Labelimg是一款比较流行的免费图像标注工具，主要用来标注图像检测任务，其标注信息保存为XML文件，内容遵循Pascal voc格式，内容有标注框(boundingbox)坐标和类别信息。首先，将Alphapose算法的检测结果保存成Labelimg可以可视化的XML格式，然后利用Labelimg软件将XML文件可视化到相应的图片上，最后进行人工筛选，将检测错误的或者不准确的关节点进行手动修改(直接在Labelimg上面拖动错误的关节点到正确的位置即可)，软件可以将修改后的信息更新到对应的XML文件里；在数据处理阶段，将修改后的同一动作样本(一系列连续的视频帧)中的所有关节点信息(每一个动作样本的40几帧图片的关节点)按照时序存放在一个mat文件中(即一个mat文件包含了一个样本的所有关节点信息)。

针对动作识别任务，现有技术通常使用脊柱(spine)、左手(left arm)、右手(right arm)、左腿(left leg)、右腿(right leg)这五个人体关节点。本技术通过实验证明关节点的增加可以提高识别的准确率，因此将光节点增加到十个，分别为包括头部(head)、腹部(belly)、两个手肘(elbows)、两个手腕(wrists)、两个膝盖(knees)、两个脚踝(ankles)。

为了让数据集的关节信息更好地描述动作的特征，将关节点附近一小块区域的光流特征添加到时间边(Temporal Edge)的输入特征中。构建过程共有四个阶段：首先提取动作片段，由于数据集的视频中动作的变化幅度不大，可能连续的两帧不能提取出有效的光流图，因此对每个动作片段等间隔的抽取13帧图片，使得动作变化幅度增大，这样提取出来的光流图可以具有更好的动作表征力；然后提取光流图片，使用opencv提取每一段动作片段的光流图片(12帧光流图)并保存下来；由于光流图片是基于两帧视频帧计算的，对应的光流图片的关节点坐标可能会出现偏移，所以需要修改XML文件；最后根据得到的光流图片的关节点坐标，裁剪出每一张光流图中各关节点对应的小部分区域，但是，由于图片的尺寸都不一样，由此定义要裁减出来的区域面积为头部面积的四倍左右，其中，头部的宽度被定义为头部长度的一半。

得到人体的关节点之后，将人体的骨骼序列对应到时空图模型上来。时空图中的节点(Node)通常表示某一组件，而组件间的连接(Edge)捕获了节点的时空交互信息。动作的发生过程中，关节点之间的交互信息也可以用时空图序列捕捉。

时空图模型可以建模节点与节点之间的空间和时间关系，人体的动作可以看作是不同关节点之间随着时间流逝发生的空间变化，人体骨骼的每一个关节点都是时空图中的一个节点(Node)，关节点与关节点之间的连接为时空图中节点与节点之间的连接(Edge)，如图1(a)部分所示。

给定一个时空图结构，节点和边可以作为表征的特征向量，节点的特征向量所代表的是人体某一个关节点的运动特征，边所代表的节点与节点之间的交互特征，此时节点的动作特征受到节点和边的特征向量的影响，即受到节点自身的特征和该节点与其他节点之间交互特征的影响，整个一套构成了一个复杂的时空系统。将这些特征和交互信息因子化，得到因子化时空图如图1(c)所示。

时空图的结构不同，其所表征的动作特征也有所不同。同一时刻不同关节点之间的连接为时空边(Spatial-Temporal Edge)；相同关节点连续时刻之间的连接为时间边(Temporal-Edge)。根据人体动作的特点，胳膊和腿的运动与身体的躯干相关，而与彼此无关，Structural-LSTM人体关节点时空图对时空边采取特定连接的方式，胳膊和双腿的节点之间没有连接。但是为了提取一些动作的隐藏特征，例如判定一个动作不仅可以从动作的发出部位判定，其他部位的运动也会对判定结果产生一定的影响，因此不同于节点之间特定的连接方式，本技术提出采用任意两节点互联的方式，并通过实验证明将时空图中节点的特定连接方式改为两两互联之后，在大部分动作的识别精度上均有提升。

本发明动作识别阶段网络输入特征包括关节点之间的欧氏距离、关节点之间的相对距离和轨迹特征(Trajectory)。欧氏距离是一个应用广泛的距离度量，它表示空间中两个点之间在m维的真实距离，本技术分别计算了时空边和时间边的输入欧氏距离；利用关节点的相对位置关系比直接使用标准化后的关节位置更能准确地描述关节之间的几何关系特征，本技术的相对距离指其它关节点坐标相对于躯干关节点之间的相对欧氏距离，躯干关节点通过头部和腹部关节点得到；轨迹特征直观上相邻位帧之间位置的差异，本技术指前后3帧差距，因为帧间距过小可能导致轨迹由不完美的标注引起抖动。

动作识别网络使用从因子化时空图中抽象出来的Structural-LSTM网络。Structural-LSTM网络前传过程的详细结构图如图2所示。

为了让网络可以自主的选择有效的输入信息，我们在LSTM网络中加入Trust Gate机制。Trust Gate机制可以帮助LSTM网络更好地决定何时记住或忘记存储单元中的内容。具体来说，此机制会通过上下文信息分析关节点的可靠性，如果不可靠，网络自动地依赖于更多的历史信息；如果可靠，网络会根据输入信息自动更新其参数。实验证明，对于关节点之间的相互关系应该是改变缓慢，不会发生突变的动作能提升识别准确率。

本技术将时空图中关节点的连接方式改为两两连接的方式，增加了时空图中的边(edge)，在提高动作表征能力的同时也增加了冗余信息。根据人类在观察图像时注意力的高效分配机理，引入注意力模型使网络可以自动的关注贡献比较大的边(edge)，分配更高的权值，对没有贡献或者贡献比较小的边忽略或给予更小的权重。

为了更好地描述动作的特征，本技术将关节点附近一小块区域的光流特征添加到动作特征中。光流是空间运动物体在成像平面上运动时的瞬时速度。它使用时间域中图像序列中像素的变化和相邻帧之间的相关性来找出前一帧和当前帧之间存在的对应关系，从而计算相邻帧之间对象的运动信息。现有技术大多采用关节点自身或者彼此之间的距离、角度特征，忽略了序列本身的自带的运动特征，因此加入光流特征能更好地描述动作的运动特性。

为了得到关节点附近的光流特征，本技术使用卷积神经网络进行特征提取。卷积神经网络包括卷积层、池化层和全连接层。为了缩短训练特征网络所需时间，用已经在图像分类数据集ImageNet上训练好的模型当做初始化模型，并将特征提取任务分为两个阶段：首先针对每一类动作对网络进行微调(预训练网络参数的微调，是网络更加适应当前的数据集)；然后利用微调后的网络进行光流特征的提取，这样提取的光流特征更具有表征能力。

本发明的有益效果是：由于采用了时空图和LSTM建模的结构化动作识别网络，能够识别演艺场景中定点位置的演员的细粒度动作，为后续的各种智能化操作奠定了基础。

附图说明

图1是本发明涉及的时空图，其中，(a)为动作的时空图结构，(b)展开的时空图结构，(c)为因子化的时空图；

图2是本发明涉及的Structural-LSTM网络前传过程的详细结构图；

图3是本发明涉及的整体网络结构图。

具体实施方式

参见图1-3，本发明基于LSTM建模的结构化动作识别网络。近年来，人们对视频中人体动作识别做了大量研究，其中循环神经网络(Recurrent Neuron Network，RNN)是一种对序列数据建模的神经网络，在处理序列信息中具有明显的优势，能够有效挖掘数据中的时序信息以及语义信息的深度表征。

不同于传统的FNN(Feed-forward NeuralNetworks，前向反馈神经网络)，RNN引入了定向循环，能够处理相关输入之间前后关联的问题，即一个序列经过网络处理后，当前时刻的输出与前面时刻的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，隐藏层之间的节点不再是类似于卷积网络那种无连接的，而是隐藏层的神经元之间存在着连接，并且网络隐藏层的输入不仅包含输入层的输出，还包括上一时刻网络隐藏层的输出。给出输入集标记为{x⁰,...,x^T-1}，其隐藏单元(Hidden Units)标记{h⁰,...,h^T-1}，一个简单的RNN网络的输出{y⁰,…,y^T-1}可以通过下列公式进行计算：

h_t＝H(W_xhx_t+W_hhh_t-1+b_h)

z_t＝O(W_hoh_t+b_o)

其中，x_t表示时刻t时候的输入，h_t为隐藏层第t步的状态，是网络的记忆单元，h_t根据当前的输入和上一步隐含层的输出进行计算，z_t表示第t步的输出，W_xh表示输入层x到隐藏层h的连接权重矩阵，W_hh表示隐藏层h到自身的连接权重矩阵，W_ho表示隐藏层h到输出层y的连接权重矩阵，b_h和b_o分别是相应的偏置向量，H(·)和O(·)分别是隐藏层和输出层的激活函数。

由于传统的RNN反向梯度传播的消失问题不能建立长时间的依赖信息，人们又提出了长短时记忆神经网络(Long Short Term Memory Networks，LSTM)。LSTM是在标准RNN的基础上装备了若干个控制数级(magnitude)的gates(门)，用来控制信息的流动量。其中，输入门(inputgate)通过学习来决定网络的当前输入x_t有多少保存到存储单元c_t，而输出门通过学习来控制单元状态c_t有多少输出到LSTM的当前输出值h_t，遗忘门通过学习来决定上一时刻的单元状态c_t-1有多少保留到当前状态c_t，让梯度反向传播时能够传递到多层后，很好地解决了传统的RNN网络留有的梯度消失或爆炸问题。

LSTM的计算公式如下所示：

遗忘门f_t:f_t＝g(W_xfx_t+W_hfh_t-1+b_f)

其中，W_xf是输入到遗忘门f_t的连接权重，W_hf是上一时刻的隐藏状态到遗忘门f_t的连接权重，g(·)一般是sigmoid激活函数。

输入门i_t：i_t＝g(W_xix_t+W_hih_t-1+b_i)

同样，W_xi是输入到输入门i_t的连接权重，W_hi是上一时刻的隐藏状态到输入门i_t的连接权重，g(·)一般是sigmoid激活函数。

输出门o_t：o_t＝g(W_xox_t+W_hoh_t-1+b_o)

同样，W_xi是输入到输出门o_t的连接权重，W_ho是上一时刻的隐藏状态到输出门o_t的连接权重，g(·)一般是sigmoid激活函数。

LSTM的细胞单元在每一步迭代都需要更新期状态，首先计算的是当前输入的单元状态c_{in_t}：

c_{in_t}＝tanh(W_xcx_t+W_hch_t-1+b_{c_in})

其中，W_xc是输入到当前输入的单元状态c_{in_t}的连接权重，W_hc是上一时刻的隐藏状态到当前输入的单元状态c_{in_t}的连接权重，这里使用的激活函数为tanh。

当前时刻的单元状态c_t由上一时刻的单元状态c_t-1按元素乘以遗忘门f_t，再用当前输入的单元状态c_{in_t}按元素乘以输入门i_t，再将两个结果加和产生：

c_t＝f_t⊙c_t-1+i_t⊙c_{in_t}

LSTM网络的最终的输出，是由输出门和单元状态共同确定的：

h^t＝a^t.tanh(c^t)

在艺术表演中，人体的某一部分(手臂、腿等)具有单独的动作，但同时也应有彼此的协同，才能产生现实中合理的运动和姿态，在此情形下，将高级时空结构和丰富的序列建模功能结合在一起是非常必要的。

时空图是一种流行的表示高层次的时空结构，通常由节点(node)和节点之间的连接边缘(edge)构成，其中节点(node)通常表示某一组件，而节点之间的连接边缘(edge)则用于捕获节点之间的时空交互。将人体的骨骼序列对应到时空图模型上来，可以用时空图序列捕捉表演者动作的发生过程中关节点之间的交互信息。

参见图1，将人体的关节点定义为时空图中的节点(node)，关节点之间的连接为时空图中的连接(edge)。

时空图可以表示为：

G=(V,ξ_S,ξ_T)

其中V表示时空图中节点的集合，ξ_S为时空边(spatial-temporal edge)或称空间边(spatial edge)，表示在当前时刻不同节点之间的连接(edge)，ξ_T为时间边(temporaledge)，表示不同时刻相同节点之间的连接(edge)。

图1(a)是一个动作中关节点之间的(以三个节点为例)时空图结构，图中的节点v,u,w∈V，边(edges，包括直线部分与曲线部分)e∈(ξ_S∪ξ_T)。

图1(b)是将图1(a)沿着时间轴展开后的结构，在这种展开的时空图中，同一时刻不同节点之间通过时空边(spatial-temporal edge)ξ_S连接时e＝(u,v)∈ξ_S；连续时刻相同节点通过时间边(temporal edge)ξ_T连接时e＝(u,v)∈ξ_T。

如图1(b)所示，当给定一个时空图结构以及节点

和边

所表征的特征向量时，节点(node)

的特征向量所代表的是人体某一个关节点的运动特征，边(edge)

的特征向量所代表的节点与节点之间的交互特征。

表示要预测的在时刻t节点v的动作特征，由于节点的动作特征

受到节点

和边

的特征影响，即受到节点自身的特征和该节点与其他节点之间交互特征的影响，构成了一个复杂的时空系统。通过将这些特征和交互信息因子化，整个时空图就能够通过一些简单的公式表示出来。图1(c)所示的是图1(a)因子化后的时空图结构，因子化后的时空图对于每一个节点

都有一个因子化方程Ψ_v(Y_v,X_v)，对每一条边

都有成对因子化方程Ψ_e(Y_e(1),Y_e(2),X_e)。其中ψ(·)表示因子函数，通过将交互信息参数化从而将复杂函数简单化X_v,Y_v分别表示节点和节点上要预测的动作特征，X_e,Y_e(1),Y_e(2)分别表示边和需要预测的一条边上成对的动作特征。

为了在不增加参数数量的情况下能处理更多的节点，该模型允许语义相似的节点共享因子。因此，根据语义意义将节点划分为C_V＝{V₁,…,V_P}，V_P为一组语义相似的节点，它们使用相同的节点因子。对边缘进行语义划分，C_E＝{E₁,…,E_M}，E_M是节点构成语义对的一组边，E_M中的所有边有相同的边因子

其中C表示按语义划分，V表示节点(node)，E表示边(edge)，P和M分别表示若干组节点和边。

采用长短时记忆(LSTM)网络来表征上述因子化方程，每一个节点的因子化方程

用一个LSTM网络模块来表征，该模块称为nodeLSTM，记作

同理，每一条边(edge)的因子化方程

用一个LSTM网络模块来表征，该模块称为edgeLSTM，记作

为了得到结构化的网络，将edgeLSTM和nodeLSTM连接起来构成一个二分图:

实现上述连接的前提是时空图中有一层间接连接关系，比如图1(c)中的Ψ_u以及Ψ_uv、Ψ_uu、Ψ_uw等，它们都与V_u这个节点连接，由此，可以将时空图节点之间的交互行为可以表示为一个结构化的LSTM网络，称为Structural-LSTM(参见图2)。

图2是Structural-LSTM网络前传过程的详细结构图，该前传过程包括

(时空边，spatial-temporal edge)以及用于表征每一条时间边(temporal edge)因子化方程的LSTM网络模块

(时空边，spatial edge)，节点u与其他两个节点v、w相互交互，节点上的

的输入是时空边(spatialtemporal edge)和时间边(temporal edge)的输入的连接。

每一个nodeLSTM综合处理所有与之相连的edgeLSTM，获取与之相关的特征来表示单帧人体的动作特征。

该过程可抽象成算法1，如下：

输入：时空图G＝(V,ξ_S,ξ_T)，节点V＝{V₁,…,V_P}，时间边ξ_T，空间边ξ_S。

输出：Sturctural-LSTM网络

1.不同类型的边

2.得到g_R中的每一个因子化方程

3.使用

表示

4.使用

表示

5.连接

和

组成二分图。

图3是整体的网络结构图，将Sturctural-LSTM的结果通过一个全连接分类层输出动作分类结果。

关节点之间的欧式距离：

欧氏距离(euclidean distance)定义：欧氏距离(euclidean distance)是一个普遍应用的距离度量，表示空间中两个点之间在m维的真实距离。

二维平面上两个点A(x₁，y₁)和B(x₂，y₂)的欧式距离:

计算两个输入特征，一个为时空边

的输入特征，一个为时间边

的输入特征。

时空边

的输入特征：

其中，

为t时刻的节点V₁的坐标；对应的，

为t时刻的节点V₂的坐标。

时间边

的输入特征:

其中，

为t时刻的节点V₁的坐标，

为t+1时刻的节点V₁的坐标。

关节点的相对距离：

利用关节点之间的相对位置关系描述它们之间的几何关系的特征比直接使用标准化后的关节位置更好。因此，采用关节点的相对距离系(其他关节点的坐标与躯干torso关节点之间的相对欧式距离)作为时间边

的输入特征。

若躯干(torso)关节点坐标在数据集中不存在，可以通过头部(head)和腹部(belly)关节点计算得到：

将所有关节点与躯干(torso)关节点之间计算相对距离，以头部(head)节点与躯干(torso)节点的相对距离为例：

再按照关节点之间欧氏距离的计算方法，计算出相邻帧之间同一关节点的距离特征。

时间边

的输入特征：

相关具体计算方式可依据空间边的相关方式。

轨迹特征(Trajectory)：

对于轨迹特征(Trajectory)，直观来看，是两个相邻(或相间)帧之间位置的差异，可以使用时刻t和时刻t+s帧之间的差异。

将沿x和y坐标的差异视为单独的两个特征，相比把它们作为一整个描述符会拥有更好的效果，该特征可以表示为：

(f_t+s-f_t，...，f_t+ks-f_t+(k+1)s)

其中，优选s＝3。对于小s，轨迹可能由不完美的标注引起抖动，而较大的s会显示更加″真实″的运动。

区别于Bottom-up的方式，本发明所用姿态估计算法以Top-down方式进行的，首先使用人体检测器检测到图像中的人，并且将之框出来，然后将框到的人从原图中抠出来送入到全卷积网络进行回归单人的关节点位置，最终网络的输出以热图(heatmap)的方式呈现，通过非极大值机制得到关节点的位置，最后通过裁剪出来的图片与原始图片的位置对应关系，得到关节点在原始图片中的位置。

可以在现有公开的数据集(例如关节点数据集J-HMDB)以及现有表演样本集的基础上构建或优化适应于本发明目的的演艺动作关节点数据集，也可以采集演艺视频、图片等作为数据集的样本原型，挑选关节部分遮挡比较小、全身都出镜的若干类动作样本，可以手动修改每一个动作样本的起始帧和结束帧，构建成演艺动作的图像数据集。但因为标注任务很繁重，为了减轻标注人员的工作量，先利用现有关节点检测算法进行关节点的初步检测，例如，Alphapose算法。

Alphapose是一个精确的多人姿态估计器。首先通过目标检测算法，得到人体的区域框。然后将该区域框输入到STN+SPPE模块中，自动检测人体姿态。在单人检测任务(SPPE)结构上添加SSTN(对称空间变换网络，Symmetric Spatial Transformer Network)，能够在不精准的区域框中提取到高质量的人体区域。最后再通过PP-NMS(Parametric Pose Non-Maximum-Suppression-NMS，参数化姿态非最大抑制)去除冗余姿态。

由于现有技术下关节点检测算法的性能还是有限的，仍然会存在一些检测错误的关节点，优先手动地修改这些检测错误的关节点，可以选用Labelimg等适宜的标注工具进行关节点的修改标注工作。Labelimg主要用来标注图像检测任务，其标注信息保存为XML文件，内容遵循Pascal voc格式，内容有标注框(boundingbox)坐标和类别信息，由于标注框需要两个点(框的左上角点和右下角点)进行确定，而本发明涉及的关节点只需要一个点，因此可以将一个关节点看作是一个″框″，只不过这个″框″的左上角点和右下角点是相同的点，修改后同一动作样本(一系列连续的视频帧)中的所有关节点信息按照时序存放在一个mat文件中，因此，一个mat文件包含了一个样本的所有关节点信息。

为了更好地描述动作的特征，将关节点附近一小块区域的光流特征添加到时间边(temporaledge)

的输入特征中。可以将每一个动作片段先等间隔的抽取为若干帧图片(例如，13帧)，使得动作变化幅度增大，这样提取出来的光流图可以具有更好的动作表征力。可以使用OpenCV提取每一段动作片段的相应光流图片并保存下来。

因为光流图片是基于两帧视频帧计算的，对应的光流图片的关节点坐标可能会出现偏移，可以利用两帧视频帧对应的关节点坐标计算得到光流图片的关节点坐标，根据得到的光流图片的关节点坐标，裁剪出每一张光流图中各关节点对应的小部分区域。由于图片的尺寸都不一样，可以定义要裁减出来的区域面积为头部面积的四倍左右。

可以结合Kinect相机等可以获取人体骨架信息的设备，实现动作的实时识别，实现表演者或观演者与观演空间的智能互动。

在观演空间中，本发明可以通过识别表演者的动作切换舞台背景或控制舞台背景中的元素，实现表演者和舞台背景的自动交互。改变传统定时定点切换背景时易出错的弊端。

在表演过程中可以根据表演内容及舞台特点切换灯光效果，实现更真实的观演效果。

通过识别表演者或观演者的动作可以实现对观演空间中布景或舞台设施的控制。

本发明的主要创新性包括：

(1)自建15类细粒度太极拳动作关节点数据集。包括每一帧的关节点坐标以及关节点所对应的小范围(头部面积的4倍)区域的光流图。

(2)探索不同时空图结构对动作的表征能力。逐步增加关节点，对时空图中节点的不同连接方式进行实验，并在开放数据集J-HMDB和自建的太极拳动作数据集上进行了验证。实验表明，随着增加关节点和改善连接方式，两个数据集上的识别率均有所提高。

(3)添加Trust Gate机制降低关节点位置误差对动作表征力的影响；引入注意力机制降低时空图中的连接冗余；增加关节点附近区域的光流特征提高了动作的表征能力。上述改进丰富了动作特征，增强了网络对动作的表征力，提升了识别精度。

Claims

1.一种适用于智能交互观演场景的演艺动作识别方法。依据定点摄像头摄录的定点画面，采用姿态估计算法进行单人的关节点检测，得到相关骨骼关键点在图像中的像素位置，建立时空图，依据时空图计算这些关节点之间的距离和角度特征，将这些特征送入到LSTM建模的结构化动作识别网络中学习动作特征，通过全连接层和Softmax函数进行动作识别。

2.如权利要求1所述的方法，其特征在于通过注意力机制降低时空图中的连接冗余。