CN110555387B

CN110555387B - 骨架序列中基于局部关节点轨迹时空卷的行为识别方法

Info

Publication number: CN110555387B
Application number: CN201910711578.0A
Authority: CN
Inventors: 张洪博; 张翼翔; 杜吉祥; 雷庆
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2019-08-02
Filing date: 2019-08-02
Publication date: 2022-07-19
Anticipated expiration: 2039-08-02
Also published as: CN110555387A

Abstract

本发明属于人工智能技术领域，公开了一种骨架序列中基于局部关节点轨迹时空卷的行为识别方法，自输入的RGB视频数据和骨架关节点数据中提取局部关节点轨迹时空卷；利用基于RGB视频数据集的预训练模型提取图像特征；对训练集中每个关节点的每一种不同的特征分别构建码本并且分别进行编码，将n个关节点的特征串联为特征向量；利用SVM分类器进行行为分类与识别。本发明将手工特征以及深度学习特征融合，并使用深度学习方法提取局部特征，多种特征的融合可以达到一个稳定且准确的识别率；本发明使用姿态估计算法估计的2D人体骨架以及RGB视频序列提取特征，成本较低，且精度较高，应用于真实场景有着重要的意义。

Description

骨架序列中基于局部关节点轨迹时空卷的行为识别方法

技术领域

本发明属于人工智能技术领域，尤其涉及一种骨架序列中基于局部关节点轨迹时空卷的行为识别方法。具体为一种RGB和2D骨架序列中基于局部关节点轨迹时空卷的行为识别方法。

背景技术

目前，业内常用的现有技术是这样的：

随着人工智能技术的发展，以及政府和产业界的投入增多，人工智能产业蓬勃发展，成为当今科学研究的热点。人工智能应用的普及对社会的影响日益凸显，在智能交通、智能家居、智能医疗等民生领域都有着积极的影响。人工智能作为新一轮科技革命的核心力量，推动着国家的进步。行为识别作为人工智能领域的一个分支，同样起着重要的作用。

由于监控设备的普及，产生了大量的视频数据，依赖人工分析海量数据变得尤为困难，行为识别技术的出现，可以快速以及准确的分析视频中人物动作以及突发事件，并快速反馈。因此，很大程度的节省了人力资源，避免紧急情况发生和事态恶化。行为识别关键技术在于如何准确定位目标区域，如何获取鲁棒的行为特征以及准确分类。目前已经提出许多方法，这些方法可以分为基于RGB视频数据，基于深度数据方法，基于骨架数据以及基于多种数据融合的方法。基于骨架数据的方法可以实现目标的快速定位，免去目标定位的步骤，大大提高了算法的效率。并且，随着深度传感器的普及以及一些实时姿态估计算法的出现，基于骨架数据的方法引起了广泛的关注。

首先，在许多基于骨架的行为识别方法中，使用深度信息解决该问题是主流方法。这种方法将人体骨架关节点置于三维空间中，因此骨架具有水平，垂直和深度三个方向的坐标。在视频的每一帧中，每一个关节点都有其对应的三维坐标。人体骨架关节点位置随着时间的变化而变化。许多方法通过分析关节点之间的相对位置，帧间同一关节点的相对位置或者关节点夹角变化对行为进行建模。尽管使用深度数据取得了较好的识别精度，但是由于深度探测器成本较高，并且应用于场景复杂的真实户外场景准确率较低，导致这些方法难以应用于真实场景。

近来，实时人体姿态估计算法的出现，使得从RGB图像序列中直接提取骨架信息变得可能，使用RGB图像序列和2D骨架信息也可以构建紧凑高效的特征。这对行为识别技术应用于真实场景有着重要的意义。

其次，大部分基于骨架的方法使用全局关节点轨迹计算特征，全局的关节点轨迹记录了关节点位置在完整视频中的变化。但是全局特征会受视角变化，动作执行速率变化等因素的影响严重，因此难以对时间信息进行建模。

目前，improved dense trajectory(iDT)方法与本发明较为相似，iDT方法首先在人体区域，通过划分网格的方式在图片的多个尺度上分别密集采样兴趣点并逐帧跟踪点来获取关键点轨迹，为了避免跟踪时出现漂移现象，每隔L帧进行重新采样和跟踪。对于某个特征点在连续的L帧图像上的位置即构成了一段轨迹，后续的特征提取沿着各个轨迹在各个尺度上分别进行。轨迹本身可以构成轨迹形状特征描述子，因此轨迹的位置也作为特征之一。此外，还使用了表征运动信息和表观信息的HOG,HOF,MBH特征，特征是由沿着每一个特征点长度为L的轨迹计算得到。对于一段视频，存在着大量的轨迹，每段轨迹都对应着一组特征(trajectory,HOG,HOF,MBH)，之后再对所有关键点轨迹的特征进行编码，得到编码后的特征向量，最后进行的视频分类。

综上所述，现有技术存在的问题是：

(1)利用深度信息的基于骨架的行为识别方法由于深度探测器成本较高，并且应用于场景复杂的真实户外场景准确率较低，难以应用于真实场景。

(2)使用全局关节点轨迹计算特征的骨架识别方法难以对时间信息进行建模。

(3)iDT方法需要密集采样并且跟踪人体区域的兴趣点，大量的采样使得轨迹冗余。不仅消耗内存，而且算法的时间复杂度急剧上升。

(4)现有的技术对全部轨迹点的特征进行编码，但事实上，同一类动作的相同关节点的分布应该一致，对关节点轨迹特征单独编码更加合理。

解决上述技术问题的难度：

(1)基于全局的关节点轨迹特征会受到行为执行的速率，视角变换以及交互物体的影响，能否判断交互物体，对识别准确率也有较大的影响。

(2)由于特征的维度取决于视频的长度而且视频长度各不相同，这就导致了每个视频的关节点轨迹长度和其特征维度不相同。但是，后续的特征分类要求每个视频样本的特征维度相同。

解决上述技术问题的意义：

行为识别广泛应用于智慧医疗，智能视频监控，异常事件检测，病人监护系统，虚拟现实，智能安防，运动员辅助训练等多个领域。准确且高效的进行行为识别是以上应用的关键技术。

本发明解决以上技术问题带来以下意义：首先，RGB视频数据方便获取，骨架数据由于姿态估计算法的成熟也容易得到，因此本方法在数据获取方面成本较低。其次，使用人体关节点作为关键点，降低了算法的时间复杂度。最后，使用分关节编码特征的方式提高了准确率。对实现真实场景中的行为识别有着重要的意义。

发明内容

针对现有技术存在的问题，本发明提供了一种骨架序列中基于关节点轨迹时空卷的行为识别方法。

本发明是这样实现的，一种RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别方法，所述RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别方法包括以下步骤：

步骤一，自输入的RGB视频数据和2D骨架序列中提取局部关节点轨迹时空卷。

步骤二，利用基于RGB视频数据集的预训练模型提取图像梯度直方图特征(HOG)，光流直方图特征(HOF)，运动边界直方图特征(MBH)，以及3D卷积神经网络特征(C3D)四种特征。

步骤三，对训练集中每个关节点的每一种不同的特征分别构建码本并且分别进行编码，将n个关节点的四种特征串联为骨架关节点的特征向量。关节点特征的维度是2*C*(L_hog+L_hof+L_mbh+L_c3d)*n，其中，n是骨架关节点的数量。

步骤四，训练线性SVM分类器，进行行为分类与识别。

进一步，步骤一中，所述自输入的RGB视频数据和2D骨架序列中提取局部关节点轨迹时空卷具体包括：

(1)将输入的RGB视频序列以及2D人体骨架序列数据表示为帧-关节点数据对：D＝{<f₁,s₁>,<f₂,s₂>,…,<f_T,s_T>}。

其中，f_t是视频中的第t帧，在第t帧的人体骨架表示为s_t，T代表视频的总帧数。将人体骨架视为关节点的集合

其中，

是骨架的第i个关节点，n是关节点的总数量(n＝20)。关节点位置可以表示为

(2)将视频中每个关节点J_i的轨迹定义为关节点位置在时间上变化的序列，

在视频的每一帧中，提取以关节点为中心的局部图像区域。对于任一关节点i，都有一个局部图像的时间序列，

其中

是第i个关节点在视频的第t帧周围的图像区域，大小为64*64。

(3)图像时间序列V_i拆分为几个相同长度的短片段，称为LJTV。

(4)输入数据转换为n个LJTV的集合，n个关节点对应于这n个集合，则输入数据可以定义为：

D＝{V₁,V₂,…,V_i,…,V_n}

V_i＝{v_i1,v_i2,…,v_i1,…,v_im}

其中，m是每个关节点的LJTV数量，

代表一个LJTV，k是LJTV的长度，m＝T/k，将k设置为15；在同一视频中，n个关节点的LJTV数量都是相同的。

进一步，步骤二中，所述特征提取具体包括：

将LJTV拆分为nt*nx*ny个单元体，nt是LJTV在时间方向上划分的数量，nx和ny是LJTV在图像坐标系下水平和垂直方向上划分的数量；nt＝3，nx＝2，ny＝2；

在每一个细胞体中计算HOG，HOF，MBH和C3D特征；然后将LJTV中的细胞体串联，得到LJTV的特征。

进一步，步骤四中，所述行为分类与识别具体包括：

本发明的另一目的在于提供一种实施所述RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别方法的RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别系统。

本发明的另一目的在于提供一种RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别程序，所述RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别程序实现所述的RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别方法。

本发明的另一目的在于提供一种实现所述RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别方法的信息数据处理终端。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别方法。

综上所述，本发明的优点及积极效果为：

本发明将手工特征(HOG,HOF,MBH)以及深度学习特征(C3D)融合，并且创造性的使用深度学习方法提取局部特征，多种特征的融合可以达到一个稳定且准确的识别率。

本发明与iDT方法有以下区别：

(1)iDT方法需要密集采样并且跟踪人体区域的兴趣点，而本发明LJTV使用骨架关节点作为兴趣点，骨架数据已给出视频中每帧的关节点位置。因此，本发明无需频繁大量的采样，也无需逐帧跟踪关键点获取轨迹。

(2)本发明结合传统手工特征和深度学习特征。

(3)iDT方法的特征编码方式是将所有兴趣点轨迹的特征进行编码，本发明对关节点分别编码。

本发明与现有技术的对比：

(1)由于三维骨架信息的获取需要深度探测器，但是深度探测器成本较高，且真实场景的背景和目标较为复杂，因此将深度探测器应用于真实场景极为困难，识别准确率也无法保证。而本发明使用姿态估计算法估计的2D人体骨架以及RGB视频序列提取特征，成本较低，且精度较高。这对行为识别技术应用于真实场景有着重要的意义。

(2)基于全局的关节点轨迹特征会受到行为执行的速率，视角变换以及交互物体的影响，在图7(a)中，执行动作都是“喝水”，但是，由于视频长度的不同和动作执行速率的不同导致了手部关节点轨迹的长度和频率存在差异。图7(b)中，执行动作相同，由于相机相对于两个执行者的角度不同，所有相同关节点的轨迹仍然存在差异。此外，在图7(c)中，执行动作分别为“喝水”和“打电话”，但是手部关节点轨迹却极为相似，所以判别这两个动作的关键信息是与手部交互的物体，因此能否判断交互物体，对识别准确率也有较大的影响。

为了克服上述问题，本发明设计了一种基于人体骨架的鲁棒的行为表示方法。本发明将2D骨架关节点作为兴趣点，提出了基于2D骨架的局部关节点轨迹时空卷(LJTV)。局部的关节点轨迹是短时的动作片段，是由全局轨迹拆分而成，在每一个短时的动作片段中，动作执行速率和视角的变化相对微弱。采用这样的局部特征，因此对识别带来的影响将会极大的减少。另外，为了获取关节点的表观特征和运动特征以及获取可以判别交互物体的关键信息，对于每一个局部的短时轨迹，在视频的每一帧中抽取关节点周围的图像区域，随后在LJTV中，提取特征。

(3)由于特征的维度取决于视频的长度而且视频长度各不相同，这就导致了每个视频的关节点轨迹长度和其特征维度不相同。但是，后续的特征分类要求每个视频样本的特征维度相同。

而本发明在提取特征后，通过局部特征编码的方法将特征进一步量化为统一的，固定维度的行为特征，解决了上述问题。

(4)已有的方法将全部关键点的轨迹进行编码。但在fisher编码中，fisher向量表示在某些概率模型上特征集的信息分布。由于对于同种动作的同一关节点，他们运动的变化模式相同，所以同种动作同种关节点应该服从同种分布。分别对关节点进行特征编码可以更准确和高效的表示行为。另一方面，许多方法证明，通过一定的策略选择判别力关键点会得到更好的结果，本发明使用分关节点编码便于后续选择判别力关节点。

(5)现有的许多方法，通过采样大量的兴趣点和其轨迹来获得关键判别力信息，这些方法类似于穷举，因此大部分信息是冗余的。关节点运动轨迹可以很好的反映人体行为，是人体行为的一个精简表示。

而本发明仅仅使用15-25个人体骨架关节点作为兴趣点，极大减少了轨迹的数量。因此本发明在减少算法复杂度，时间复杂度的同时保持较高的准确率。

本发明的优点还包括：

(1)本发明使用骨架关节点而非密集采样的关键点，本发明识别准确率为73.75％，密集采样方法的准确率为68.13％，由此可知，本发明使用的特征更紧凑，高效。

(2)多种特征融合的结果如表1所示，表中列出了本发明单独使用手工特征以及融合多种手工特征的结果，编码方式为所有关节点整体编码。HF表示手工特征。融合后的特征与单特征相比都有较大的提升。

表1

方法	准确率(％)
		LJTV+HOG	43.13
LJTV+HOF	60.00
		LJTV+MBH	59.38
LJTV+HF	73.75

(3)本发明采用分关节点编码的方式，因此可以后续选择判别力关节点以达到更好的结果。表2列出了使用手工特征的一些对比实验，首先对比了分关节点特征以及整体编码特征的结果。其中，分关节的编码准确率为75.63％，整体关节点编码的准确率为73.75％，可以看出分关节点编码的方式远比整体编码的结果好。其次，对比了选择关节点策略不同带来的结果差异，选择上半身关节点分类最好结果为80％，C为码本聚类数量。

表2

(4)单独使用C3D特征，整体编码的准确率为61.88％，使用分关节点编码准确率最高为为70.63％，表3列出了使用不同预训练模型的结果对比。

表3

(5)使用四种手工特征及C3D特征，采用分关节编码的方式结果如表4。最好结果为使用Sport1M作为C3D特征提取模型，使用上半身关节点分类的结果，84.38％。

表4

LJTV+WholeJoints+HF	75.63
		LJTV+UpperJoints+HF	79.38
LJTV+WholeJoints+FusionFeature(UCF101)	79.38
		LJTV+UpperJoints+FusionFeature(UCF101)	83.13
LJTV+WholeJoints+FusionFeature(Sprort1M)	80.63
		LJTV+UpperJoints+FusionFeature(Sprort1M)	84.38

(5)本发明与其它方法对比结果如表5所示，表中列举了不同模态数据输入的方法准确率。

本发明还具备以下积极效果：

本发明使用2D人体骨架以及RGB视频数据，而非使用深度数据，避免了使用深度探测器带来的高成本，更利于本发明应用于真实场景。

本发明使用10个骨架关节点轨迹即可完成行为识别，极大减少了算法的时间复杂度，以及运算量，

本发明采用局部特征，解决了行为识别中遇到的视角变换等问题，同时获取了判别交互物体的关键信息。

本发明结合三种手工特征及一种深度学习特征得到鲁棒的行为特征，四种特征可以很好的表征轨迹的表观信息和行为信息。因此，可以得到稳定，准确的识别率。

本发明对关节点分别进行特征编码，这种编码方式理论上更合理，也便于后续选择判别力关节点。实验结果也证明识别准确率比所有特征全部编码的准确率高。因此可以更准确和高效的表示行为。

附图说明

图1是本发明实施例提供的RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别方法流程图。

图2是本发明实施例提供的RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别方法原理图。

图3是本发明实施例提供的fishervector对每个关节点编码过程示意图。

图4是本发明实施例提供的计算手工特征流程图。

图5是本发明实施例提供的人体骨架结构示意图。

图6是本发明实施例提供的C3D架构图。

图7是本发明实施例提供的基于骨架的行为识别面临的问题效果示意图。

图中：(a)动作相同，执行速率不同；(b)动作相同，视角不同；(c)动作不同，轨迹相似。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

利用深度信息的基于骨架的行为识别方法由于深度探测器成本较高，并且应用于场景复杂的真实户外场景准确率较低，难以应用于真实场景。使用全局关节点轨迹计算特征的骨架识别方法难以对时间信息进行建模。iDT方法需要密集采样并且跟踪人体区域的兴趣点。

为解决上述问题，下面结合附图对本发明的技术方案作详细说明。

如图1所示，本发明实施例提供的RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别方法包括以下步骤：

S101，自输入的RGB视频数据和2D骨架序列中提取局部关节点轨迹时空卷。

S102，利用基于RGB视频数据集的预训练模型提取图像梯度直方图特征(HOG)，光流直方图特征(HOF)，运动边界直方图特征(MBH)，以及3D卷积神经网络特征(C3D)四种特征。

S103，对训练集中每个关节点的每一种不同的特征分别构建码本并且分别进行编码，将n个关节点的四种特征串联为骨架关节点的特征向量；关节点特征的维度是2*C*(L_hog+L_hof+L_mbh+L_c3d)*n，其中，n是骨架关节点的数量。

S104，训练线性SVM分类器，进行行为分类与识别。

步骤S101中，本发明实施例提供的自输入的RGB视频数据中提取局部关节点轨迹时空卷具体包括：

(1)将输入的RGB视频序列以及2D人体骨架序列数据表示为帧-关节点数据对：D＝{<f₁，s₁>，<f₂，s₂>，…，<f_T，s_T>}。

其中，f_t是视频中的第t帧，在第t帧的人体骨架表示为s_t，T代表视频的总帧数；将人体骨架视为关节点的集合

其中，

是骨架的第i个关节点，n是关节点的总数量(n＝20)；关节点位置可以表示为

在视频的每一帧中，提取以关节点为中心的局部图像区域；对于任一关节点i，都有一个局部图像的时间序列，

其中

是第i个关节点在视频的第t帧周围的图像区域，大小为64*64。

(3)图像时间序列V_i拆分为几个相同长度的短片段，称为LJTV。

D＝{V₁，V₂，…，V_i，…，V_n}

V_i＝{v_i1，v_i2，…，v_i1，…，v_im}

其中，m是每个关节点的LJTV数量，

图3是本发明实施例提供的fisher vector对每个关节点编码过程示意图。

如图4所示，步骤S102中，本发明实施例提供的特征提取具体包括：

步骤S104中，本发明实施例提供的行为分类与识别具体包括：

下面结合具体实施例对本发明的技术方案作进一步说明。

实施例1：

本发明使用RGB视频数据以及2D人体骨架数据进行行为识别。本发明提出的方法流程沿袭经典的基于局部特征的行为识别流程：检测时空兴趣点，特征提取，构建词袋模型，以及分类。具体分为四个步骤：提取局部关节点轨迹时空卷(LJTV)，特征提取，特征编码，行为分类。原理图如图2所示，下面详细介绍每一个步骤：

步骤1，提取局部关节点轨迹时空卷：

人体骨架包含15-25个关节点，不同的数据有不同的关节点数量，但是本发明算法不受关节点数量的约束。

本发明以20个关节点的人体骨架为例，结构如图5所示。2D人体骨架在图像坐标系中，有水平和垂直两个方向的坐标。人体行为可以看作是骨架关节点位置在随着时间的变化而变化，也就是在视频的每一帧中，骨架关节点都有不同的二维坐标。

因此，可以将输入的RGB视频序列以及2D人体骨架序列数据表示为帧-关节点数据对：D＝{<f₁,s₁>,<f₂,s₂>,…,〈f_T,s_T>}。其中，f_t是视频中的第t帧，在第t帧的人体骨架表示为s_t，T代表视频的总帧数。

将人体骨架视为关节点的集合

其中，

基于以上定义，视频中每个关节点J_i的轨迹可以定义为关节点位置在时间上变化的序列，

在视频的每一帧中，提取以关节点为中心的局部图像区域。因此对于任一关节点i，都有一个局部图像的时间序列，

这里，

是第i个关节点在视频的第t帧周围的图像区域，大小为64*64。最后，图像时间序列V_i拆分为几个相同长度的短片段，叫做LJTV。最后，输入数据转换为n个LJTV的集合，n个关节点对应于这n个集合，因此，输入数据可以定义为：

D＝{V₁，V₂，…，V_i，…，V_n}

V_i＝{v_i1，v_i2，…，v_i1，…，v_im}。

其中，m是每个关节点的LJTV数量，

代表一个LJTV，k是LJTV的长度，m＝T/k，将k设置为15。在同一视频中，n个关节点的LJTV数量都是相同的。

步骤2，提取特征：

得到LJTV后，提取特征的步骤在LJTV中进行。主要提取四种特征：图像梯度直方图特征(HOG)，光流直方图特征(HOF)，运动边界直方图特征(MBH)，以及3D卷积神经网络特征(C3D)。

HOG特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子，它通过计算和统计图像局部区域的梯度方向直方图来构成特征；HOF特征与HOG特征类似，是对光流方向进行加权统计，得到光流方向信息直方图，他对尺度和运动方向不敏感，通常用于动作识别中；MBH特征将x方向和y方向上的光流图像视作两张灰度图像，然后提取这些灰度图像的梯度直方图。即MBH特征是分别在图像的x和y方向光流图像上计算HOG特征；C3D特征基于深度学习，使用3D卷积神经网络学习视频的行为特征。C3D的架构如图6所示。C3D有8个卷积层，5个最大池化层，以及两个全连接层。

在计算手工特征的过程中，将LJTV拆分为nt*nx*ny的单元体，流程如图4所示其中，nt是LJTV在时间方向上划分的数量，nx和ny是LJTV在图像坐标系下水平和垂直方向上划分的数量；nt＝3，nx＝2，ny＝2；

在每一个细胞体中计算HOG，HOF，MBH特征，最后将LJTV中的单元体串联，得到LJTV的手工特征。

由于LJTV是视频的局部特征，所以没有对应的动作标签，本发明使用类似UCF101或者Sport1M的基于RGB视频数据集的预训练模型来提取深度特征。在实验中，使用最后一层卷积层的特征作为LJTV的特征，最后将手工特征和深度特征融合作为LJTV的特征。

步骤3，特征编码：

提取LJTV特征后，将每一个LJTV特征集合编码为特征向量。

fisher vector的使用高斯混合模型计算特征集合的码本。Fisher Vector利用的是多个高斯分布对于权重、均值、方差求偏导数得来的。Fisher Vector的维度为2CL，C是高斯聚类的个数。为了减少Fisher Vector的维度，使用主成分分析(PCA)进行降维，L是原始特征降维后的维度，表示为L＝r*L_o，其中，L_o是原始特征的维度，r是降维的比例。最后，使用L2正则化处理Fisher vector。

本发明对训练集中每个关节点的每一种不同的特征分别构建码本并且分别进行编码，最终将n个关节点的四种特征串联为骨架关节点的特征向量。关节点特征的维度是2*C*(L_hog+L_hof+L_mbh+L_c3d)*n，具体过程如图3所示，n是骨架关节点的数量。

步骤4，行为分类：

使用以上步骤提取的特征，训练线性SVM分类器，完成行为识别。完整算法流程如算法1所示。

下面结合实验结果对本发明作进一步。

1)本发明使用骨架关节点而非密集采样的关键点，本发明识别准确率为73.75％，密集采样方法的准确率为68.13％，由此可知，本发明使用的特征更紧凑，高效。

2)多种特征融合的结果如表1所示，表中列出了本发明单独使用手工特征以及融合多种手工特征的结果，编码方式为所有关节点整体编码。HF表示手工特征。融合后的特征与单特征相比都有较大的提升。

表1

3)本发明采用分关节点编码的方式，因此可以后续选择判别力关节点以达到更好的结果。表2列出了使用手工特征的一些对比实验，首先对比了分关节点特征以及整体编码特征的结果。其中，分关节的编码准确率为75.63％，整体关节点编码的准确率为73.75％，可以看出分关节点编码的方式远比整体编码的结果好。其次，对比了选择关节点策略不同带来的结果差异，选择上半身关节点分类最好结果为80％，C为码本聚类数量。

表2

4)单独使用C3D特征，整体编码的准确率为61.88％，使用分关节点编码准确率最高为为70.63％，表3列出了使用不同预训练模型的结果对比。

表3

5)C3D特征与手工特征融合的最好结果为82.50％，比手工特征融合的方法提高2.5个百分点，选择上半身关节点训练准确率达到84.38％，对于选择关节点，本发明只进行了简单的尝试，如使用更有效的关节点选择方法，必定可以达到更好的效果。结果对比如表4所示。

表4

6)本发明的实验结果表明，特征融合以及对关节点分别编码的方式是有效的。

本发明与其它方法对比结果如表5所示，表中列举了不同模态数据输入的方法准确率。

表5

在本发明实施例中，图7是本发明实施例提供的基于骨架的行为识别面临的问题效果。

图中(a)动作相同，执行速率不同；(b)动作相同，视角不同；(c)动作不同，轨迹相似。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种RGB和2D骨架序列中基于局部关节点轨迹时空卷的行为识别方法，其特征在于，所述RGB和2D骨架序列中基于局部关节点轨迹时空卷的行为识别方法包括以下步骤：

步骤一，自输入的RGB视频数据和2D的骨架序列中提取局部关节点轨迹时空卷；

步骤二，利用基于RGB视频数据集的预训练模型提取图像梯度直方图特征HOG，光流直方图特征HOF，运动边界直方图特征MBH，以及3D卷积神经网络特征C3D四种特征；

步骤三，对训练集中每个关节点的每一种不同的特征分别构建码本并且分别进行编码，将n个关节点的四种特征串联为骨架关节点的特征向量；关节点特征的维度是2*C*(L_hog+L_hof+L_mbh+L_c3d)*n，其中，n是骨架关节点的数量，C为码本聚类数量；

步骤四，训练线性SVM分类器，进行行为分类与识别；

步骤一中，所述自输入的RGB视频数据和2D骨架序列中提取局部关节点轨迹时空卷具体包括：

(1)将输入的RGB视频序列以及2D人体骨架序列数据表示为帧-关节点数据对：D＝{<f₁,s₁>,<f₂,s₂>,…,<f_T,s_T>}；

其中，

是骨架的第i个关节点，n是关节点的总数量，n＝20；关节点位置表示为

其中

是第i个关节点在视频的第t帧周围的图像区域，大小为64*64；

(3)图像时间序列V_i拆分为若干个相同长度的短片段，称为LJTV；

(4)输入数据转换为n个LJTV的集合，n个关节点对应于这n个集合，则输入数据定义为：

D＝{V₁,V₂,…,V_i,…,V_n}

V_i＝{v_i1,v_i2,…,v_i1,…,v_im}

其中，m是每个关节点的LJTV数量，

2.如权利要求1所述RGB和2D骨架序列中基于局部关节点轨迹时空卷的行为识别方法，其特征在于，步骤二中，特征提取具体包括：

在每一个单元体中计算HOG，HOF，MBH和C3D特征；然后将LJTV中的单元体串联，得到LJTV的特征。

3.如权利要求1所述RGB和2D骨架序列中基于局部关节点轨迹时空卷的行为识别方法，其特征在于，步骤四中，所述行为分类与识别具体包括：

训练阶段：

输入：视频序列，2D骨架序列

输出：码本列表，行为分类结果

身体骨架中的每个关节定义为训练LJTV的特征集V_i，i＝1,2,…,n

repeat

for骨架中每一个关节点i do

从视频和2D骨架数据中提取LJTV特征集合eV_i

将eV_i加入V_i

end

until遍历训练集中的全部数据

for关节点i

对训练集中每一个关节点的LJTV特征集合V_i构建码本C_i

end

for训练集的数据输入

for骨架中每一个关节点i do

基于eV_i和C_i计算fisher向量

end

串联关节点的fisher向量得到行为特征

end

训练线性SVM分类器

测试阶段

输入：视频序列，2D骨架序列

输出：行为类别标签

for骨架中的每个关节点i do

从视频和2D骨架数据中提取LJTV特征集合eV_i

基于eV_i和C_i计算fisher向量

end

串联关节点fisher向量作为行为特征

分类并预测行为类别标签。

4.一种实施权利要求1所述RGB和2D骨架序列中基于局部关节点轨迹时空卷的行为识别方法的RGB和2D骨架序列中基于局部关节点轨迹时空卷的行为识别系统。

5.一种实现权利要求1～3任意一项所述RGB和2D骨架序列中基于局部关节点轨迹时空卷的行为识别方法的信息数据处理终端。

6.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-3任意一项所述的RGB和2D骨架序列中基于局部关节点轨迹时空卷的行为识别方法。