CN109858406A

CN109858406A - 一种基于关节点信息的关键帧提取方法

Info

Publication number: CN109858406A
Application number: CN201910043665.3A
Authority: CN
Inventors: 高岭; 何丹; 赵悦蓉; 郭红波; 王海; 郑杰; 张侃; 郑勇
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2019-06-07
Anticipated expiration: 2039-01-17
Also published as: CN109858406B

Abstract

一种基于关节点信息的关键帧提取方法，首先，通过openpose人体姿态提取库提取视频中人体的关节点特征向量x⁽ⁱ⁾，形成序列S＝{x⁽¹⁾，x⁽²⁾，...，x^(N)}；其次，依次使用K‑means++算法和K‑means算法，得到最终的K个聚类中心C′＝{C′_i|i＝1，2，…，K}，提取距离每个聚类中心最近的帧作为视频的关键帧，得到关键帧序列F＝{F_i|i＝1，2，…，K}，其中，通过基于关节点贡献度加权欧式距离公式来计算序列S中的特征向量与当前聚类中心的距离来判断其帧间相似性；最后，将关键帧预处理预处理之后输入到时空图卷积网络中进行行为识别，在该过程中能够很好地避免冗余帧带来的时间的消耗和准确率下降等影响，本发明简单易行，效果优良。

Description

一种基于关节点信息的关键帧提取方法

技术领域

本发明属于计算机图形学和人机交互技术领域，具体涉及一种基于关节点信息的关键帧提取方法。

背景技术

随着互联网的迅速发展和普及，许多热门的研究领域兴起，如人工智能、机器学习、计算机视觉等。计算机视觉作为当前计算机科学领域的一个重要分支，其研究目的是为了让机器能够像人一样感知世界，并理解世界。其中基于视频的人体行为识别在各个方面有着广泛的应用，如视频监控，视频分析，人机交互等方面都有着很好的应用前景。但是视频中往往包含了大量的冗余信息，如何从视频中提取出能够包含视频运动信息的关键帧，去除冗余信息，并通过关键帧来处理视频，进而达到提高视频处理速度的效果，是近几年来研究人员一直致力研究的方面。

关键帧提取技术在视频分析中有着举足轻重的作用，在实际应用在，关键帧的提取技术可以分为4类，(1)基于运动分析的关键帧提取技术，该方法一般是基于光流运算的，通过分析和计算光流得到视频序列的运动量，然后比较运动量选取局部最小值出的帧为关键帧；(2)基于镜头边界的关键帧提取技术，该方法首先将视频分割为若干个镜头，然后在每个镜头内不分别提取第一帧、中间帧、最后一帧作为关键帧；(3)基于视觉内容的关键帧提取技术，该方法根据每一帧图像的形状、纹理、颜色等视频信息的改变来提取关键帧；当这些特征有显著变化时，当前帧可作为关键帧；(4)基于视频聚类的关键帧提取技术，该方法研究图像帧之间的关系，通过距离将内容相近的图像帧进行聚类，最后得到的聚类中心则为关键帧。在大量的文献阅读中发现，现有的关键帧提取方法中，使用到的特征多为图像外观特征，例如光流信息、运动信息、颜色形状等。在以人物运动为主的视频中，这些特征容易受到背景光照的影响，导致关键帧提取的过程中噪声过大，影响最后的提取结果。

人体行为识别是计算机视觉领域的一个重要的课题。其在行为检测、视频监控等领域都有着广泛的应用价值。与单纯的图片识别不同，人体行为识别会受到诸多因素的干扰，例如光照、背景等。传统方法中，通常通过手动设计某些特定的特征，对数据集中特定的动作

进行识别，近些年，随着人工智能技术的崛起，深度学习模型也被应用到了人体行为识别任务中去。利用深度学习模型去自动提取特征，良好地避免了人工设计特征过程中的盲目性和差异性，但是，基于深度学习的人体行为识别方法受到视频长度的限制，无法正确地对长视频进行分析。

发明内容

为了克服上述现的不足，本发明的目的是提供一种基于关节点信息的关键帧提取方法，在定义了一种新的人体运动视频帧间距离度量模型的基础上，在卡耐基梅隆大学提供的openpose人体姿态库的基础上实现了本文提出的关键帧提取算法，该方法相比基于视频图像帧外观特征的关键帧提取方法而言，将注意力集中于人体运动时的关节点坐标位置的变化。忽略环境光照带来的影响，通过对视频序列中人体关节点坐标进行聚类从而实现关键帧的提取，具有较高的运行效率。

为了实现上述目的，本发明采用的技术方案是：

一种基于关节点信息的关键帧提取方法，包括以下步骤：

1)通过开源的openpose人体姿态库提取视频中人体的关节点信息，每个人体包含18个关节点的二维坐标信息，并将每一帧中的关节点坐标和位置序列定义为特征向量x⁽ⁱ⁾；

2)根据关节点的坐标距离来进行帧间聚类分析，提取视频中关键帧；假如视频序列为S＝{x⁽¹⁾，x⁽²⁾，...，x^(N)}，N为视频序列总帧数，i为视频中的第i帧，x⁽ⁱ⁾为序列中的第i帧的18个关节点二维坐标位置向量，x⁽ⁱ⁾为36维向量，对视频序列S进行K簇聚类，获取关键帧包括以下步骤：

①从S选择第一帧x⁽¹⁾作为初始聚类中心C₁；

②计算每一帧的特征向量与当前已有聚类中心之间的帧间距离，用T_Dis表示，接着计算每个样本被选为下一个聚类中心的概率，选择概率最大的帧作为下一个聚类中心；

③重复步骤②直到利用k-means++算法在序列S中得到K个初始聚类中心，其聚类中心表示为C＝{C_i|i＝1，2，...，K}；

④针对S中的每一个特征向量x⁽ⁱ⁾，计算他到每个聚类中心的距离并将其分到距离最近的聚类中心所对应的类中；

⑤针对每个类别C_i，重新计算它的聚类中心

⑥在K-means++聚类结果的基础上，基于帧间距离，使用K-means算法逐步优化聚类中心，重复步骤④和步骤⑤直到聚类中心收敛，最终得到聚类中心C′＝{C′_i|i＝1，2，...，K}；

⑦提取每个聚类中心距离最近的帧作为视频关键帧，并得到关键帧序列F＝{F_i|i＝1，2，...，K}；

3)对关键帧进行预处理之后，输入到时空图卷积网络中进行行为识别，其流程如下：

①对关键帧的关节点坐标进行归一化；

②根据节点矩阵V和关节点链接E构建关键帧的时空图G＝(V,E)。V＝{v_k|k＝1，2，...，K，i＝1，2，...，T},其中T为关键帧数量,T为关节点数；关节点链接E主要包括帧内不同关节点链接E_S＝{v_kiv_kj}和帧间相同关节点链接E_F＝{v_kiv_(k+1)i}，其中i和j是链接的两个关节点序号，k和k+1是相邻的两个关键帧；

③将时空图进行多层时空图卷积操作，逐步生成更高级的特征图，并利用标准的Softmax分类器进行行为分类。

4)最终得到基于关键帧的行为识别结果。

所述的步骤2)中，所述的帧间距离求解算法包括：

1)在人体运动过程中，每个关节点对运动的贡献度与其坐标的离散程度相关，关节点i的贡献度计算公式如下：

其中，为关节点i的方差，为所有关节点坐标的方差之和；

2)特征向量x^(m),x⁽ⁿ⁾基于关节点贡献度的欧式距离可表示为：

3)由于视频具有很强的时间连续性，对于时间间隔较远的相似动作，即使帧间欧式距离很小，也归为一类，考虑到时间影响因子，特征向量x^(m),x⁽ⁿ⁾最终的帧间距离可表示为：

其中，表示x^(m)，x⁽ⁿ⁾帧的帧序列号。

本发明的有益效果是：

1)本发明中的关键帧提取方法，关注于人体运动时关节点坐标位置的变化，并且充分考虑到人体在运动过程中不同关节点的贡献度，使得最后提取得到的关键帧能够最大可能地概括视频中的运动信息；

2)本发明主要关注于人体运动的视频，根据关节点坐标距离判断帧间相似性，进而通过聚类算法提取关键帧，该方法不受视频背景和光照的影响，能够很好地避免在下一步的行为识别过程中，冗余帧带来的时间的消耗和准确率下降等影响，本发明简单易行，效果优良。

3)本发明中所用到的聚类方法为K-means++聚类算法和K-means聚类算法，行为识别方法为基于人体关节点信息的时间图卷积神经网络模型；

附图说明

图1本发明实施例提供的基于关节点信息的关键帧提取方法的流程示意图；

图2本发明实施例提供的人体骨架及索引示意图；

图3本发明实施例提供的基于坐标贡献度加权欧式距离的K均值聚类算法提取的视频关键帧的示意图；

图4本发明实施例提供的基于关键帧的行为识别流程图。

具体实施方式

以下结合附图及实施例对本发明进一步叙述，但本发明不局限于以下实施例。

本发明在Ubuntu16.04系统上开发完成，系统中搭载了GeForce显存，并配置了实验过程中所需要的OpenCV3.1.0,python等工具，在本地搭建了openpose姿态提取库。

本发明的一种基于关节点信息的关键帧提取方法，如图1所示，包括如下步骤：

(1)将视频输入到openpose姿态提取库中提取视频中人体的关节点信息，每个人体包含18个关节点的二维坐标信息，人体骨架表示及索引如图2所示，并将每一帧的关节点坐标和位置序列定义为特征向量x⁽ⁱ⁾，表示为：

J＝{(x_i，y_i)|i＝0，1，...，17}

其中x_i，y_i表示关节点i处的横纵坐标。

假如视频序列为S＝{x⁽¹⁾，x⁽²⁾，...，x^(N)}，N为视频序列总帧数，i为视频中的第i帧，x⁽ⁱ⁾为序列中的第i帧的18个关节点二维坐标位置向量，x⁽ⁱ⁾为36维向量。

(2)基于帧间距离，使用K-means++算法在序列S中选择K个初始聚类中心，记为C＝{C_i|i＝1，2，...，K}。

(3)在K-means++聚类结果的基础上，基于帧间式距离，使用K-means算法逐步优化聚类中心；直到函数收敛。最终得到聚类中心C′＝{C′_i|i＝1，2，...，K}。

关键帧提取算法流程如下：

step1:从序列S中选择第一个样本作为初始聚类中心C₁。

step2:帧间聚类公式计算每个样本与当前已有聚类中心之间的最短距离，接着计算每个样本被选为下一个聚类中心的概率，选择概率最大的样本为下一个聚类中心；

step4:针对序列S的每个样本x⁽ⁱ⁾，通过计算其与当前聚类中心的帧间距离，将其划分到距离最近的聚类中心所对应的类中；

step5:针对每个聚类i，重新计算它的聚类中心；

step6:重复step4和step5直到所有的聚类中心收敛，得到最终的聚类中心C′＝{C′_i|i＝1，2，...，K}。

step7:提取每个聚类中心距离最近的帧作为视频关键帧，并得到关键帧序列F＝{F_i|i＝1，2，...，K}；

上述过程中，通过计算两帧中人体关节点的距离来度量其相似性，由于在视频人体运动的过程中，每个关节点对运动的贡献度与其坐标的离散程度相关，因此，本发明中坐标i的贡献度计算公式如下：

其中表示关节点i的方差,w_i表示其权值，故特征向量x^(m),x⁽ⁿ⁾基于关节点贡献度的欧式距离可表示为:

由于视频具有很强的时间连续性，对于时间间隔较远的相似动作，即使帧间欧式距离很小，也不能将其归为一类。考虑到时间影响因子，特征向量x^(m),x⁽ⁿ⁾最终的帧间距离可表示为：

其中表示x^(m)，x⁽ⁿ⁾帧的帧序列号。

在实施过程中，按照上述步骤，实验使用UCF101数据集，表1列出了不同动作类的总帧数、关键帧数、压缩比，以及查准率和查全率。图3是对一个具有219帧打太极动作提取关键帧之后动作序列。

表1

(5)将关键帧输入到时空图卷积神经网络中，进行人体行为识别，通过准确率和运行时间两方面来评估基于关键帧行为识别方法的有效性，流程如图4所示。

其行为识别算法流程如下：

step1:对关键帧的关节点坐标进行归一化；

step2:根据节点矩阵V和关节点链接E构建关键帧的时空图G＝(V,E)。V＝{v_ki|k＝1，2，...，K，i＝1，2，...，T},其中K为关键帧数量,T为关节点数；关节点链接E主要包括帧内不同关节点链接E_S＝{v_kiv_kj}和帧间相同关节点链接E_F＝{v_kiv_(k+1)i}，其中i和j是链接的两个关节点序号，k和k+1是相邻的两个关键帧。

step3:将时空图进行多层时空图卷积操作，逐步生成更高级的特征图，并利用标准的Softmax分类器进行行为分类。

step4:最终得到基于关键帧的行为识别结果。

表2列出了部分运动类型原始视频和提取关键帧之后的视频进行行为识别时所消耗的时间。

表2

Claims

1.一种基于关节点信息的关键帧提取方法，其特征在于，包括以下步骤：

①从S选择第一帧x⁽¹⁾作为初始聚类中心C₁；

③重复步骤②直到利用k-means++算法在序列S中得到K个初始聚类中心，其聚类中心表示为C＝{C_i|i＝1，2，...，K}；；

⑤针对每个类别C_i，重新计算它的聚类中心

①对关键帧的关节点坐标进行归一化；

②根据节点矩阵V和关节点链接E构建关键帧的时空图G＝(V,E)。V＝{v_ki|＝1，2，...，K，i＝1，2，...，T},其中T为关键帧数量,T为关节点数；关节点链接E主要包括帧内不同关节点链接E_s＝{v_kiv_kj}和帧间相同关节点链接E_F＝{v_kiv_(k+1)i}，其中i和j是链接的两个关节点序号，k和k+1是相邻的两个关键帧；

4)最终得到基于关键帧的行为识别结果。

2.根据权利要求1所述的一种基于关节点信息的关键帧提取方法，其特征在于，所述的步骤2)中，所述的帧间距离求解算法包括：

其中，为关节点i的方差，为所有关节点坐标的方差之和；

其中，表示x^(m)，x⁽ⁿ⁾帧的帧序列号。