CN110991340B

CN110991340B - 一种基于图像压缩的人体动作分析方法

Info

Publication number: CN110991340B
Application number: CN201911217145.6A
Authority: CN
Inventors: 崔莉亚; 刘皓东; 赵红领; 李润知; 王菁
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2023-02-28
Anticipated expiration: 2039-12-03
Also published as: CN110991340A

Abstract

本发明公开了一种基于图像压缩的人体动作分析方法,主要包括跳绳视频采集、视频数据预处理、视频帧的压缩模型建立、坐标点的获取、坐标点开窗重识别、特征序列的构建、动作分析模型的构建，通过手机采集人体正面正摇双脚跳过程中的视频流数据，记录并保存目标对象的基本信息，包括姓名、性别、年龄、身高、体重、所做动作名称，解决了对位姿估计过程中的关键点预测不高的问题和运动训练过程中的长时间动作分析和运动潜力发现问题，为运动过程中的动作分析和训练策略得提出提供了参考依据。

Description

一种基于图像压缩的人体动作分析方法

技术领域

本发明涉及人体运动动作分析技术领域，特别是涉及一种基于图像压缩的人体动作分析方法。

背景技术

近年来随着计算机技术与机器学习的发展和应用，基于视频的时间序列人体动作分析技术迅速兴起并得到了广泛的关注。图像和视频相对于文字所展示的信息具有直观，生动形象的特点，使得人们更加容易获取信息。然而图像和视频本身具有巨大的数据量，使得其在网络传输过程中对网络带宽具有很高的要求，同时也大大增加了存储成本。当前基于视频的时间序列的人体动作分析仍是计算机视觉中一个极具挑战性的课题，涉及图像处理、模式识别、机器学习等多个学科，在智能监控、人机交互、康复运动、体育训练评估等领域有着广泛的应用前景。

图像压缩的目的是为了减少图像的冗余信息和不相关信息，以低比特率存储或传输图像。对于图像来说，低频分量比高频分量重要的多，低频分量代表着图像中亮度或者灰度值变化缓慢的区域，也就是图像中大片平坦的区域，描述了图像的主要部分。高频分量对应着图像变化剧烈的部分，也就是图像的边缘或者噪声以及细节部分。通常来说，图像压缩主要是对高频分量进行量化操作，这样可以大大减少图像的数据量，达到压缩的目的。

现有的基于视频的时间序列在人体行为识别算法上存在分析的视频帧存储开销过大、计算负担过重的问题，不能做到实时。此外，在人体动作的分析方面的研究工作较少，所以发明一种鲁棒性高，时间开销稳定的一种基于图像压缩的人体动作分析方法，对于人体动作快速分析存储建模和动作质量评估以及运动者的潜力挖掘具有重要的意义。

发明内容

针对上述情况，为克服现有技术之缺陷，本发明之目的在于提供一种基于图像压缩的人体动作分析方法，解决了运动训练分析过程中视频帧存储开销大，计算负担重的问题，减少了视频的存储容量，增加了视频处理的速度。

其解决的技术方案是，一种基于图像压缩的人体动作分析方法,其特征在于，主要包括跳绳视频采集、视频数据预处理、视频帧的压缩模型建立、坐标点的获取、坐标点开窗重识别、特征序列的构建、动作分析模型的构建，具体步骤1：通过手机采集人体正面正摇双脚跳过程中的视频流数据，记录并保存目标对象的基本信息，包括姓名、性别、年龄、身高、体重、所做动作名称以及跳绳视频流数据；

步骤2:对不同设备采集的视频流数据进行高和宽的统一设定，将视频高设定为530cm,宽设定为460cm，构建深度学习的端到端的图像压缩框架，用以对视频的每一帧进行压缩，其步骤为：

步骤A1:获取手机或摄像机拍摄的视频数据,转换成统一的尺度；

步骤A2:在编码器端构建第一块卷积神经网络，来获得原始图像帧的特征表示信息，然后构建第二块卷积神经网络，对解码后的图像帧的特征表示信息进行复原，最终得到复原图像；

步骤3：对视频数据进行预处理，并对视频中每一帧的人体进行姿态估计，得到关键点坐标，其步骤如下：

步骤B1:获取压缩后的图像帧；

步骤B2：利用Open-pose方法对获得视频中每帧人体的鼻子、脖子、右肩、右手肘、右手腕、左肩、左手肘、左手腕、右臀部、右膝盖、右脚踝、左臀部、左膝盖、左脚踝这14个关节点的坐标位置，坐标表示为C_i＝(cx_i,cy_i)，其中i从1到14；

步骤B3：Open-pose利用预测的关键点和真实值之间的高斯距离来定义关键点的置信度，并将置信度归一化到[0,1]的范围,在此定义为关键点的得分score并得到输出结果inputs_i＝(x_i,y_i,score_i)；

步骤B4：对14个关键点得分求均值和方差，并将均值和方差的和作为整体关键点的得分结果，其中：

score_总＝score_平均+score_标准差；

步骤4:利用图像开窗的技术对关键点预测低的位置进行开窗并重新识别，利用全局信息和局部提升关键点的预测准确度，其步骤为：

步骤C1:利用Open-pose得到inputs_i＝(x_i,y_i,score_i)，并对score设置阈值th，并找出小于阈值th的关键点；

步骤C2:对小于阈值的关键点，在关键点周围进行开窗，并将窗内的图像帧放入修改了输入的Open-pose网络中；

步骤C3:利用全局信息来更新局部帧中获得的关键点坐标，其中所述的图像开窗技术即，在原始图像中突出需要的目标信息，目的是为了检测此窗口内的关键点坐标位置；

步骤5：为了进一步提升算法对拍摄角度、目标远近、录制过程抖动等因素的鲁棒性，分别将关键点坐标进行归一化、转化为相对坐标以及标准化处理；关键点坐标的大小范围是相对于视频分辨率的，将坐标值(x,y)分别比视频分辨率(vw,v_h)归一化到(0,1)范围，减小了不同视频分辨率以及不同肢体关键点的数值差异；然后选取脖颈部位的关键点(x0,y₀)作为原点；

步骤6：通过专业人员对视频进行分析，按时间段进行标记，记录并保存得到的标签；

步骤7：累计每帧得到的坐标矩阵P，得到每段视频的累计坐标矩阵D，利用滑动窗口对累计坐标矩阵进行窗口分割，即，滑动窗口长度设置为每20帧得到的累计坐标，步长设置为有50％的数据重叠；

步骤8：利用累计坐标矩阵D，构建数据的特征集X和标签集Y，其中X＝R^d表示d维的输入空间，Y＝{0,1}^q，表示可能标签的标签空间，T＝(xⁱ,yⁱ)|1≤i≤m，m表示数据集的大小，xⁱ∈X，是一个d维的向量，yⁱ∈Y是Y的一个标签子集；

步骤9：利用深度神经网络构建多标签分类器h(·)，预测

作为x的正确标签集，其步骤为：

步骤D1:利用CNN融合RNN来构建网络模型，即，一个双向的LSTM(BiLSTM)模型和一个拥有两层卷积层加全局池化层的模型进行融合来构建深度神经网络模型；

步骤D2：将数据分为训练集和测试集两个部分，利用测试集训练训练网络模型，并保存预训练模型；

步骤D3：将测试数据输入到训练好的模型中，得到预测的结果。

由于以上技术方案的采用，本发明与现有技术相比具有如下优点；

1.通过跳绳视频采集、视频数据预处理、视频帧的压缩模型建立、坐标点的获取、坐标点开窗重识别、特征序列的构建、动作分析模型的构建，解决了对位姿估计过程中的关键点预测不高的问题和运动训练过程中的长时间动作分析和运动潜力发现问题，为运动过程中的精准动作分析提供了参考依据，本发明的结果准确性高、适应性强、健壮性高、可扩展性好，完全能够满足实时人体运动动作分析场景下的需求。

附图说明

图1是本发明单摇双脚跳动作分析结构图；

图2图像压缩网络结构图；

图3是跳绳过程中的14个点的人体姿态估计图；

图4人体部分位置开窗图；

图5动作分析网络结构图；

具体实施方式

有关本发明的前述及其他技术内容、特点与功效，在以下配合参考附图1至图5对实施例的详细说明中，将可清楚的呈现。以下实施例中所提到的结构内容，均是以说明书附图为参考。

一种基于图像压缩的人体动作分析方法,主要包括跳绳视频采集、视频数据预处理、视频帧的压缩模型建立、坐标点的获取、坐标点开窗重识别、特征序列的构建、动作分析模型的构建，具体步骤1：通过手机采集人体正面正摇双脚跳过程中的视频流数据，记录并保存目标对象的基本信息，包括姓名、性别、年龄、身高、体重、所做动作名称以及跳绳视频流数据；

视频帧的压缩过程分为编码层和解码层，其中所述的编码层为三层卷积层并且第二层和第三层加入了批归一化，激活函数选择Relu,编码层的最后一层加入了Squeeze-and-Excituatuin块；解码层第一层使用了卷积层，第二层和第四层使用了subpixel层，第三层加入了Squeeze-and-Excituatuin块；

其中所述的Squeeze-and-Excitation块是一个计算单元，可以为任何给定的变换构建:F_tr:X→U,X∈R^{W′×H′×C′},U∈R^W×H×C,F_tr为一个标准的卷子算子，V＝[v₁,v₂,...,v_C]表示学习到的一组滤波器核，v_c指的是第c个滤波器的参数U＝[u₁,u₂,...,u_C]，其中

*代表卷积，

X＝[x¹,x²,...,x^C′]，

是2D空间核表示v_c的一个通道作用于对应的通道X，W′，H′，C′为原始图像的长和宽以及通道数，W，H，C为经过一次变化的得到的新的长和宽以及通道数；

其中所述的subpixel层是一种巧妙的图像及特征图上采样的方法；

步骤B1:获取压缩后的图像帧；

score_总＝score_平均+score_标准差；

步骤5：为了进一步提升算法对拍摄角度、目标远近、录制过程抖动等因素的鲁棒性，分别将关键点坐标进行归一化、转化为相对坐标以及标准化处理；关键点坐标的大小范围是相对于视频分辨率的，将坐标值(x,y)分别比视频分辨率(v_w,v_h)归一化到(0,1)范围，减小了不同视频分辨率以及不同肢体关键点的数值差异；然后选取脖颈部位的关键点(x₀,y₀)作为原点,则采用如下公式对其它坐标进行

变换：

其中,(x_i,y_i)为人体关键点的坐标，

即为转换后的相对坐标，并得到数据

其中,(x_i,y_i)为人体关键点的坐标，

即为转换后的相对坐标；分类网络训练阶段对28个特征进行标准化处理，以降低不同样本的差异性，假设p代表同一时间步中样本的任一特征，即

公式如下：

其中，μ为n个样本的均值，σ²为标准差，每个样本的特征通过进行标准化，

则为转换后的鲁棒性特征；

步骤9：利用深度神经网络构建多标签分类器h(·)，预测

作为x的正确标签集，其步骤为：

在构建网络模型时，为了提高模型的泛化能力，加速模型学习速度，在BiLSTM层中加入Dropout层，为了实现多标签分类，最后一层激活函数设置为sigmoid激活函数,损失函数选择二元交叉熵(binary_crossentropy)损失函数；

在上述方案的基础上，数据的标签是通过专业人员对视频进行分析，并按时间片段进行标记而得到，数据的标签设定为身体保持直立是否、左大臂加紧身体是否、右大臂加紧身体是否、手腕摇绳是否、双脚合拢是否、左右臂保持水平是否共6个标签，共有64中可能；

构建数据的特征集X和标签集Y，其中X＝R^d表示d维的输入空间，d的大小为36，Y＝{0,1}^q，表示可能标签的标签空间，q的大小为6，T＝(xⁱ,yⁱ)|1≤i≤m，m表示数据集的大小，数据集的大小为6300，xⁱ∈X，是一个36维的向量，yⁱ∈Y是Y的一个标签子集，共收集了40个人的正摇双脚跳视频，获得6300个样例数据；

为了实现多标签分类，最后一层激活函数设置为sigmoid激活函数,损失函数选择二元交叉熵binary_crossentropy损失函数。训练网络时将Blistm隐藏层的维度设置为256，参数更新时采用Adamx优化算法，其中学习率设置为0.02，一阶矩估计的指数衰减率(beta1)设置为0.9，二阶矩估计的指数衰减率(beta2)设置为0.999。

以上所述是结合具体实施方式对本发明所作的进一步详细说明，不能认定本发明具体实施仅局限于此；对于本发明所属及相关技术领域的技术人员来说，在基于本发明技术方案思路前提下，所作的拓展以及操作方法、数据的替换，都应当落在本发明保护范围之内。

Claims

1.一种基于图像压缩的人体动作分析方法,其特征在于，主要包括跳绳视频采集、视频数据预处理、视频帧的压缩模型建立、坐标点的获取、坐标点开窗重识别、特征序列的构建、动作分析模型的构建，具体步骤1：通过手机采集人体正面正摇双脚跳过程中的视频流数据，记录并保存目标对象的基本信息，包括姓名、性别、年龄、身高、体重、所做动作名称以及跳绳视频流数据；

*代表卷积，

X＝[x¹,x²,...,x^C′]，

步骤B1:获取压缩后的图像帧；

score_总＝score_平均+score_标准差；

步骤5：为了进一步提升算法对拍摄角度、目标远近、录制过程抖动等因素的鲁棒性，分别将关键点坐标进行归一化、转化为相对坐标以及标准化处理；关键点坐标的大小范围是相对于视频分辨率的，将坐标值(x,y)分别比视频分辨率(v_w,v_h)归一化到(0,1)范围，减小了不同视频分辨率以及不同肢体关键点的数值差异；然后选取脖颈部位的关键点(x₀,y₀)作为原点,则采用如下公式对其它坐标进行变换：