CN110991340B - 一种基于图像压缩的人体动作分析方法 - Google Patents

一种基于图像压缩的人体动作分析方法 Download PDF

Info

Publication number
CN110991340B
CN110991340B CN201911217145.6A CN201911217145A CN110991340B CN 110991340 B CN110991340 B CN 110991340B CN 201911217145 A CN201911217145 A CN 201911217145A CN 110991340 B CN110991340 B CN 110991340B
Authority
CN
China
Prior art keywords
layer
video
coordinate
image
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911217145.6A
Other languages
English (en)
Other versions
CN110991340A (zh
Inventor
崔莉亚
刘皓东
赵红领
李润知
王菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University
Original Assignee
Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University filed Critical Zhengzhou University
Priority to CN201911217145.6A priority Critical patent/CN110991340B/zh
Publication of CN110991340A publication Critical patent/CN110991340A/zh
Application granted granted Critical
Publication of CN110991340B publication Critical patent/CN110991340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图像压缩的人体动作分析方法,主要包括跳绳视频采集、视频数据预处理、视频帧的压缩模型建立、坐标点的获取、坐标点开窗重识别、特征序列的构建、动作分析模型的构建,通过手机采集人体正面正摇双脚跳过程中的视频流数据,记录并保存目标对象的基本信息,包括姓名、性别、年龄、身高、体重、所做动作名称,解决了对位姿估计过程中的关键点预测不高的问题和运动训练过程中的长时间动作分析和运动潜力发现问题,为运动过程中的动作分析和训练策略得提出提供了参考依据。

Description

一种基于图像压缩的人体动作分析方法
技术领域
本发明涉及人体运动动作分析技术领域,特别是涉及一种基于图像压缩的人体动作分析方法。
背景技术
近年来随着计算机技术与机器学习的发展和应用,基于视频的时间序列人体动作分析技术迅速兴起并得到了广泛的关注。图像和视频相对于文字所展示的信息具有直观,生动形象的特点,使得人们更加容易获取信息。然而图像和视频本身具有巨大的数据量,使得其在网络传输过程中对网络带宽具有很高的要求,同时也大大增加了存储成本。当前基于视频的时间序列的人体动作分析仍是计算机视觉中一个极具挑战性的课题,涉及图像处理、模式识别、机器学习等多个学科,在智能监控、人机交互、康复运动、体育训练评估等领域有着广泛的应用前景。
图像压缩的目的是为了减少图像的冗余信息和不相关信息,以低比特率存储或传输图像。对于图像来说,低频分量比高频分量重要的多,低频分量代表着图像中亮度或者灰度值变化缓慢的区域,也就是图像中大片平坦的区域,描述了图像的主要部分。高频分量对应着图像变化剧烈的部分,也就是图像的边缘或者噪声以及细节部分。通常来说,图像压缩主要是对高频分量进行量化操作,这样可以大大减少图像的数据量,达到压缩的目的。
现有的基于视频的时间序列在人体行为识别算法上存在分析的视频帧存储开销过大、计算负担过重的问题,不能做到实时。此外,在人体动作的分析方面的研究工作较少,所以发明一种鲁棒性高,时间开销稳定的一种基于图像压缩的人体动作分析方法,对于人体动作快速分析存储建模和动作质量评估以及运动者的潜力挖掘具有重要的意义。
发明内容
针对上述情况,为克服现有技术之缺陷,本发明之目的在于提供一种基于图像压缩的人体动作分析方法,解决了运动训练分析过程中视频帧存储开销大,计算负担重的问题,减少了视频的存储容量,增加了视频处理的速度。
其解决的技术方案是,一种基于图像压缩的人体动作分析方法,其特征在于,主要包括跳绳视频采集、视频数据预处理、视频帧的压缩模型建立、坐标点的获取、坐标点开窗重识别、特征序列的构建、动作分析模型的构建,具体步骤1:通过手机采集人体正面正摇双脚跳过程中的视频流数据,记录并保存目标对象的基本信息,包括姓名、性别、年龄、身高、体重、所做动作名称以及跳绳视频流数据;
步骤2:对不同设备采集的视频流数据进行高和宽的统一设定,将视频高设定为530cm,宽设定为460cm,构建深度学习的端到端的图像压缩框架,用以对视频的每一帧进行压缩,其步骤为:
步骤A1:获取手机或摄像机拍摄的视频数据,转换成统一的尺度;
步骤A2:在编码器端构建第一块卷积神经网络,来获得原始图像帧的特征表示信息,然后构建第二块卷积神经网络,对解码后的图像帧的特征表示信息进行复原,最终得到复原图像;
步骤3:对视频数据进行预处理,并对视频中每一帧的人体进行姿态估计,得到关键点坐标,其步骤如下:
步骤B1:获取压缩后的图像帧;
步骤B2:利用Open-pose方法对获得视频中每帧人体的鼻子、脖子、右肩、右手肘、右手腕、左肩、左手肘、左手腕、右臀部、右膝盖、右脚踝、左臀部、左膝盖、左脚踝这14个关节点的坐标位置,坐标表示为Ci=(cxi,cyi),其中i从1到14;
步骤B3:Open-pose利用预测的关键点和真实值之间的高斯距离来定义关键点的置信度,并将置信度归一化到[0,1]的范围,在此定义为关键点的得分score并得到输出结果inputsi=(xi,yi,scorei);
步骤B4:对14个关键点得分求均值和方差,并将均值和方差的和作为整体关键点的得分结果,其中:
Figure BDA0002299805020000031
Figure BDA0002299805020000032
score=score平均+score标准差
步骤4:利用图像开窗的技术对关键点预测低的位置进行开窗并重新识别,利用全局信息和局部提升关键点的预测准确度,其步骤为:
步骤C1:利用Open-pose得到inputsi=(xi,yi,scorei),并对score设置阈值th,并找出小于阈值th的关键点;
步骤C2:对小于阈值的关键点,在关键点周围进行开窗,并将窗内的图像帧放入修改了输入的Open-pose网络中;
步骤C3:利用全局信息来更新局部帧中获得的关键点坐标,其中所述的图像开窗技术即,在原始图像中突出需要的目标信息,目的是为了检测此窗口内的关键点坐标位置;
步骤5:为了进一步提升算法对拍摄角度、目标远近、录制过程抖动等因素的鲁棒性,分别将关键点坐标进行归一化、转化为相对坐标以及标准化处理;关键点坐标的大小范围是相对于视频分辨率的,将坐标值(x,y)分别比视频分辨率(vw,vh)归一化到(0,1)范围,减小了不同视频分辨率以及不同肢体关键点的数值差异;然后选取脖颈部位的关键点(x0,y0)作为原点;
步骤6:通过专业人员对视频进行分析,按时间段进行标记,记录并保存得到的标签;
步骤7:累计每帧得到的坐标矩阵P,得到每段视频的累计坐标矩阵D,利用滑动窗口对累计坐标矩阵进行窗口分割,即,滑动窗口长度设置为每20帧得到的累计坐标,步长设置为有50%的数据重叠;
步骤8:利用累计坐标矩阵D,构建数据的特征集X和标签集Y,其中X=Rd表示d维的输入空间,Y={0,1}q,表示可能标签的标签空间,T=(xi,yi)|1≤i≤m,m表示数据集的大小,xi∈X,是一个d维的向量,yi∈Y是Y的一个标签子集;
步骤9:利用深度神经网络构建多标签分类器h(·),预测
Figure BDA0002299805020000041
作为x的正确标签集,其步骤为:
步骤D1:利用CNN融合RNN来构建网络模型,即,一个双向的LSTM(BiLSTM)模型和一个拥有两层卷积层加全局池化层的模型进行融合来构建深度神经网络模型;
步骤D2:将数据分为训练集和测试集两个部分,利用测试集训练训练网络模型,并保存预训练模型;
步骤D3:将测试数据输入到训练好的模型中,得到预测的结果。
由于以上技术方案的采用,本发明与现有技术相比具有如下优点;
1.通过跳绳视频采集、视频数据预处理、视频帧的压缩模型建立、坐标点的获取、坐标点开窗重识别、特征序列的构建、动作分析模型的构建,解决了对位姿估计过程中的关键点预测不高的问题和运动训练过程中的长时间动作分析和运动潜力发现问题,为运动过程中的精准动作分析提供了参考依据,本发明的结果准确性高、适应性强、健壮性高、可扩展性好,完全能够满足实时人体运动动作分析场景下的需求。
附图说明
图1是本发明单摇双脚跳动作分析结构图;
图2图像压缩网络结构图;
图3是跳绳过程中的14个点的人体姿态估计图;
图4人体部分位置开窗图;
图5动作分析网络结构图;
具体实施方式
有关本发明的前述及其他技术内容、特点与功效,在以下配合参考附图1至图5对实施例的详细说明中,将可清楚的呈现。以下实施例中所提到的结构内容,均是以说明书附图为参考。
一种基于图像压缩的人体动作分析方法,主要包括跳绳视频采集、视频数据预处理、视频帧的压缩模型建立、坐标点的获取、坐标点开窗重识别、特征序列的构建、动作分析模型的构建,具体步骤1:通过手机采集人体正面正摇双脚跳过程中的视频流数据,记录并保存目标对象的基本信息,包括姓名、性别、年龄、身高、体重、所做动作名称以及跳绳视频流数据;
步骤2:对不同设备采集的视频流数据进行高和宽的统一设定,将视频高设定为530cm,宽设定为460cm,构建深度学习的端到端的图像压缩框架,用以对视频的每一帧进行压缩,其步骤为:
步骤A1:获取手机或摄像机拍摄的视频数据,转换成统一的尺度;
步骤A2:在编码器端构建第一块卷积神经网络,来获得原始图像帧的特征表示信息,然后构建第二块卷积神经网络,对解码后的图像帧的特征表示信息进行复原,最终得到复原图像;
视频帧的压缩过程分为编码层和解码层,其中所述的编码层为三层卷积层并且第二层和第三层加入了批归一化,激活函数选择Relu,编码层的最后一层加入了Squeeze-and-Excituatuin块;解码层第一层使用了卷积层,第二层和第四层使用了subpixel层,第三层加入了Squeeze-and-Excituatuin块;
其中所述的Squeeze-and-Excitation块是一个计算单元,可以为任何给定的变换构建:Ftr:X→U,X∈RW′×H′×C′,U∈RW×H×C,Ftr为一个标准的卷子算子,V=[v1,v2,...,vC]表示学习到的一组滤波器核,vc指的是第c个滤波器的参数U=[u1,u2,...,uC],其中
Figure BDA0002299805020000061
*代表卷积,
Figure BDA0002299805020000062
X=[x1,x2,...,xC′],
Figure BDA0002299805020000063
是2D空间核表示vc的一个通道作用于对应的通道X,W′,H′,C′为原始图像的长和宽以及通道数,W,H,C为经过一次变化的得到的新的长和宽以及通道数;
其中所述的subpixel层是一种巧妙的图像及特征图上采样的方法;
步骤3:对视频数据进行预处理,并对视频中每一帧的人体进行姿态估计,得到关键点坐标,其步骤如下:
步骤B1:获取压缩后的图像帧;
步骤B2:利用Open-pose方法对获得视频中每帧人体的鼻子、脖子、右肩、右手肘、右手腕、左肩、左手肘、左手腕、右臀部、右膝盖、右脚踝、左臀部、左膝盖、左脚踝这14个关节点的坐标位置,坐标表示为Ci=(cxi,cyi),其中i从1到14;
步骤B3:Open-pose利用预测的关键点和真实值之间的高斯距离来定义关键点的置信度,并将置信度归一化到[0,1]的范围,在此定义为关键点的得分score并得到输出结果inputsi=(xi,yi,scorei);
步骤B4:对14个关键点得分求均值和方差,并将均值和方差的和作为整体关键点的得分结果,其中:
Figure BDA0002299805020000064
Figure BDA0002299805020000065
score=score平均+score标准差
步骤4:利用图像开窗的技术对关键点预测低的位置进行开窗并重新识别,利用全局信息和局部提升关键点的预测准确度,其步骤为:
步骤C1:利用Open-pose得到inputsi=(xi,yi,scorei),并对score设置阈值th,并找出小于阈值th的关键点;
步骤C2:对小于阈值的关键点,在关键点周围进行开窗,并将窗内的图像帧放入修改了输入的Open-pose网络中;
步骤C3:利用全局信息来更新局部帧中获得的关键点坐标,其中所述的图像开窗技术即,在原始图像中突出需要的目标信息,目的是为了检测此窗口内的关键点坐标位置;
步骤5:为了进一步提升算法对拍摄角度、目标远近、录制过程抖动等因素的鲁棒性,分别将关键点坐标进行归一化、转化为相对坐标以及标准化处理;关键点坐标的大小范围是相对于视频分辨率的,将坐标值(x,y)分别比视频分辨率(vw,vh)归一化到(0,1)范围,减小了不同视频分辨率以及不同肢体关键点的数值差异;然后选取脖颈部位的关键点(x0,y0)作为原点,则采用如下公式对其它坐标进行
变换:
Figure BDA0002299805020000071
其中,(xi,yi)为人体关键点的坐标,
Figure BDA0002299805020000072
即为转换后的相对坐标,并得到数据
Figure BDA0002299805020000073
其中,(xi,yi)为人体关键点的坐标,
Figure BDA0002299805020000074
即为转换后的相对坐标;分类网络训练阶段对28个特征进行标准化处理,以降低不同样本的差异性,假设p代表同一时间步中样本的任一特征,即
Figure BDA0002299805020000075
公式如下:
Figure BDA0002299805020000076
Figure BDA0002299805020000077
Figure BDA0002299805020000078
其中,μ为n个样本的均值,σ2为标准差,每个样本的特征通过进行标准化,
Figure BDA0002299805020000079
则为转换后的鲁棒性特征;
步骤6:通过专业人员对视频进行分析,按时间段进行标记,记录并保存得到的标签;
步骤7:累计每帧得到的坐标矩阵P,得到每段视频的累计坐标矩阵D,利用滑动窗口对累计坐标矩阵进行窗口分割,即,滑动窗口长度设置为每20帧得到的累计坐标,步长设置为有50%的数据重叠;
步骤8:利用累计坐标矩阵D,构建数据的特征集X和标签集Y,其中X=Rd表示d维的输入空间,Y={0,1}q,表示可能标签的标签空间,T=(xi,yi)|1≤i≤m,m表示数据集的大小,xi∈X,是一个d维的向量,yi∈Y是Y的一个标签子集;
步骤9:利用深度神经网络构建多标签分类器h(·),预测
Figure BDA0002299805020000081
作为x的正确标签集,其步骤为:
步骤D1:利用CNN融合RNN来构建网络模型,即,一个双向的LSTM(BiLSTM)模型和一个拥有两层卷积层加全局池化层的模型进行融合来构建深度神经网络模型;
在构建网络模型时,为了提高模型的泛化能力,加速模型学习速度,在BiLSTM层中加入Dropout层,为了实现多标签分类,最后一层激活函数设置为sigmoid激活函数,损失函数选择二元交叉熵(binary_crossentropy)损失函数;
步骤D2:将数据分为训练集和测试集两个部分,利用测试集训练训练网络模型,并保存预训练模型;
步骤D3:将测试数据输入到训练好的模型中,得到预测的结果。
在上述方案的基础上,数据的标签是通过专业人员对视频进行分析,并按时间片段进行标记而得到,数据的标签设定为身体保持直立是否、左大臂加紧身体是否、右大臂加紧身体是否、手腕摇绳是否、双脚合拢是否、左右臂保持水平是否共6个标签,共有64中可能;
构建数据的特征集X和标签集Y,其中X=Rd表示d维的输入空间,d的大小为36,Y={0,1}q,表示可能标签的标签空间,q的大小为6,T=(xi,yi)|1≤i≤m,m表示数据集的大小,数据集的大小为6300,xi∈X,是一个36维的向量,yi∈Y是Y的一个标签子集,共收集了40个人的正摇双脚跳视频,获得6300个样例数据;
为了实现多标签分类,最后一层激活函数设置为sigmoid激活函数,损失函数选择二元交叉熵binary_crossentropy损失函数。训练网络时将Blistm隐藏层的维度设置为256,参数更新时采用Adamx优化算法,其中学习率设置为0.02,一阶矩估计的指数衰减率(beta1)设置为0.9,二阶矩估计的指数衰减率(beta2)设置为0.999。
以上所述是结合具体实施方式对本发明所作的进一步详细说明,不能认定本发明具体实施仅局限于此;对于本发明所属及相关技术领域的技术人员来说,在基于本发明技术方案思路前提下,所作的拓展以及操作方法、数据的替换,都应当落在本发明保护范围之内。

Claims (4)

1.一种基于图像压缩的人体动作分析方法,其特征在于,主要包括跳绳视频采集、视频数据预处理、视频帧的压缩模型建立、坐标点的获取、坐标点开窗重识别、特征序列的构建、动作分析模型的构建,具体步骤1:通过手机采集人体正面正摇双脚跳过程中的视频流数据,记录并保存目标对象的基本信息,包括姓名、性别、年龄、身高、体重、所做动作名称以及跳绳视频流数据;
步骤2:对不同设备采集的视频流数据进行高和宽的统一设定,将视频高设定为530cm,宽设定为460cm,构建深度学习的端到端的图像压缩框架,用以对视频的每一帧进行压缩,其步骤为:
步骤A1:获取手机或摄像机拍摄的视频数据,转换成统一的尺度;
步骤A2:在编码器端构建第一块卷积神经网络,来获得原始图像帧的特征表示信息,然后构建第二块卷积神经网络,对解码后的图像帧的特征表示信息进行复原,最终得到复原图像;
视频帧的压缩过程分为编码层和解码层,其中所述的编码层为三层卷积层并且第二层和第三层加入了批归一化,激活函数选择Relu,编码层的最后一层加入了Squeeze-and-Excituatuin块;解码层第一层使用了卷积层,第二层和第四层使用了subpixel层,第三层加入了Squeeze-and-Excituatuin块;
其中所述的Squeeze-and-Excitation块是一个计算单元,可以为任何给定的变换构建:Ftr:X→U,X∈RW′×H′×C′,U∈RW×H×C,Ftr为一个标准的卷子算子,V=[v1,v2,...,vC]表示学习到的一组滤波器核,vc指的是第c个滤波器的参数U=[u1,u2,...,uC],其中
Figure FDA0002299805010000011
*代表卷积,
Figure FDA0002299805010000012
X=[x1,x2,...,xC′],
Figure FDA0002299805010000013
是2D空间核表示vc的一个通道作用于对应的通道X,W′,H′,C′为原始图像的长和宽以及通道数,W,H,C为经过一次变化的得到的新的长和宽以及通道数;
其中所述的subpixel层是一种巧妙的图像及特征图上采样的方法;
步骤3:对视频数据进行预处理,并对视频中每一帧的人体进行姿态估计,得到关键点坐标,其步骤如下:
步骤B1:获取压缩后的图像帧;
步骤B2:利用Open-pose方法对获得视频中每帧人体的鼻子、脖子、右肩、右手肘、右手腕、左肩、左手肘、左手腕、右臀部、右膝盖、右脚踝、左臀部、左膝盖、左脚踝这14个关节点的坐标位置,坐标表示为Ci=(cxi,cyi),其中i从1到14;
步骤B3:Open-pose利用预测的关键点和真实值之间的高斯距离来定义关键点的置信度,并将置信度归一化到[0,1]的范围,在此定义为关键点的得分score并得到输出结果inputsi=(xi,yi,scorei);
步骤B4:对14个关键点得分求均值和方差,并将均值和方差的和作为整体关键点的得分结果,其中:
Figure FDA0002299805010000021
Figure FDA0002299805010000022
score=score平均+score标准差
步骤4:利用图像开窗的技术对关键点预测低的位置进行开窗并重新识别,利用全局信息和局部提升关键点的预测准确度,其步骤为:
步骤C1:利用Open-pose得到inputsi=(xi,yi,scorei),并对score设置阈值th,并找出小于阈值th的关键点;
步骤C2:对小于阈值的关键点,在关键点周围进行开窗,并将窗内的图像帧放入修改了输入的Open-pose网络中;
步骤C3:利用全局信息来更新局部帧中获得的关键点坐标,其中所述的图像开窗技术即,在原始图像中突出需要的目标信息,目的是为了检测此窗口内的关键点坐标位置;
步骤5:为了进一步提升算法对拍摄角度、目标远近、录制过程抖动等因素的鲁棒性,分别将关键点坐标进行归一化、转化为相对坐标以及标准化处理;关键点坐标的大小范围是相对于视频分辨率的,将坐标值(x,y)分别比视频分辨率(vw,vh)归一化到(0,1)范围,减小了不同视频分辨率以及不同肢体关键点的数值差异;然后选取脖颈部位的关键点(x0,y0)作为原点,则采用如下公式对其它坐标进行变换:
Figure FDA0002299805010000031
其中,(xi,yi)为人体关键点的坐标,
Figure FDA0002299805010000032
即为转换后的相对坐标,并得到数据
Figure FDA0002299805010000033
其中,(xi,yi)为人体关键点的坐标,
Figure FDA0002299805010000034
即为转换后的相对坐标;分类网络训练阶段对28个特征进行标准化处理,以降低不同样本的差异性,假设p代表同一时间步中样本的任一特征,即
Figure FDA0002299805010000035
公式如下:
Figure FDA0002299805010000036
Figure FDA0002299805010000037
Figure FDA0002299805010000038
其中,μ为n个样本的均值,σ2为标准差,每个样本的特征通过进行标准化,
Figure FDA0002299805010000039
则为转换后的鲁棒性特征;
步骤6:通过专业人员对视频进行分析,按时间段进行标记,记录并保存得到的标签;
步骤7:累计每帧得到的坐标矩阵P,得到每段视频的累计坐标矩阵D,利用滑动窗口对累计坐标矩阵进行窗口分割,即,滑动窗口长度设置为每20帧得到的累计坐标,步长设置为有50%的数据重叠;
步骤8:利用累计坐标矩阵D,构建数据的特征集X和标签集Y,其中X=Rd表示d维的输入空间,Y={0,1}q,表示可能标签的标签空间,T=(xi,yi)|1≤i≤m,m表示数据集的大小,xi∈X,是一个d维的向量,yi∈Y是Y的一个标签子集;
步骤9:利用深度神经网络构建多标签分类器h(·),预测
Figure FDA0002299805010000041
作为x的正确标签集,其步骤为:
步骤D1:利用CNN融合RNN来构建网络模型,即,一个双向的LSTM(BiLSTM)模型和一个拥有两层卷积层加全局池化层的模型进行融合来构建深度神经网络模型;
在构建网络模型时,为了提高模型的泛化能力,加速模型学习速度,在BiLSTM层中加入Dropout层,为了实现多标签分类,最后一层激活函数设置为sigmoid激活函数,损失函数选择二元交叉熵(binary_crossentropy)损失函数;
步骤D2:将数据分为训练集和测试集两个部分,利用测试集训练训练网络模型,并保存预训练模型;
步骤D3:将测试数据输入到训练好的模型中,得到预测的结果。
2.如权利要求1所述一种基于图像压缩的人体动作分析方法,其特征在于,所述的图像开窗技术即,在原始图像中突出需要的目标信息,目的是为了检测此窗口内的关键点坐标位置;
在执行步骤4的时,开窗的面积为S,窗口四个点的坐标左上、左下、右上、右下为ld(kx1,ky1)、lu(kx2,ky2)、rd(kx3,ky3)、ru(kx4,ky4);
图像开窗的最大面积取决于CPU的处理速度d和软件融合算法的总运算量m,d越大,m越小,开窗的面积也就越大,反之面积就越小,背景图像面积为S1,开窗的最大面积是S2,S2=dS1/25;
修改的Open-pose方法为输入数据大小格式调整为开窗的长和宽,输出为根据原点坐标进行转换的目标信息的坐标。
3.如权利要求1所述一种基于图像压缩的人体动作分析方法,其特征在于,
在执行步骤9时BiLSTM是一个双向LSTM,双向LSTM有两个LSTM上下叠加在一起组成,输出有两个LSTM的状共同决定,其中一个递归网络从前往后计算隐向量
Figure FDA0002299805010000051
另一个递归神经网络从后往前计算隐向量
Figure FDA0002299805010000052
最后的输出
Figure FDA0002299805010000053
卷积层第一层是一个卷积核为5×5的一维卷积,并加入正则化,第二层卷积核大小为3×3,并加入正则化,第三层是全局池化层,卷积过程中的滤器个数分别为64和32。
4.如权利要求1所述一种基于图像压缩的人体动作分析方法,其特征在于,批归一化层计算过程为:
Figure FDA0002299805010000054
Figure FDA0002299805010000055
Figure FDA0002299805010000056
Figure FDA0002299805010000057
其中B={z1,...,m}为批处理的输入,m为批处理的大小,μB为批处理数据的均值,
Figure FDA0002299805010000058
为批处理的方差,
Figure FDA0002299805010000059
为规范化结果,ε为一个极小值,hi为尺度变化和偏移后的结果,γ和β为输入网络模型中学习的参数;
在执行步骤9的时候卷积层的表示形式为
Figure FDA00022998050100000510
其中l为层数,
Figure FDA00022998050100000511
是第l层的第j个神经元的输出,
Figure FDA00022998050100000512
是第l层的第i个输入,并且
Figure FDA00022998050100000513
*代表卷积,wij是卷积核,bias是偏置项,Mj为输入特征图的集合,f(·)表示激活函数。
CN201911217145.6A 2019-12-03 2019-12-03 一种基于图像压缩的人体动作分析方法 Active CN110991340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911217145.6A CN110991340B (zh) 2019-12-03 2019-12-03 一种基于图像压缩的人体动作分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911217145.6A CN110991340B (zh) 2019-12-03 2019-12-03 一种基于图像压缩的人体动作分析方法

Publications (2)

Publication Number Publication Date
CN110991340A CN110991340A (zh) 2020-04-10
CN110991340B true CN110991340B (zh) 2023-02-28

Family

ID=70089342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911217145.6A Active CN110991340B (zh) 2019-12-03 2019-12-03 一种基于图像压缩的人体动作分析方法

Country Status (1)

Country Link
CN (1) CN110991340B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297883A (zh) * 2020-07-03 2021-08-24 阿里巴巴集团控股有限公司 信息处理方法、分析模型的获得方法、装置及电子设备
CN112044046B (zh) * 2020-08-28 2021-06-25 浙江大学 基于深度学习的跳绳计数方法
CN112396001B (zh) * 2020-11-20 2022-07-12 安徽一视科技有限公司 基于人体姿态估计和tpa注意力机制的跳绳个数统计方法
CN112464808B (zh) * 2020-11-26 2022-12-16 成都睿码科技有限责任公司 一种基于计算机视觉的跳绳姿态及个数识别方法
CN113283279B (zh) * 2021-01-25 2024-01-19 广东技术师范大学 一种基于深度学习的视频中多目标跟踪方法及装置
CN113221776B (zh) * 2021-05-19 2024-05-28 彭东乔 一种基于人工智能对反刍动物一般行为识别的方法
CN113743362A (zh) * 2021-09-17 2021-12-03 平安医疗健康管理股份有限公司 基于深度学习的实时矫正训练动作的方法及其相关设备
CN116246351B (zh) * 2023-05-11 2023-07-18 天津医科大学第二医院 一种基于图像处理的老年人步态识别方法和系统
CN117115926B (zh) * 2023-10-25 2024-02-06 天津大树智能科技有限公司 一种基于实时图像处理的人体动作标准判定方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200203A (zh) * 2014-08-30 2014-12-10 电子科技大学 一种基于动作字典学习的人体动作检测方法
CN105787439A (zh) * 2016-02-04 2016-07-20 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN110503077A (zh) * 2019-08-29 2019-11-26 郑州大学 一种基于视觉的实时人体动作分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200203A (zh) * 2014-08-30 2014-12-10 电子科技大学 一种基于动作字典学习的人体动作检测方法
CN105787439A (zh) * 2016-02-04 2016-07-20 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN110503077A (zh) * 2019-08-29 2019-11-26 郑州大学 一种基于视觉的实时人体动作分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于关键帧的双流卷积网络的人体动作识别方法;张聪聪等;《南京信息工程大学学报(自然科学版)》;20191128(第06期);全文 *
基于深度学习框架的多模态动作识别;韩敏捷;《计算机与现代化》;20170715(第07期);全文 *

Also Published As

Publication number Publication date
CN110991340A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110991340B (zh) 一种基于图像压缩的人体动作分析方法
CN107316307B (zh) 一种基于深度卷积神经网络的中医舌图像自动分割方法
CN110503077B (zh) 一种基于视觉的实时人体动作分析方法
CN107622229A (zh) 一种基于融合特征的视频车辆重识别方法与系统
CN112381011A (zh) 基于人脸图像的非接触式心率测量方法、系统及装置
CN110956139B (zh) 一种基于时间序列回归预测的人体运动动作分析方法
CN110575663B (zh) 一种基于人工智能的体育辅助训练方法
CN110956141B (zh) 一种基于局部识别的人体连续动作快速分析方法
CN108898623A (zh) 目标跟踪方法及设备
CN111967433A (zh) 一种基于自监督学习网络的动作识别办法
CN106203255A (zh) 一种基于时间对齐的行人重识别方法及系统
CN110930378A (zh) 基于低数据需求的肺气肿影像处理方法及系统
CN116977937A (zh) 一种行人重识别的方法及系统
CN113408435B (zh) 一种安全监控方法、装置、设备和存储介质
CN113674321B (zh) 一种基于云端的监控视频下多目标跟踪的方法
CN111178201A (zh) 基于OpenPose姿态检测的人体分段式跟踪方法
CN117137435B (zh) 一种基于多模态信息融合的康复动作识别方法和系统
CN111144220B (zh) 适于大数据的人员检测方法、装置、设备和介质
CN107886060A (zh) 基于视频的行人自动检测与跟踪方法
CN114639168B (zh) 一种用于跑步姿态识别的方法和系统
CN113205545B (zh) 区域环境下的行为识别分析方法、系统
CN112699954A (zh) 一种基于深度学习和词袋模型的闭环检测方法
CN118397527B (zh) 智慧社区智能监控方法及系统
Ganokratanaa et al. Generative adversarial network for video anomaly detection
CN117423138B (zh) 基于多分支结构的人体跌倒检测方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant