CN111046715B

CN111046715B - 一种基于图像检索的人体动作对比分析方法

Info

Publication number: CN111046715B
Application number: CN201910807918.XA
Authority: CN
Inventors: 赵红领; 李润知; 崔莉亚; 刘浩东
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2023-03-14
Anticipated expiration: 2039-08-29
Also published as: CN111046715A

Abstract

本发明公开了一种基于图像检索的人体动作对比分析方法，通过单目摄像机或手机获取人体运动的视频流数据，记录并保存目标对象的基本信息，包括姓名、性别、年龄、身高、所做动作名称，对视频数据进行预处理，并对视频中每一帧的人体进行姿态估计，得到关键点坐标，当需要进行动作对比分析时，利用局部敏感哈希算法LSH在图像特征库中进行快速相似性搜索找到相似的视频帧关键点坐标，利用相似的关键点坐标获取对应的视频帧，保存视频帧并组合成新视频与目标视频进行对比分析，帮助体育教练、学生把精力放在那些他们应该关注的东西上，学生从每日繁琐的训练中解放出来，从而专注于自己的不足之处。

Description

一种基于图像检索的人体动作对比分析方法

技术领域

本发明涉及图像处理技术领域，特别涉及一种基于图像检索的人体动作对比分析方法。

背景技术

在大数据时代的背景下，计算机视觉领域备受关注，其中人体动作分析算法的研究已经成为热点问题。当前利用视频进行人体动作分析仍是计算机视觉中一个极具挑战性的课题，涉及图像处理、模式识别、人工智能等多个学科，在智能监控、人机交互、康复运动、体育训练等领域有着广泛的应用前景。

人类的行为是通过一系列有逻辑动作完成的，而动作又直接反应在人体的骨架运动上，基于人体位姿估计的方法可以进行更为精确的人体动作分析，并达到其他方法所达不到的高精度。其中人体位姿估计通常是利用计算机视觉相关技术从图像中检测、定位人体关节位置，得到的精确姿态能够应用在行为识别、人机交互、健康监测及动作捕捉等诸多领域。

图像是多媒体信息的重要组成部，它包含的内容丰富、直观、具有文本信息领域无法企及的强大的信息表现和描述能以，一直以来都是人们进行信息交流和传递的重要方式之一。局部图像特征描述是计算机视觉的一个基本研究问题，在寻找图像中的对应点以及物体特征描述中有着重要的作用，近年来基于局部描述算子的图像检索方法一直被广泛研究。

目前在动作对比分析和运动质量评估方面的研究工作较少，专业的人体运动动作分析人员缺乏，无法进行合理的指导。所以发明一种鲁棒性高，时间开销稳定的人体动作对比分析方法，对于运动过程中的动作对比分析和动作质量评估具有重要的意义。

发明内容

针对上述情况，为克服现有技术之缺陷，本发明之目的在于提供一种基于图像检索的人体动作对比分析方法，具有构思巧妙、人性化设计的特性，解决了运动训练过程中的实时动作分析和动作质量评估问题。

其解决的技术方案是，一种基于图像检索的人体动作对比分析方法,包括如下步骤：

步骤1：通过单目摄像机或手机获取人体运动的视频流数据，记录并保存目标对象的基本信息，包括姓名、性别、年龄、身高、所做动作名称。

步骤2：对视频数据进行预处理，并对视频中每一帧的人体进行姿态估计，得到关键点坐标，其步骤如下：

步骤2-1:将拍摄的视频数据转换成统一的尺度；

步骤2-2：通过迁移学习利用Open-pose方法对获得视频中每帧人体的鼻子、脖子、右肩、右手肘、右手腕、右手面、左肩、左手肘、左手腕、左手面、右臀部、右膝盖、右脚掌、右脚踝、左臀部、左膝盖、左脚踝、左脚掌这18个关节点的坐标位置，坐标表示为C_i＝(cx_i,cy_i)，C_i＝(cx_i,cy_i),表示坐标cx₁表示第一个关节点的x坐标cy₁表示第一个关节点的y坐标C₁是第一个关键点坐标的坐标集合,其中i从1到18；

步骤3：对所得的18个关键点坐标以左臀部、右臀部和脖子三点构成的三角形重心为原点定义一个坐标系，获得转换后的坐标点矩阵P，将二维人体姿态固定在一张460cm×530cm的空白图片中；

步骤4：构建图像特征库,其步骤如下：

步骤4-1:选取目标视频对象，并按照每个人为类别进行存储；

步骤4-2:获取视频的每一帧图像，提取关键点坐标并按照名字和ID进行编号建立索引；

步骤4-3:并利用FREAK(Fast Retina Keypoint)算法提取关键点形状特征，即，每一帧图片的描述子；

步骤4-4：每一个视频对应一系列图片，每一个图片对应一组关键点坐标，每一组坐标对应一个图片描述子，并建立对应的索引，以此构建图像特征库。

步骤5:当需要进行动作对比分析时，利用局部敏感哈希算法LSH在图像特征库中进行快速相似性搜索找到相似的视频帧关键点坐标，利用相似的关键点坐标获取对应的视频帧，保存视频帧并组合成新视频与目标视频进行对比分析，以此来发现两者之间的差别。

由于以上技术方案的采用，本发明与现有技术相比具有如下优点；

1.在跳绳训练结束后，将自己的跳绳视频和标准跳绳视频进行对比分析，然后知道自己的动作哪里出现了问题，发明的目的就是取代人工，帮助体育教练、学生把精力放在那些他们应该关注的东西上，学生从每日繁琐的训练中解放出来，从而专注于自己的不足之处，那么无疑将更能激发学生的潜力，提高体育考试的成绩。

附图说明

图1是本发明优选实施列中单摇双脚跳动作对比分析流程图；

图2是Open-pose网络框架图；

图3是跳绳过程中的18个点的人体姿态估计图；

图4人体关键点在直角坐标系中呈现图；

图5图像检索结构图；

图6人体关键点匹配图。

具体实施方式

有关本发明的前述及其他技术内容、特点与功效，在以下配合参考附图1至图6对实施例的详细说明中，将可清楚的呈现。以下实施例中所提到的结构内容，均是以说明书附图为参考。

实施例一，一种基于图像检索的人体动作对比分析方法,包括如下步骤：

步骤1：通过单目摄像机或手机获取人体运动的视频流数据，记录并保存目标对象的基本信息，包括姓名、性别、年龄、身高、所做动作名称；

步骤2-1:将拍摄的视频数据转换成统一的尺度；

步骤4：构建图像特征库,其步骤如下：

步骤4-1:选取目标视频对象，并按照每个人为类别进行存储；

实施例二，在实施例一的基础上，在执行步骤2时，Open-pose网络框架是一个多阶段双分支的网络结构，其中上面的支路用来预测部分亲和域PAFs，PAFs 用来学习关节点之间的关系；另一个支路用来预测人体关节点位置的置信图用来预测关节点的位置，通过两个分支协同预测进一步提高关节点预测的精度；

在执行步骤2时，通过Labelme图像标注工具，获取左脚掌、右脚掌、左手面、右手面四个坐标的位置信息，在原来关键点的基础上增加四个关键点，并通过迁移学习利用Open-pose获取所需的18个关键点坐标位置；

在执行步骤3时，得到左臀部C₁₁＝(cx₁₁,cy₁₁)、右臀部C₁₅＝(cx₁₅,cy₁₅)和脖子 C₂＝(cx₂,cy₂)的坐标,定义坐标原点，即，C₂、C₁₁、C₁₅三点的重心点C₀＝(cx₀,cy₀), 其中

在执行步骤4时，FREAK描述符是一种模拟人类视网膜的二进制描述符，采用由粗到精、扫视搜索的匹配方法，能够满足实时性要求的同事，对光照变化、模糊、等均具有较好的适应性。

其中，FREAK描述符是二进制比特串，如果用H表示其中一个特征点的FREAK 描述符，用公式表示为：

P_α是采样点所处的位置，N是特征向量数，

表示采样点对P_α中前一个采样点的像素值，

表示后一个采样点的像素值；

为了得到更好的，更具有辨识度的描述子，需要对得到的描述子进行降维处理，其步骤为：

步骤C1：建立矩阵D，D的每一行是一个FREAK二进制描述符，即每一行有 N个元素，采样点为S，可以产生S×(S-1)/2个采样点对；

步骤C2：对矩阵D的每一列计算其均值,按照均值大小进行排列；

步骤C3：选取前512列作为最终的二进制描述符。

实施例三，在实施例一基础上，在执行步骤5时，LSH的哈希函数的选择取决于其选择的相似性度量方法，本发明采用Hamming距离下的LSH，其中Hamming 汉明距离是对两个二进制序列的相似度进行度量；

采用Hamming距离下的LSH方法进行大规模的图像检索，即，对获取的二维姿态进行检索，LSH参数为(R,cR,P1,P2),其中R为原空间中两向量的距离，在原空间中，如果两个向量的距离小于R，表示这两个向量相似；P1为相似的向量映射后哈希值相等的概率；c为常数，在原空间中，如果两个向量的距离大于cR表示这两个向量不相似；P2为不相似的向量映射后哈希值的概率相等的概率；

采用LSH方法进行大规模的图像检索，主要包括两个步骤：

步骤D1：建立哈希引表；

步骤D2：以哈希索引表为基本依据，进行在线查找；

其中步骤D1又可以分为以下几个步骤：

步骤E1：选择满足(R,cR,P1,P2)-sensitive的哈希函数；

步骤E2：根据查找结果的准确率确定哈希表的个数L；

步骤E3:根据提取的FREAK特征经过哈希函数哈希到相应的桶内从而构造哈希表；

其中步骤D2又可以分为以下几个步骤：

步骤F1:采用局部敏感哈希算法对查询数据进行计算哈希得到相应的桶号；

步骤F2：根据步骤F1得到的桶号取出相应的数据；

步骤F3:计算查询数据与2L个数据之间的相似度，返回最近邻的数据。

本发明具体使用时，正摇双脚跳动作对比分析主要包括六个部分：数据的采集、数据的处理、坐标点的提取、特征库和图像库的构建、图片的检索、视频的合成；其中所述的数据的采集过程为通过手机或摄像机采集人体正面正摇双脚跳过程的视频流数据，本发明获取了30名经过训练并达到考试要求的初三学生的正摇双脚跳视频；中所述的数据处理包括对不同设备采集的视频流数据进行高和宽的统一设定，将视频高设定为530cm,宽设定为460cm；记录并保存目标对象的基本信息，包括姓名、性别、身高、年龄、所做动作名称；看图1，图2，图3，其中所述的坐标点的提取是通过对视频中每一帧的人体进行姿态估计得到关键点坐标，通过迁移学习利用Open-pose方法对获得视频中每帧人体的鼻子、脖子、右肩、右手肘、右手腕、右手面、左肩、左手肘、左手腕、左手面、右臀部、右膝盖、右脚掌、右脚踝、左臀部、左膝盖、左脚踝、左脚掌这18个关节点的坐标位置，坐标表示为C_i＝(cx_i,cy_i)，其中i从1到18，其中左脚掌、右脚掌、左手面、右手面四个坐标的位置信息，是通过Labelme图像标注工具，增加四个关键点位置信息，并通过迁移学习利用Open-pose获取最终所需的18个关键点坐标位置；

参看图4，对所得的18个关键点坐标以左臀部、右臀部和脖子三点构成的三角形重心为原点定义一个坐标系，并将直角坐标系转换成极坐标系，得到转换后的坐标矩阵P，中原点是利用得到的左臀部C₁₁＝(cx₁₁,cy₁₁)、右臀部C₁₅＝(cx₁₅,cy₁₅) 和脖子C₂＝(cx₂,cy₂)这三个坐标得到；

定义坐标原点，即，C₂、C₁₁、C₁₅三点的重心点C₀＝(cx₀,cy₀),其中

并以原点坐标为参照更新所有坐标点，将二维人体姿态固定在一张460cm×530cm的空白图片中；

参看图1，其中所述的特征库和图像库的构建，其步骤如下：

步骤G1:选取30个目标视频对象，并按照每个人为类别进行存储；

步骤G2:获取视频的每一帧图像，提取关键点坐标并按照名字和ID进行编号建立索引；

步骤G3:并利用FREAK(Fast Retina Keypoint)算法提取关键点形状特征，即，每一帧图片的描述子；

步骤G4：每一个视频对应一系列图片，每一个图片对应一组关键点坐标，每一组坐标对应一个图片描述子，并建立对应的索引，以此构建图像特征库，特种库为每一个人建立一个特征库即共有30个特征库；

P_α是采样点所处的位置，N是特征向量数，

表示采样点对P_α中前一个采样点的像素值，

表示后一个采样点的像素值；

步骤H1：建立矩阵D，D的每一行是一个FREAK二进制描述符，即每一行有N个元素，采样点为43，可以产生43×(43-1)/2＝903个采样点对，本发明中提取了232个特征点，D的大小为232×903；

步骤H2：对矩阵D的每一列计算其均值,按照均值大小进行排列；

步骤H3：选取前512列作为最终的二进制描述符；

参看图1，图5,图6，所述的图片的检索为当需要进行动作对比分析时，利用局部敏感哈希算法LSH(Locality-Sensitive Hashing)在图像特征库中进行快速相似性搜索找到相似的关键点坐标，利用相似的关键点坐标获取对应的视频帧，保存视频帧并组合成新视频与目标视频进行对比分析，以此来发现两者之间的差别；

其中LSH的哈希函数的选择取决于其选择的相似性度量方法，本发明采用Hamming距离下的LSH，其中Hamming汉明距离是对两个二进制序列的相似度进行度量；

采用Hamming距离下的LSH方法进行大规模的图像检索，即，对获取的二维姿态进行检索，LSH参数为(R,cR,P1,P2),其中R为原空间中两向量的距离，在原空间中，如果两个向量的距离小于R，表示这两个向量相似；P1为相似的向量映射后哈希值相等的概率；c为常数，在原空间中，如果两个向量的距离大于cR表示这两个向量不相似；P2为不相似的向量映射后哈希值的概率相等的概率；本发明R设置为0.5，c设置为19，P1设置为0.75，P2设置为0.05；

采用LSH方法进行大规模的图像检索，主要包括两个步骤：

步骤I1：建立哈希引表；

步骤I2：以哈希索引表为基本依据，进行在线查找；

其中步骤I1又可以分为以下几个步骤：

步骤J1：选择满足(R,cR,P1,P2)-sensitive的哈希函数；

步骤J2：根据查找结果的准确率确定哈希表的个数L,本发明中L为44；

步骤J3:根据提取的FREAK特征经过哈希函数哈希到相应的桶内从而构造哈希表；

其中步骤I2又可以分为以下几个步骤：

步骤K1:采用局部敏感哈希算法对查询数据进行计算哈希得到相应的桶号；

步骤K2：根据步骤F1得到的桶号取出相应的数据；

步骤K3:计算查询数据与2L＝88个数据之间的相似度，返回最近邻的数据。

参看图1，所述的视频合成，本发明共有30个特征库，每个特征库包含包含 2400张图片和其对应的特征描述子，图片的来源为一分钟的跳绳视频数据采样率为40帧每秒。当需要作对比分析时，为了尽可能匹配所有动作，目标视频数据的采样率应当小于数据库中视频采样率，本发明设置为30帧每秒，利用 Open-pose+FREAK+LSH从30个特征库中获取对应的图片，其中一旦锁定一个特征库，就不在在其他特征库中搜索，利用搜索得到的最匹配的图片合成新的视频。

以上所述是结合具体实施方式对本发明所作的进一步详细说明，不能认定本发明具体实施仅局限于此；对于本发明所属及相关技术领域的技术人员来说，在基于本发明技术方案思路前提下，所作的拓展以及操作方法、数据的替换，都应当落在本发明保护范围之内。

Claims

1.一种基于图像检索的人体动作对比分析方法,其特征在于,包括如下步骤：

步骤2-1:将拍摄的视频数据转换成统一的尺度；

步骤4：构建图像特征库,其步骤如下：

步骤4-1:选取目标视频对象，并按照每个人为类别进行存储；

2.如权利要求1所述一种基于图像检索的人体动作对比分析方法,其特征在于，在执行步骤2时，Open-pose网络框架是一个多阶段双分支的网络结构，其中上面的支路用来预测部分亲和域PAFs，PAFs用来学习关节点之间的关系；另一个支路用来预测人体关节点位置的置信图用来预测关节点的位置，通过两个分支协同预测进一步提高关节点预测的精度。

3.如权利要求1所述一种基于图像检索的人体动作对比分析方法,其特征在于，在执行步骤2时，通过Labelme图像标注工具，获取左脚掌、右脚掌、左手面、右手面四个坐标的位置信息，在原来关键点的基础上增加四个关键点，并通过迁移学习利用Open-pose获取所需的18个关键点坐标位置。

4.如权利要求1所述一种基于图像检索的人体动作对比分析方法,其特征在于，在执行步骤3时，得到左臀部C₁₁＝(cx₁₁,cy₁₁)、右臀部C₁₅＝(cx₁₅,cy₁₅)和脖子C₂＝(cx₂,cy₂)的坐标,定义坐标原点，即，C₂、C₁₁、C₁₅三点的重心点C₀＝(cx₀,cy₀),其中

5.如权利要求1所述一种基于图像检索的人体动作对比分析方法,其特征在于，在执行步骤4时，FREAK描述符是一种模拟人类视网膜的二进制描述符，采用由粗到精、扫视搜索的匹配方法，能够满足实时性要求的同事，对光照变化、模糊、等均具有较好的适应性。

其中，FREAK描述符是二进制比特串，如果用H表示其中一个特征点的FREAK描述符，用公式表示为：

P_α是采样点所处的位置，N是特征向量数，

表示采样点对P_α中前一个采样点的像素值，

表示后一个采样点的像素值；

步骤C1：建立矩阵D，D的每一行是一个FREAK二进制描述符，即每一行有N个元素，采样点为S，可以产生S×(S-1)/2个采样点对；

步骤C3：选取前512列作为最终的二进制描述符。

6.如权利要求1所述一种基于图像检索的人体动作对比分析方法,其特征在于，在执行步骤5时，LSH的哈希函数的选择取决于其选择的相似性度量方法，本发明采用Hamming距离下的LSH，其中Hamming汉明距离是对两个二进制序列的相似度进行度量；

采用LSH方法进行大规模的图像检索，主要包括两个步骤：

步骤D1：建立哈希引表；

步骤D2：以哈希索引表为基本依据，进行在线查找；

其中步骤D1又可以分为以下几个步骤：

步骤E1：选择满足(R,cR,P1,P2)-sensitive的哈希函数；

步骤E2：根据查找结果的准确率确定哈希表的个数L；

其中步骤D2又可以分为以下几个步骤：

步骤F2：根据步骤F1得到的桶号取出相应的数据；