CN114092863A

CN114092863A - 一种用于多视角视频图像的人体动作评估方法

Info

Publication number: CN114092863A
Application number: CN202111423512.5A
Authority: CN
Inventors: 钟代笛; 仲元红; 冉琳; 王新月; 郭雨薇; 徐乾锋; 赵艳霞; 魏晓燕; 黄智勇; 周庆; 葛亮; 唐枋; 靳虎
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-02-25

Abstract

本发明涉及计算机视觉图像处理技术领域，具体涉及一种用于多视角视频图像的人体动作评估方法，包括：获取测试者多个视角下的待测视频；从各个视角下的待测视频中分别选取关键视频帧；将各个视角下的关键视频帧进行拼接，得到对应的多视角拼接视频；基于多视角拼接视频从多视角的模板视频中选取对应的模板视频帧来构建多视角模板视频；基于多视角拼接视频和对应的多视角模板视频完成人体动作评估，以生成对应的动作评结果。本发明提供了一种能够应用于多视角视频图像的人体动作评估方法，以能够解决因拍摄视角局限而导致动作被遮挡的问题，从而能够提升人体动作评估的效果。

Description

一种用于多视角视频图像的人体动作评估方法

技术领域

本发明涉及计算机视觉图像处理技术领域，具体涉及一种用于多视角视频图像的人体动作评估方法。

背景技术

随着互联网大数据信息技术的广泛应用，基于视觉图像的人体行为侦测和识别技术的应用场景也越来越多。通过对人体的表情、体态等动作特征进行分析，位于人们在公共场合或特定活动空间的行为侦测和预判等技术应用而言，能够提供丰富的识别特征信息，是人类活动大数据信息的一个重要组成部分。

例如，在运动竞技及健康筛查等领域就需要对人体的动作进行识别，以便对动作的标准情况进行评估。动作评估需要基于动作评估标准和动作评估决策依据进行。早期常用的评估方法是评估者用眼睛观察测试者的动作，并将测试者的动作与标准动作图样进行人为比较以给予分值；同时，评估者手持摄像机进行视频提取，然后用视频截图保存作为备查。上述现有方法不光浪费人力、物力，并且人为判断时也会由于主观性的原因造成评估结果不够客观和准确。

随着计算机技术的发展，现有技术中出现了基于视频进行动作评估的方法。例如，公开号为CN108205654B的中国专利就公开了《一种基于视频的动作检测方法及装置》，其方法包括：检测待检测视频的视频帧中的肢体关键点；根据肢体关键点获得对应的行为特征；基于行为特征及全局动作评估模型，进行动作完成度检测，获得全局检测结果，其中，全局动作评估模型用于检测视频中人体动作相对于标准动作的完成度。

上述现有方案中的动作检测方法基于视频帧中的肢体关键点获得行为特征，进而基于行为特征及全局动作评估模型进行动作评估。动作评估，一般是将待测视频中的各个视频帧与模板视频中的对应视频帧进行对比并计算相似度，进而根据相似度来判断动作完成情况。但是，对于某些较为复杂的动作而言，需要对动作进行多个方位的评估，以避免因拍摄视角局限而导致动作被遮挡的问题。然而，现有动作评估方法主要是针对单一视角的动作评估，将其应用于多视角视频图像的动作评估场景时，存在视频图像的视角难以有效切换的问题，导致人体动作评估的效果不好。因此，如何设计一种能够应用于多视角视频图像的人体动作评估方法是亟需解决的技术问题。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何提供一种能够应用于多视角视频图像的人体动作评估方法，以解决因拍摄视角局限而导致动作被遮挡的问题，从而提升人体动作评估的效果。

为了解决上述技术问题，本发明采用了如下的技术方案：

一种用于多视角视频图像的人体动作评估方法，包括以下步骤：

S1：获取测试者多个视角下的待测视频；

S2：从各个视角下的待测视频中分别选取关键视频帧；

S3：将各个视角下的关键视频帧进行拼接，得到对应的多视角拼接视频；

S4：基于多视角拼接视频从多视角的模板视频中选取对应的模板视频帧来构建多视角模板视频；

S5：基于多视角拼接视频和对应的多视角模板视频完成人体动作评估，以生成对应的动作评结果。

优选的，步骤S2中，通过如下步骤选取关键视频帧：

S201：对各个视角下待测视频的视频帧进行骨架分析和姿态分析，生成对应视频帧的人体关键点坐标图；

S202：计算人体关键点坐标图中各个关键点的置信度；

S203：根据对应的动作评估标准确定目标关键点；

S204：从一个视角开始，按时间顺序选取目标关键点的置信度大于或等于设置阈值的视频帧作为关键视频帧；若当前视角中目标关键点的置信度小于设置阈值，则选择其他视角中目标关键点的置信度大于或等于设置阈值的视频帧作为关键视频帧；

S205：重复步骤S204，直至各个视角下的关键视频帧选取完成。

优选的，步骤S201中，首先将对应的视频帧输入经过预先训练的姿态估计模型中，输出对应的热度图；然后通过热度图计算关键点坐标，以得到对应的人体关键点坐标图；

其中，训练姿态估计模型时，获取用于训练的姿态数据集；然后将姿态数据集中训练图上预先标注的标签转换为对应的热度图标签，以得到对应的标签热度图；最后基于标签热度图训练姿态估计模型；计算关键点的坐标时，首先获取热度图，并对热度图进行降维；然后计算热度图中对应关键点的最大热度值索引；最后通过热度图中最大热度值对应的索引结合热度图尺寸计算对应关键点的坐标。

优选的，步骤S202中，计算关键点的置信度时，首先对关键点热度图进行降维，然后通过如下公式计算对应的置信度；

上述式中：e表示自然常数；β表示校准系数；i、j分别表示一维热度图的索引；x_i、x_j表示对应索引i和j的热度值。

优选的，步骤S3中，选取得到各个视角下的关键视频帧后，按照时间顺序对各个视角下的关键视频帧进行拼接得到多视角拼接视频。

优选的，步骤S5中，通过如下步骤完成人体动作评估：

S501：对多视角拼接视频的关键视频帧进行骨架分析和姿态分析，生成对应关键视频帧的人体关键点坐标图；

S502：基于人体关键点坐标图结合相应的动作评估标准选取多帧关键视频帧作为最优视频帧；

S503：基于各帧最优视频帧从多视角模板视频中选取对应的多帧模板视频帧作为最优模板视频帧；

S504：分别基于各帧最优视频帧和各帧最优模板视频帧计算多视角拼接视频的运动状态信息和多视角模板视频的运动标准信息；

S505：将多视角拼接视频的运动状态信息和多视角模板视频的运动标准信息进行对比，生成对应的动作评估结果。

优选的，步骤S502中，选取各帧最优视频帧时，首先基于人体关键点坐标图计算各个关键点间的角度信息；然后基于关键点间的角度信息确定人体关键点坐标图中的推荐关键点；最后基于人体关键点坐标图中推荐关键点和动作评估标准选取对应的多帧最优视频帧。

优选的，关键点间的角度信息为逆时针旋转角；

通过如下步骤计算逆时针旋转角：

S511：获取用于计算逆时针旋转角的关键点坐标A、B、C；

S512：基于关键点坐标A、B、C计算对应的关键点向量

和关键点向量

S513：将关键点向量

沿逆时针方向旋转，直至与关键点向量

重合；然后将关键点向量

旋转至关键点向量

的角度作为对应的逆时针旋转角。

优选的，步骤S503中，选取最优模板视频帧时，基于最优视频帧的人体关键点坐标图计算对应的关键点特征值，然后从多视角模板视频中匹配预设特征值与关键点特征值相对应的视频帧作为最优视频帧的最优模板视频帧；

关键点特征值基于关键点间的逆时针旋转角计算，计算公式如下：

其中，

上述式中：I表示最优视频帧的关键点特征值；

表示最优视频帧中第n个逆时针旋转角的方差；R表示逆时针旋转角；u_r表示最优视频帧中所有逆时针旋转角的均值；N表示最优视频帧中逆时针旋转角的个数；λ表示设置的调节参数，初始取值为0.1。

优选的，步骤S504中，待测视频的运动状态信息包括肢体运动速度、肢体动作稳定性和肢体运动趋势；

通过如下公式计算肢体运动速度：

通过如下公式判断肢体动作稳定性：

通过如下公式判断肢体运动趋势：

θ＝R₂-R₁；

上述式中：V(N₁,N₂)表示最优视频帧N₂和最优视频帧N₁中对应肢体的运动速度；R₁、R₂分别表示最优视频帧N₂和最优视频帧N₁中对应肢体的关键点间的逆时针旋转角；Fps表示待测视频的帧率；S²表示对应指体的稳定性特征值；判断肢体动作稳定性时，将S²与设置的稳定性阈值Y作比较：若S²≥Y，则表示肢体动作稳定，否则，肢体动作不稳定；R＝{R₁,R₂,…R_n}表示多帧最优视频帧中对应肢体的关键点间的逆时针旋转角，其中，n表示最优视频帧的帧数；R表示R中逆时针旋转角的均值；θ表示最优视频帧N₂和最优视频帧N₁中对应肢体的逆时针旋转角R₁和R₂间的角度差值，判断肢体运动趋势时：若θ＞0，则表示肢体逆时针旋转，若θ＜0，则表示肢体顺时针旋转。

本发明中的人体动作评估方法与现有技术相比，具有如下有益效果：

1、本发明中通过从各个视角的待测视频中获取关键视频帧并拼接得到多视角拼接视频的方式，能够同时将多个视角的待测视频应用于人体动作评估，进而能够解决因拍摄视角局限而导致动作被遮挡的问题，从而能够提升人体动作评估的效果。

2、本发明基于多视角拼接视频构建对应的多视角模板视频，使得多视角模板视频能够与多视角拼接视频形成多视角的对应，从而能够提升人体动作评估的准确性。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为人体动作评估方法的逻辑框图；

图2为人体上十个逆时针旋转角的示意图；

图3为右大臂和右小臂间的肢体角度示意图；

图4为右大臂和右小臂间的逆时针旋转角示意图。

具体实施方式

下面通过具体实施方式进一步详细的说明：

实施例：

首先说明动作评估标准和动作评估决策依据的含义。

动作评估标准：是指动作评估时需要评估的项目。

以深蹲为例，其动作评估标准包括：1)测试杆是否在头顶正上方；2)躯干与小腿否平行或与地面是否垂直；3)下蹲时大腿是否低于水平线；4)双膝是否保持与双脚方向一致。

动作评估决策依据：是指动作评估时的打分标准。

以深蹲为例，其动作评估决策依据包括：1)测试杆在头顶正上方，躯干与小腿平行或与地面垂直，下蹲时大腿低于水平线，保持双膝与双脚方向一致，得3分；2)不能完成要求动作或脚跟下垫上木板完成要求动作，得2分；3)脚跟下垫上模板依然不能完成要求动作，得1分；4)测试过程中身体任何部位出现疼痛，得0分。

基于上述说明，本实施例中公开了一种用于多视角视频图像的人体动作评估方法。

如图1所示，用于多视角视频图像的人体动作评估方法，包括以下步骤：

S1：获取测试者多个视角下的待测视频；

S2：从各个视角下的待测视频中分别选取关键视频帧；

在本发明中，通过从各个视角的待测视频中获取关键视频帧并拼接得到多视角拼接视频的方式，能够同时将多个视角的待测视频应用于人体动作评估，进而能够解决因拍摄视角局限而导致动作被遮挡的问题，从而能够提升人体动作评估的效果。同时，本发明基于多视角拼接视频构建对应的多视角模板视频，使得多视角模板视频能够与多视角拼接视频形成多视角的对应，从而能够提升人体动作评估的准确性。

具体实施过程中，通过如下步骤选取关键视频帧：

S201：对各个视角下待测视频的视频帧进行骨架分析和姿态分析，生成对应视频帧的人体关键点坐标图；本实施例中通过上海交通大学提出的AlphaPose模型对待测视频的待测视频帧进行骨架分析和姿态分析。

S202：计算人体关键点坐标图中各个关键点的置信度；

S203：根据对应的动作评估标准确定目标关键点；

S205：重复步骤S204，直至各个视角下的关键视频帧选取完成。选取得到各个视角下的关键视频帧后，按照时间顺序对各个视角下的关键视频帧进行拼接得到多视角拼接视频。

具体的，步骤S201中，首先将对应的视频帧输入经过预先训练的姿态估计模型中，输出对应的热度图；然后通过热度图计算关键点坐标，以得到对应的人体关键点坐标图；

其中，训练姿态估计模型时，获取用于训练的姿态数据集；然后将姿态数据集中训练图上预先标注的标签转换为对应的热度图标签，得到对应的标签热度图；最后基于标签热度图训练姿态估计模型；

生成标签热度图时，首先设定标签热度图的大小(W_h×H_h)，以生成一个大小为W_h×H_h的全零矩阵，然后通过如下公式计算预先标注的标签在标签热度图上的热度分布，以生成对应的标签热度图；

计算关键点的坐标时，获取大小为W_h×H_h的热度图，并将热度图降维成1*W_h*H_h；然后通过如下公式计算热度图中对应关键点的最大热度值索引；最后通过热度图中最大热度值对应的索引结合热度图尺寸计算对应关键点的坐标，具体的，通过索引除以对应的W_h，得到的商是大小为W_h×H_h的关键点的行数x，余数是大小为W_h×H_h的关键点的列数y，即得到关键点的坐标(x,y)；

上述式中：g表示热度值；x₀、y₀表示预先标注的标签真实坐标；x、y表示标签在标签热度图中的坐标；σ表示标准差，取值为2或3；e表示自然常数；i、j分别表示一维热度图的索引；x_i、x_j表示对应索引i和j的热度值；β表示校准系数。

计算关键点的置信度时，首先对关键点热度图进行降维，然后通过如下公式计算对应的置信度；

上述式中：e表示自然常数；β表示校准系数；i、j分别表示一维热度图的索引；x_i、x_j表示对应索引i和j的热度值；β表示校准系数。

在本发明中，通过计算置信度并基于置信度选取关键视频帧的方式，使得最终拼接得到的多视角拼接视频中各个关键视频帧的置信度均能够处于大于或等于设置阈值的状态，即多视角拼接视频能够保持较高的可靠性，从而能够很好的解决因拍摄视角局限而导致动作被遮挡的问题。同时，本发明中通过计算置信度的方式很好的反映了视频帧的可靠性，从而能够提升人体动作评估的效果。

具体实施过程中，通过如下步骤完成人体动作评估：

在本发明中，通过选取多帧最优视频帧并计算待测视频运动状态信息的方式，能够有效的体现测试者的动作连续性和动作稳定性，进而通过待测视频运动状态信息和模板视频运动标准信息对比的方式生成动作评估结果，能够保证人体动作评估的准确性。同时，本发明通过骨架分析和姿态分析的方式生成人体关键点坐标图，进而结合动作评估标准选取多帧最优视频帧，使得选取的多帧最优视频帧能够与对应的动作评估标准相关联，能够保证最优视频帧的选择准确性，从而进一步保证动作评估的准确性和效果。此外，本发明还基于多帧最优视频帧选取多帧最优模板视频帧并计算了对应的运动标准信息，而运动标准信息是与运动状态信息相对应的，使得能够通过运动标准信息更为准确的评估运动状态信息的准确性，进而能够保证人体动作评估的准确性

具体实施过程中，选取各帧最优视频帧时，首先基于人体关键点坐标图计算各个关键点间的角度信息；然后基于关键点间的角度信息确定人体关键点坐标图中的推荐关键点；最后基于人体关键点坐标图中推荐关键点和动作评估标准选取对应的多帧最优视频帧。

关键点间的角度信息为逆时针旋转角；结合图2所示，逆时针旋转角的类型包括左小臂与左大臂间角度、左大臂与左肩部间角度、左大臂与躯干间角度、躯干与左大腿间角度、左大腿与左小腿间角度、右大臂与右小臂间角度、右肩部与右大臂间角度、躯干与右大臂间角度、躯干与右大腿间角度、右大腿与右小腿间角度。

通过如下步骤计算逆时针旋转角：

S511：获取用于计算逆时针旋转角的关键点坐标A、B、C；

S512：基于关键点坐标A、B、C计算对应的关键点向量

和关键点向量

S513：将关键点向量

沿逆时针方向旋转，直至与关键点向量

重合；然后将关键点向量

旋转至关键点向量

的角度作为对应的逆时针旋转角。

在本发明中，通过计算角度信息并基于角度信息选取推荐关键点最终基于推荐关键点和动作评估标准选取多帧最优视频帧的方式，能够保证最优视频帧的选取准确性，并使得选取的多帧最优视频帧能够与对应的动作评估标准相关联，从而能够保证最优视频帧的选择准确性。

对视频帧进行骨架分析和姿态分析得到的是二维姿态，人体关键点坐标图中的关键点实际上是真实姿态在二维平面的投影，这导致简单的肢体角度难以准确的表示一个动作肢体特征。如图3所示，当右臂分别弯曲于胸前和弯曲在身体一侧时，右大臂和右小臂间的肢体角度相同。在数据上来看，右臂的动作肢体特征是一样的，因为右大臂和右小臂间的肢体角度大小相同，可实际上，两个动作有很大的差异。

为此，本发明在肢体角度的基础上增加了方向信息，即旋转方向，使得生成的逆时针旋转角同时具有角度信息和方向信息(如图4所示)，进而能够解决将真实姿态投影到二维平面时出现的部分姿态信息丢失的问题，能够准确的表示动作肢体特征，从而能够保证人体动作评估的准确性。同时，本发明设计的十个逆时针旋转角能够基本覆盖人体姿态的重要动作肢体特征，从而能够进一步保证人体动作评估的效果。

具体实施过程中，选取最优模板视频帧时，基于最优视频帧的人体关键点坐标图计算对应的关键点特征值，然后从模板视频中匹配预设特征值与关键点特征值相对应的视频帧作为关键视频帧的最优模板视频帧；

其中，

上述式中：I表示最优视频帧的关键点特征值；

在本发明中，通过计算关键点特征值和匹配预设特征值的方式，能够准确的匹配得到最优视频帧对应的最优模板视频帧，进而能够在降低动作评估成本并提升动作评估效率的前提下，进一步保证人体动作评估的准确性。同时，本发明能够通过调整调节参数的方式不断的优化最优模板视频帧的选择策略，从而能够更好的提升最优模板视频帧的选择准确性。

具体实施过程中，待测视频的运动状态信息包括肢体运动速度、肢体动作稳定性和肢体运动趋势；运动标准信息包括运动速度标准范围和标准的运动趋势；当肢体运动速度处于运动速度标准范围、肢体运动趋势与标准的动趋势对应且动作稳定时，动作评估结果为通过评估；否则，动作评估不通过。

通过如下公式计算肢体运动速度：

通过如下公式判断肢体动作稳定性：

通过如下公式判断肢体运动趋势：

θ＝R₂-R₁；

上述式中：V(N₁,N₂)表示最优视频帧N₂和最优视频帧N₁中对应肢体的运动速度；R₁、R₂分别表示最优视频帧N₂和最优视频帧N₁中对应肢体的关键点间的逆时针旋转角；Fps表示待测视频的帧率；S²表示对应指体的稳定性特征值；判断肢体动作稳定性时，将S²与设置的稳定性阈值Y作比较：若S²≥Y，则表示肢体动作稳定，否则，肢体动作不稳定；R＝{R₁,R₂,…R_n}表示多帧最优视频帧中对应肢体的关键点间的逆时针旋转角，其中，n表示最优视频帧的帧数；

表示R中逆时针旋转角的均值；θ表示最优视频帧N₂和最优视频帧N₁中对应肢体的逆时针旋转角R₁和R₂间的角度差值，判断肢体运动趋势时：若θ＞0，则表示肢体逆时针旋转，若θ＜0，则表示肢体顺时针旋转。

在本发明，通过肢体运动速度、肢体动作稳定性和肢体运动趋势能够很好的反映测试者的运动状态信息，进而能够有效的体现测试者的动作连续性和稳定性，后续通过待测视频的运动状态信息和模板视频的运动标准信息对比生成动作评估结果，从而能够保证人体动作评估的准确性。同时，本发明的计算公式和方式能够很好的计算得到肢体运动速度、肢体动作稳定性和肢体运动趋势，从而能够更好的反映测试者的运动状态信息。

需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管通过参照本发明的优选实施例已经对本发明进行了描述，但本领域的普通技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离所附权利要求书所限定的本发明的精神和范围。同时，实施例中公知的具体结构及特性等常识在此未作过多描述。最后，本发明要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种用于多视角视频图像的人体动作评估方法，其特征在于，包括以下步骤：

S1：获取测试者多个视角下的待测视频；

S2：从各个视角下的待测视频中分别选取关键视频帧；

2.如权利要求1所述的用于多视角视频图像的人体动作评估方法，其特征在于，步骤S2中，通过如下步骤选取关键视频帧：

S201：对各个视角下待测视频的视频帧进行骨架分析和姿态分析，生成对应的人体关键点坐标图；

S202：计算人体关键点坐标图中各个关键点的置信度；

S203：根据对应的动作评估标准确定目标关键点；

3.如权利要求2所述的用于多视角视频图像的人体动作评估方法，其特征在于，步骤S201中，首先将对应的视频帧输入经过预先训练的姿态估计模型中，输出对应的热度图；然后通过热度图计算关键点坐标，以得到对应的人体关键点坐标图；

其中，训练姿态估计模型时，获取用于训练的姿态数据集；然后将姿态数据集中训练图上预先标注的标签转换为对应的热度图标签，以得到对应的标签热度图；最后基于标签热度图训练姿态估计模型；

计算关键点的坐标时，首先获取热度图，并对热度图进行降维；然后计算热度图中对应关键点的最大热度值索引；最后通过热度图中最大热度值对应的索引结合热度图尺寸计算对应关键点的坐标。

4.如权利要求3所述的用于多视角视频图像的人体动作评估方法，其特征在于，步骤S202中，计算关键点的置信度时，首先对关键点热度图进行降维，然后通过如下公式计算对应的置信度；

5.如权利要求2所述的用于多视角视频图像的人体动作评估方法，其特征在于：步骤S3中，选取得到各个视角下的关键视频帧后，按照时间顺序对各个视角下的关键视频帧进行拼接得到多视角拼接视频。

6.如权利要求1所述的用于多视角视频图像的人体动作评估方法，其特征在于，步骤S5中，通过如下步骤完成人体动作评估：

7.如权利要求6所述的用于多视角视频图像的人体动作评估方法，其特征在于：步骤S502中，选取各帧最优视频帧时，首先基于人体关键点坐标图计算各个关键点间的角度信息；然后基于关键点间的角度信息确定人体关键点坐标图中的推荐关键点；最后基于人体关键点坐标图中推荐关键点和动作评估标准选取对应的多帧最优视频帧。

8.如权利要求7所述的用于多视角视频图像的人体动作评估方法，其特征在于：关键点间的角度信息为逆时针旋转角；

通过如下步骤计算逆时针旋转角：

S511：获取用于计算逆时针旋转角的关键点坐标A、B、C；

S512：基于关键点坐标A、B、C计算对应的关键点向量