CN115953834A

CN115953834A - 面向仰卧起坐的多头注意力姿态估计方法及检测系统

Info

Publication number: CN115953834A
Application number: CN202211622338.1A
Authority: CN
Inventors: 许国良; 汪子璇
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-04-11

Abstract

本发明涉及计算机视觉领域，公开了一种面向仰卧起坐的多头注意力姿态估计方法及检测系统，包括：S1、获取若干关于仰卧起坐的原始图像构建自建数据集并进行标注，然后使用合成数据集将若干所述原始图像进行扩充得到扩充数据集；S2、构建多头自注意力模块M_x和ResNet50神经网络，并将所述多头自注意力模块M_x添加至ResNet50神经网络中，得到用于提取图像特征的特征提取网络；S3、构建基于人体坐标回归的人体姿态估计器E_x和损失函数L_loss，将所述特征提取网络和人体姿态估计器E_x通过平均池化层连接回归得到人体姿态估计网络；S4、使用训练完后的所述面向仰卧起坐的多头注意力姿态估计网络对所述测试集中的图像进行识别。本发明可以避免发生过拟合现象，提高图像全局信息的利用，减少推理内存。

Description

面向仰卧起坐的多头注意力姿态估计方法及检测系统

技术领域

本发明涉及计算机视觉领域，具体涉及面向仰卧起坐的多头注意力姿态估计方法及检测系统。

背景技术

随着社会经济发展、人民生活水平的提高以及中国国际地位的提升，国家把全国人民体质的增强已经提升到了战略性高度。为了将“学校教育要树立‘健康第一’的指导思想”落到实处，我国提出并实行了体质测试。体质测试旨在使学生们意识到要增强自身体质，提高健康水平，促使学生积极投身于更多体育项目及锻炼中。高校要德、智、体、美、劳全方面培养学生，使学生向高素质人才靠拢。在这个大背景下，迫切需要对全民体质进行更高效、准确的检测。目前，体测包含身高、体重、肺活量、坐位体前屈、立定跳远、50米跑步、仰卧起坐或引体向上、800米或1000米跑步这些项目。

目前现有的体测方式分为人工测试方式、传感器测试方式以及计算机视觉测试方式。传统的体测方法中，通常为人工计时计数，存在测试效率不高，且误差率大，长时间的反复性操作也容易造成测试员疲惫，对不规范动作不易察觉等缺点。我校本科生近3万人，每年这些项目的体测工作量巨大，给教师、学生造成了极大的不便。还有一种现有技术，是通过在测试者身上佩戴电子设备来判断测试者动作是否规范，但测试者存在一定的束缚感，舒适程度低，测试体验感差。然后是基于计算机视觉的测试方式，该类方法方便使用，不需要繁琐的仪器步骤，且受光线影响较小，但目前现有的体测算法，网络框架庞大，实时性效果不好。

随着人工智能的迅猛发展，深度学习应用于社会的诸多的方面。由深度学习引申出的姿态估计在计算机视觉技术的众多分支中占主要地位。简单地说，使用此种技术可通过图像或视频的形式确定人体各部位的运动方向以及相关信息。在近些年运动发展过程中，人们对于各种类型的体育项目关注度与日俱增。理论和技术的结合使得运动员的培养与训练更加科学有效，从而能够深度挖掘运动员的潜力，促进体育运动的发展。因此，对体测训练动作展开检测至关重要。

在如今数字智能化的运动训练场景下，计算机视觉技术在运动和健身训练领域具有广阔的发展空间，我们可以将计算机视觉技术和运动场景下的动作训练相结合，对运动员训练时的动作行为进行一个有效的辅助和评估。对运动动作的研究不仅对运动员有着重要的应用价值，对没有专业教练的普通运动爱好者也有着重要的参考价值。我们可以通过对运动员运动过程中的动作进行一个数据的获取然后对动作行为进行数据分析，这样运动员便可看到和了解到自己平时的训练动作和标准动作的差别，对自己的训练有很大的参考价值，有利于改善自己的训练姿态和状态。

因此，通过构建一种模型简单的人体姿态估计识别方法，充分利用少量的图像样本和图像全局信息，在不降低识别精确率的同时，减小运行内存，这已经成为研究学者们关注的重点。

发明内容

本发明提供面向仰卧起坐的多头注意力姿态估计方法及检测系统，以解决上述问题。

本发明通过下述技术方案实现：

一种面向仰卧起坐的多头注意力姿态估计方法，包括：

S1、获取若干关于仰卧起坐的原始图像构建自建数据集并进行标注，然后使用合成数据集将若干所述原始图像进行扩充得到扩充数据集，将所述扩充数据集按照一定比例将标注后的所述扩充数据集划分为训练集和测试集；

S2、构建多头自注意力模块M_x和ResNet50神经网络，并将所述多头自注意力模块M_x添加至ResNet50神经网络中，得到用于提取图像特征的特征提取网络；

S3、构建基于人体坐标回归的人体姿态估计器E_x和损失函数L_loss，将特征提取网络和人体姿态估计器E_x通过平均池化层连接回归得到人体姿态估计网络，使用所述训练集的图像特征训练所述人体姿态估计网络，得到最终的面向仰卧起坐的多头注意力姿态估计网络；

S4、使用训练完后的所述面向仰卧起坐的多头注意力姿态估计网络对所述测试集中的图像进行识别。

作为优化，S1的具体步骤为：

S1.1、在测试场地拍摄一定数量的关于仰卧起坐的视频，并从所述视频的每I帧中选择一帧作为原始图像，若干所述原始图像构建成为自建数据集，然后对所述原始图像进行标注；

S1.2、使用Infinite Data的API构建足够数量的合成数据集，然后使用所述合成数据集对每个所述原始图像进行扩充得到扩充数据集，并生成对应的标签，同时对所述扩充数据集进行预处理和数据增强的操作；

S1.3、将所述扩充数据集按照一定比例将标注后的所述扩充数据集划分为训练集和测试集。

作为优化，对所述扩充数据集进行预处理和数据增强具体包括：执行随机缩放增强、平移变换增强、随机水平翻转增强、半身肢体数据增强、随机旋转和缩放增强以及防射变换，并将所述扩充数据集的图像转换为张量，并对输入的张量进行归一化。

作为优化，S2中，所述特征提取网络的构建过程为：

S2.1、构建ResNet50神经网络；

S2.2、构建多头自注意力模块M_x；

S2.3、将所述ResNet50神经网络中的第五阶段中的所有残差块中卷积核为3×3的结构替换为所述多头自注意力模块M_x，得到特征提取网络。

作为优化，构建所述多头自注意力模块M_x的具体过程为：

D1、将训练集中的图像X划分成G₁×G₂的小网格，并将所述图像X重塑为X₁：

其中，H、W、C分别是图像的高、宽、特征维度；

D2、将查询定义为q，键定义为k，值定义为v，因此得到：

其中，

为第一次分格得到的小网格对应的可训练的权重矩阵；

D3、使用ViT生成每个小网格的注意力A₁，并添加一个残差连接N，得到：

A₁＝A₁+N；

D4、继续对所述注意力A₁进行分格计算，得到下采样的注意力

因此可以得到：

其中，

分别为第一次下采样对应的可训练的权重矩阵；

D5、继续对D4中的注意力A₁进行下采样，直到H_i×W_i不能进行分割，i为第i次下采样的次数，H_i为得到的第i次图像的高，W_i为得到的第i次图像的宽；

D6、将多次下采样后得到的注意力合并，得到所述多头自注意力模块M_x的注意力输出，即训练集中的图像的特征：

M_x(X)＝(A₁+…+A_i)W^p+N

其中，M_x(X)为所述多头自注意力模块M_x的输出，A_i为第i次下采样的采样注意力，

为用于特征投影的可训练权重矩阵，即W_i ^q，W_i ^k，W_i ^v的矩阵合并，N为残差连接。

作为优化，构建基于人体坐标回归的人体姿态估计器E_x的具体过程为：

B1、通过全连接层回归得到所述训练集的图像特征的关键点的坐标值；

B2、判断某一能区分左右的关键点位于所述图像中的左侧还是右侧，从而得到拍摄该所述图像的摄像头的拍摄方位；

B3、赋予身体属于同一部位的关键点同一权重，不同部位的关键点权重可以不相同，根据各权重结合仰卧起坐的评判标准。赋予权重只用在检测关键点的阶段，判断角度用于检测仰卧起坐阶段(满足条件->计数；不满足条件->不计数)。

作为优化，S3的具体步骤为：

S3.1、使用MLE极大似然估计结合对标准正态分布的拟合学习真实结果与预测结果之间的偏差的分布，以得到损失函数L_loss；

S3.2、采用Adam优化器，根据步骤S3.1得到的所述损失函数L_loss计算出来的误差，对所述人体姿态估计网络训练，得到最终的面向仰卧起坐的多头注意力姿态估计网络。

作为优化，S3.1的具体步骤为：

S3.1.1、获取所述训练集的图像的关键点的真实结果(x,y)以及通过所述人体姿态估计网络得到的所述训练集的图像的关键点的预测结果

并计算所述真实结果(x,y)和预测结果

的偏差Δ(·)：

其中，(x,y)分别为所述训练集的图像上的真实的关键点的像素点的坐标，

分别为所述训练集的图像的预测的关键点的像素点的坐标；

S3.1.2、将所述偏差乘以拉伸量S再与所述预测结果进行相加得到偏差的分布函数，并引入正态分布G(∈)函数，得到所述偏差的回归模型；

所述偏差的回归模型具体为：

其中，r为修正项；

S3.1.3、对所述偏差的回归模型取对数得到似然函数：

S3.1.4、将所述似然函数结合MLE极大似然估计得到损失函数L_loss：

其中，G(∈)是一个正态分布，Δ(·)为真实结果与预测结果之间的偏差，S为拉伸量，r为修正项。

本发明还公开了一种面向仰卧起坐的多头注意力姿态估计系统，包括：

图像采集模块，用于获取被测试者在测试时间段内的视频，并将所述视频划分为由一段视频帧序列组成的若干帧图像；

姿态估计模块，用于将提取的若干帧图像输入至上述的所述面向仰卧起坐的多头注意力姿态估计网络中，获取每一帧图像中被测试者的人体框和人体骨骼的关键点；

仰卧起坐行为识别模块，根据所述姿态估计模块得到的被测试者每一帧图像中的若干个关节点的坐标；

判断与计数模块，通过所述仰卧起坐行为识别模块得到识别的若干个关键点的坐标，通过判断右肩关键点、右髋关键点、右膝关键点构成的夹角θ₁<30°是否满足，同时，右髋关键点、右膝关键点以及右侧踝关键点三者构成的夹角θ₂是否满足70°<θ₂<120°来判断被测试者的身体下半部分动作是否标准，进而判断识别到的一段视频帧序列是否为一次合格的仰卧起坐，并对识别合格的仰卧起坐的结果进行计数；

数据显示模块，显示被测试者在规定时间内仰卧起坐的测试结果。

作为优化，还包括：

身份识别模块，用于识别被测试者的身份信息；

数据服务器，用于存储被测试者信息和被测试者最后的测试结果成绩。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明利用分层多头注意力机制将输入的图像分割成块进行局部建模，然后将局部建模进行融合，将局部和全局注意力特征进行聚合，获得具有强大表示能力的特征，并结合ResNet50网络将ResNet50网络的c3层的3×3卷积层替换为分层多头注意力模块，本发明采用坐标回归方式进行关键点识别，与热图识别相比一定程度上减少了运行时占用的内存，并且延迟开销减少，有利于将结构用于仰卧起坐动作的识别，扩充数据集上采用合成数据集扩充真实数据集容量，避免发生过拟合现象。

附图说明

为了更清楚地说明本发明示例性实施方式的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。在附图中：

图1为本发明方法的流程图；

图2为本发明方法检测的关键点示意图；

图3为本发明系统的原理框图；

图4为本发明系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

一种面向仰卧起坐的多头注意力姿态估计方法，包括：

本实施例中，S1的具体步骤为：

S1.2、使用Infinite Data的API构建足够数量的合成数据集，本实施例中，足够数量约等于1万张，具体范围可以理解未9990-11000，然后使用所述合成数据集对每个所述原始图像进行扩充得到扩充数据集，并生成对应的标签，同时对所述扩充数据集进行预处理和数据增强的操作；

本实施例中，在测试场地拍摄一定数量的仰卧起坐视频，从视频的每6帧中选择一帧，即每秒提取大约5帧图像，构建得到自建数据集，并对其进行标注，然后采用合成数据集的方式对原有的自建数据集进行扩充，使用Infinite Data的API构建足够数量的合成数据集，并生成对应的标签，得到扩充数据集，合成数据集构建的每个图像包含1-5个人，这些图像中的人具有各种注释的、特定于仰卧起坐的姿势(合成数据集自动生成了相关图像的2d关键点坐标)，并通过随机扰动RGB曲线构建不同的肤色和不同服装的变化用于扩充数据集中，最后将扩充数据集以一定比例划分为训练集和测试集。

将自建数据集与合成数据集合并，并对数据集进行预处理和数据增强的操作。

本实施例中，对所述扩充数据集进行预处理和数据增强具体包括：执行随机缩放增强、平移变换增强、随机水平翻转增强、半身肢体数据增强、随机旋转和缩放增强以及防射变换，并将所述扩充数据集的图像转换为张量，并对输入的张量进行归一化。张量指的是Tensor，opencv储存图片格式为(H,W,C)，而torch储存的格式是(C,H,W)，经过张量的转换通道将(H,W,C)转成(C,H,W)。

本实施例中，S2中，所述特征提取网络的构建过程为：

S2.1、构建ResNet50神经网络；构建标准的ResNet50网络结构，标准的ResNet50网络结构分为五个阶段，每个阶段包含了不同卷积个数和步长。第一阶段包含一个7×7的补偿为2的卷积核，第二个阶段、第三个阶段、第四个阶段和第五个阶段每个阶段内部包含残差块，每组分别是3，4，6，3个残差块，每个残差块里面有三个卷积，卷积核大小分别为[1,3,1]。

S2.2、构建多头自注意力模块M_x；

本实施例中，构建所述多头自注意力模块M_x的具体过程为：

D1、首先，假设输入的特征图

将训练集中的图像X划分成G₁×G₂的小网格，并将所述图像X重塑为X₁：

其中，H、W、C分别是图像的高、宽、特征维度；

D2、将查询定义为q，键定义为k，值定义为v(即传统Vision Transformer中的Key、Query、Value)，因此得到：

其中，

为第一次分格得到的小网格对应的可训练的权重矩阵；

D3、通过使用传统的ViT(VisionTransformer)生成每个小网格的注意力A₁，并添加一个残差连接N，得到：

A₁＝A₁+N；

D4、为了简化网络，继续对得到所述注意力A₁进行分格计算，得到下采样的注意力

因此可以得到：

其中，

分别为第一次下采样对应的可训练的权重矩阵；

D5、继续对D4中的注意力A₁进行下采样，直到H_i×W_i足够小而不能够进行分割，i为第i次下采样的次数，H_i为得到的第i次图像的高，W_i为得到的第i次图像的宽；

将每次得到的下采样注意力定义为A_i，因此可以得到：

其中，

分别为第i次下采样对应的可训练的权重矩阵；

M_x(X)＝(A₁+…+A_i)W^p+N

将步骤S2.1中构建的ResNet50网络的第五阶段中的所有残差块中卷积核为3×3的结构替换为多头自注意力模块M_x，并对S1中截取到的图像输入至特征提取网络中，通过卷积神经网络编码的方法生成关于视觉的图像特征。

S3、构建基于人体坐标回归的人体姿态估计器E_x和损失函数L_loss，将所述特征提取网络和人体姿态估计器E_x通过平均池化层连接回归得到人体姿态估计网络，使用所述训练集的图像特征训练所述人体姿态估计网络，得到最终的面向仰卧起坐的多头注意力姿态估计网络；

本实施例中，构建基于人体坐标回归的人体姿态估计器E_x的具体过程为：

B1、通过对图像特征进行平均池化操作得到的结构，采用全连接层回归得到所述训练集的图像特征的关键点的坐标值；

例如，首先通过全连接层回归得到关键点的坐标值，如图2所示，判断关键点6(右肩)位于图像中的左/右部分，得到摄像头拍摄测试者身体左/右部分：

结合仰卧起坐的特性忽略另一侧身体的关节点，然后给身体的左/右部关键点赋予不同的权重，结合仰卧起坐的评判标准，分别给左/右上半身关键点和左/右腿部关键点赋予不同的权重[0.6,0.4]。

本实施例中，S3的具体步骤为：

本实施例中，S3.1的具体步骤为：

并计算所述真实结果(x,y)和预测结果

的偏差Δ(·)：

分别为所述训练集的图像的预测的关键点的像素点的坐标；

S3.1.2、进一步，需要得到误差的分布函数，将偏差Δ(·)乘一个拉伸量S，再加到回归坐标中使误差作用到通过图片回归出来的坐标上：

引入正态分布G(∈)函数，得到所述偏差的回归模型，所述偏差的回归模型具体为：

其中，r为修正项，r设置的目的是使得残差过程成立；

S3.1.3、对所述偏差的回归模型取对数得到似然函数：

S4、使用训练完后的所述人体姿态估计网络对所述测试集中的图像进行识别，观察面向仰卧起坐的多头注意力姿态估计网络的识别精度及效果。

实施例2

本发明还公开了一种检测系统，包括：

仰卧起坐行为识别模块，根据所述姿态估计模块得到的被测试者每一帧图像中的若干个关节点的坐标，识别输入的一段视频帧序列是否为一次完整的仰卧起坐，具体的，根据基于合成数据集的多头自注意力人体姿态估计网络得到被测试者每一帧的17个关节点坐标，用以识别输入的一段视频帧序列是否为一次完整的仰卧起坐；

通过仰卧起坐行为识别模块得到识别的17个关键点(即关节点)，通过判断右肩关键点是否碰到右侧膝盖关键点，右髋关键点与右膝关键点以及右侧踝关键点三者构成的夹角θ是否接近90°来判断测试者身体下半部分动作是否标准，进而判断识别到的一段帧序列是否为合格的一次完整的仰卧起坐，并对合格完整的仰卧起坐的识别结果进行计数。

本实施例中，还包括：

身份识别模块，用于识别被测试者的身份信息；

使用训练好的面向仰卧起坐的多头注意力姿态估计网络构建仰卧起坐检测系统，包括图像采集模块、姿态估计模块、仰卧起坐行为识别模块、判断与计数模块、数据显示模块，其中：

图像采集模块，用于获取测试者在测试时间段内的视频图像；

姿态估计模块，用于将提取的连续帧输入姿态估计模型中获取被测试者的人体框和人体骨骼关键点。其中，所述姿态估计模型，是基于合成数据集的多头自注意力姿态估计方法，进行训练后得到的；

仰卧起坐行为识别模块，根据基于合成数据集的多头自注意力姿态估计方法得到测试者每一帧的17个关节点坐标；

判断与计数模块，通过仰卧起坐行为识别模块得到识别的17个关键点，通过所述仰卧起坐行为识别模块得到识别的若干个关键点的坐标，通过判断右肩关键点、右髋关键点、右膝关键点构成的夹角θ₁<30°是否满足，同时，右髋关键点、右膝关键点以及右侧踝关键点三者构成的夹角θ₂是否满足70°<θ₂<120°来判断被测试者的身体下半部分动作是否标准，进而判断识别到的一段视频帧序列是否为一次合格的仰卧起坐，并对识别合格的仰卧起坐的结果进行计数；

数据显示模块，显示测试者在规定时间内仰卧起坐的测试结果。

例如，本实施例中的检测系统，可以包括仰卧起坐测试垫、脚部固定器、身份证识别验证器、检测摄像头、触屏式一体机电脑(配备内置音响)、数据服务器，其中，仰卧起坐测试垫、脚部固定器即为日常普通测试垫以及脚部固定器；身份识别验证器上设有智能检测组件，与触屏式一体机电脑连接，包含人机对比模块、小型摄像头人脸拍摄模块、身份证读取模块；检测摄像头配备三脚架与触屏式一体机连接，架立与仰卧起坐测试垫右侧中部距离地面约50cm处，用于获取测试者动作影像；触屏式一体机电脑设有智能检测组件，包含人证对比软件系统和仰卧起坐计数系统；数据服务器，用于存储测试者信息和测试者最后的成绩。

具体的检测流程为：

首先在被测试者图像中确定被测试者是否已在测试垫上躺好并做好了仰卧起坐准备动作；随后触屏式一体机通过音响倒计时开始准备，同时启动计时器进行计时；然后通过摄像头实时捕捉测试者画面，将画面通过设计的分层多头注意力网络得到测试者身体的17个关键点，然后通过判断右肩关键点是否碰到右侧膝盖关键点，右髋关键点与右膝关键点以及右侧踝关键点三者构成的夹角θ是否接近90°，若达到以上两个条件计数器加1；如果测试者右肩关键点未碰到右侧膝盖关键点或右髋关键点与右膝关键点以及右侧踝关键点三者构成的夹角θ未接近90°，则音响提示测试者动作不标准，该次仰卧起坐不纳入成绩计数；计时器计时结束，音响提示测试者测试结束；测试结束后，将测试者信息和成绩存入数据服务器中。

本发明设计了一个仰卧起坐检测系统，首先在测试者图像中确定测试者是否已在测试垫上躺好并做好了仰卧起坐准备动作；随后触屏式一体机通过音响倒计时开始准备，同时启动计时器进行计时；然后通过摄像头实时捕捉测试者画面，将画面通过设计的分层多头注意力网络得到测试者身体的17个关键点，然后通过判断右肩关键点是否碰到右侧膝盖关键点，右髋关键点与右膝关键点以及右侧踝关键点三者构成的夹角θ是否接近90°，若达到以上两个条件计数器加1；如果测试者右肩关键点未碰到右侧膝盖关键点或右髋关键点与右膝关键点以及右侧踝关键点三者构成的夹角θ未接近90°，则音响提示测试者动作不标准，该次仰卧起坐不纳入成绩计数；计时器计时结束，音响提示测试者测试结束；测试结束后，将测试者信息和成绩存入数据服务器中。本发明针对仰卧起坐中的姿势不规范提出了相关的验证方法，相比于其他现有发明关注到测试者下半身动作的标准性，同时涉及身体的17个关键点，使得仰卧起坐动作的评判标准更为丰富。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。