CN115953834A - 面向仰卧起坐的多头注意力姿态估计方法及检测系统 - Google Patents

面向仰卧起坐的多头注意力姿态估计方法及检测系统 Download PDF

Info

Publication number
CN115953834A
CN115953834A CN202211622338.1A CN202211622338A CN115953834A CN 115953834 A CN115953834 A CN 115953834A CN 202211622338 A CN202211622338 A CN 202211622338A CN 115953834 A CN115953834 A CN 115953834A
Authority
CN
China
Prior art keywords
sit
attention
image
posture estimation
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211622338.1A
Other languages
English (en)
Inventor
许国良
汪子璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202211622338.1A priority Critical patent/CN115953834A/zh
Publication of CN115953834A publication Critical patent/CN115953834A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉领域,公开了一种面向仰卧起坐的多头注意力姿态估计方法及检测系统,包括:S1、获取若干关于仰卧起坐的原始图像构建自建数据集并进行标注,然后使用合成数据集将若干所述原始图像进行扩充得到扩充数据集;S2、构建多头自注意力模块Mx和ResNet50神经网络,并将所述多头自注意力模块Mx添加至ResNet50神经网络中,得到用于提取图像特征的特征提取网络;S3、构建基于人体坐标回归的人体姿态估计器Ex和损失函数Lloss,将所述特征提取网络和人体姿态估计器Ex通过平均池化层连接回归得到人体姿态估计网络;S4、使用训练完后的所述面向仰卧起坐的多头注意力姿态估计网络对所述测试集中的图像进行识别。本发明可以避免发生过拟合现象,提高图像全局信息的利用,减少推理内存。

Description

面向仰卧起坐的多头注意力姿态估计方法及检测系统
技术领域
本发明涉及计算机视觉领域,具体涉及面向仰卧起坐的多头注意力姿态估计方法及检测系统。
背景技术
随着社会经济发展、人民生活水平的提高以及中国国际地位的提升,国家把全国人民体质的增强已经提升到了战略性高度。为了将“学校教育要树立‘健康第一’的指导思想”落到实处,我国提出并实行了体质测试。体质测试旨在使学生们意识到要增强自身体质,提高健康水平,促使学生积极投身于更多体育项目及锻炼中。高校要德、智、体、美、劳全方面培养学生,使学生向高素质人才靠拢。在这个大背景下,迫切需要对全民体质进行更高效、准确的检测。目前,体测包含身高、体重、肺活量、坐位体前屈、立定跳远、50米跑步、仰卧起坐或引体向上、800米或1000米跑步这些项目。
目前现有的体测方式分为人工测试方式、传感器测试方式以及计算机视觉测试方式。传统的体测方法中,通常为人工计时计数,存在测试效率不高,且误差率大,长时间的反复性操作也容易造成测试员疲惫,对不规范动作不易察觉等缺点。我校本科生近3万人,每年这些项目的体测工作量巨大,给教师、学生造成了极大的不便。还有一种现有技术,是通过在测试者身上佩戴电子设备来判断测试者动作是否规范,但测试者存在一定的束缚感,舒适程度低,测试体验感差。然后是基于计算机视觉的测试方式,该类方法方便使用,不需要繁琐的仪器步骤,且受光线影响较小,但目前现有的体测算法,网络框架庞大,实时性效果不好。
随着人工智能的迅猛发展,深度学习应用于社会的诸多的方面。由深度学习引申出的姿态估计在计算机视觉技术的众多分支中占主要地位。简单地说,使用此种技术可通过图像或视频的形式确定人体各部位的运动方向以及相关信息。在近些年运动发展过程中,人们对于各种类型的体育项目关注度与日俱增。理论和技术的结合使得运动员的培养与训练更加科学有效,从而能够深度挖掘运动员的潜力,促进体育运动的发展。因此,对体测训练动作展开检测至关重要。
在如今数字智能化的运动训练场景下,计算机视觉技术在运动和健身训练领域具有广阔的发展空间,我们可以将计算机视觉技术和运动场景下的动作训练相结合,对运动员训练时的动作行为进行一个有效的辅助和评估。对运动动作的研究不仅对运动员有着重要的应用价值,对没有专业教练的普通运动爱好者也有着重要的参考价值。我们可以通过对运动员运动过程中的动作进行一个数据的获取然后对动作行为进行数据分析,这样运动员便可看到和了解到自己平时的训练动作和标准动作的差别,对自己的训练有很大的参考价值,有利于改善自己的训练姿态和状态。
因此,通过构建一种模型简单的人体姿态估计识别方法,充分利用少量的图像样本和图像全局信息,在不降低识别精确率的同时,减小运行内存,这已经成为研究学者们关注的重点。
发明内容
本发明提供面向仰卧起坐的多头注意力姿态估计方法及检测系统,以解决上述问题。
本发明通过下述技术方案实现:
一种面向仰卧起坐的多头注意力姿态估计方法,包括:
S1、获取若干关于仰卧起坐的原始图像构建自建数据集并进行标注,然后使用合成数据集将若干所述原始图像进行扩充得到扩充数据集,将所述扩充数据集按照一定比例将标注后的所述扩充数据集划分为训练集和测试集;
S2、构建多头自注意力模块Mx和ResNet50神经网络,并将所述多头自注意力模块Mx添加至ResNet50神经网络中,得到用于提取图像特征的特征提取网络;
S3、构建基于人体坐标回归的人体姿态估计器Ex和损失函数Lloss,将特征提取网络和人体姿态估计器Ex通过平均池化层连接回归得到人体姿态估计网络,使用所述训练集的图像特征训练所述人体姿态估计网络,得到最终的面向仰卧起坐的多头注意力姿态估计网络;
S4、使用训练完后的所述面向仰卧起坐的多头注意力姿态估计网络对所述测试集中的图像进行识别。
作为优化,S1的具体步骤为:
S1.1、在测试场地拍摄一定数量的关于仰卧起坐的视频,并从所述视频的每I帧中选择一帧作为原始图像,若干所述原始图像构建成为自建数据集,然后对所述原始图像进行标注;
S1.2、使用Infinite Data的API构建足够数量的合成数据集,然后使用所述合成数据集对每个所述原始图像进行扩充得到扩充数据集,并生成对应的标签,同时对所述扩充数据集进行预处理和数据增强的操作;
S1.3、将所述扩充数据集按照一定比例将标注后的所述扩充数据集划分为训练集和测试集。
作为优化,对所述扩充数据集进行预处理和数据增强具体包括:执行随机缩放增强、平移变换增强、随机水平翻转增强、半身肢体数据增强、随机旋转和缩放增强以及防射变换,并将所述扩充数据集的图像转换为张量,并对输入的张量进行归一化。
作为优化,S2中,所述特征提取网络的构建过程为:
S2.1、构建ResNet50神经网络;
S2.2、构建多头自注意力模块Mx
S2.3、将所述ResNet50神经网络中的第五阶段中的所有残差块中卷积核为3×3的结构替换为所述多头自注意力模块Mx,得到特征提取网络。
作为优化,构建所述多头自注意力模块Mx的具体过程为:
D1、将训练集中的图像X划分成G1×G2的小网格,并将所述图像X重塑为X1
Figure BDA0004002933730000031
其中,H、W、C分别是图像的高、宽、特征维度;
D2、将查询定义为q,键定义为k,值定义为v,因此得到:
Figure BDA0004002933730000032
其中,
Figure BDA0004002933730000033
为第一次分格得到的小网格对应的可训练的权重矩阵;
D3、使用ViT生成每个小网格的注意力A1,并添加一个残差连接N,得到:
A1=A1+N;
D4、继续对所述注意力A1进行分格计算,得到下采样的注意力
Figure BDA0004002933730000034
因此可以得到:
Figure BDA0004002933730000035
其中,
Figure BDA0004002933730000036
分别为第一次下采样对应的可训练的权重矩阵;
D5、继续对D4中的注意力A1进行下采样,直到Hi×Wi不能进行分割,i为第i次下采样的次数,Hi为得到的第i次图像的高,Wi为得到的第i次图像的宽;
D6、将多次下采样后得到的注意力合并,得到所述多头自注意力模块Mx的注意力输出,即训练集中的图像的特征:
Mx(X)=(A1+…+Ai)Wp+N
其中,Mx(X)为所述多头自注意力模块Mx的输出,Ai为第i次下采样的采样注意力,
Figure BDA0004002933730000037
为用于特征投影的可训练权重矩阵,即Wi q,Wi k,Wi v的矩阵合并,N为残差连接。
作为优化,构建基于人体坐标回归的人体姿态估计器Ex的具体过程为:
B1、通过全连接层回归得到所述训练集的图像特征的关键点的坐标值;
B2、判断某一能区分左右的关键点位于所述图像中的左侧还是右侧,从而得到拍摄该所述图像的摄像头的拍摄方位;
B3、赋予身体属于同一部位的关键点同一权重,不同部位的关键点权重可以不相同,根据各权重结合仰卧起坐的评判标准。赋予权重只用在检测关键点的阶段,判断角度用于检测仰卧起坐阶段(满足条件->计数;不满足条件->不计数)。
作为优化,S3的具体步骤为:
S3.1、使用MLE极大似然估计结合对标准正态分布的拟合学习真实结果与预测结果之间的偏差的分布,以得到损失函数Lloss
S3.2、采用Adam优化器,根据步骤S3.1得到的所述损失函数Lloss计算出来的误差,对所述人体姿态估计网络训练,得到最终的面向仰卧起坐的多头注意力姿态估计网络。
作为优化,S3.1的具体步骤为:
S3.1.1、获取所述训练集的图像的关键点的真实结果(x,y)以及通过所述人体姿态估计网络得到的所述训练集的图像的关键点的预测结果
Figure BDA0004002933730000041
并计算所述真实结果(x,y)和预测结果
Figure BDA0004002933730000042
的偏差Δ(·):
Figure BDA0004002933730000043
其中,(x,y)分别为所述训练集的图像上的真实的关键点的像素点的坐标,
Figure BDA0004002933730000044
分别为所述训练集的图像的预测的关键点的像素点的坐标;
S3.1.2、将所述偏差乘以拉伸量S再与所述预测结果进行相加得到偏差的分布函数,并引入正态分布G(∈)函数,得到所述偏差的回归模型;
所述偏差的回归模型具体为:
Figure BDA0004002933730000045
其中,r为修正项;
S3.1.3、对所述偏差的回归模型取对数得到似然函数:
Figure BDA0004002933730000046
S3.1.4、将所述似然函数结合MLE极大似然估计得到损失函数Lloss
Figure BDA0004002933730000047
其中,G(∈)是一个正态分布,Δ(·)为真实结果与预测结果之间的偏差,S为拉伸量,r为修正项。
本发明还公开了一种面向仰卧起坐的多头注意力姿态估计系统,包括:
图像采集模块,用于获取被测试者在测试时间段内的视频,并将所述视频划分为由一段视频帧序列组成的若干帧图像;
姿态估计模块,用于将提取的若干帧图像输入至上述的所述面向仰卧起坐的多头注意力姿态估计网络中,获取每一帧图像中被测试者的人体框和人体骨骼的关键点;
仰卧起坐行为识别模块,根据所述姿态估计模块得到的被测试者每一帧图像中的若干个关节点的坐标;
判断与计数模块,通过所述仰卧起坐行为识别模块得到识别的若干个关键点的坐标,通过判断右肩关键点、右髋关键点、右膝关键点构成的夹角θ1<30°是否满足,同时,右髋关键点、右膝关键点以及右侧踝关键点三者构成的夹角θ2是否满足70°<θ2<120°来判断被测试者的身体下半部分动作是否标准,进而判断识别到的一段视频帧序列是否为一次合格的仰卧起坐,并对识别合格的仰卧起坐的结果进行计数;
数据显示模块,显示被测试者在规定时间内仰卧起坐的测试结果。
作为优化,还包括:
身份识别模块,用于识别被测试者的身份信息;
数据服务器,用于存储被测试者信息和被测试者最后的测试结果成绩。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明利用分层多头注意力机制将输入的图像分割成块进行局部建模,然后将局部建模进行融合,将局部和全局注意力特征进行聚合,获得具有强大表示能力的特征,并结合ResNet50网络将ResNet50网络的c3层的3×3卷积层替换为分层多头注意力模块,本发明采用坐标回归方式进行关键点识别,与热图识别相比一定程度上减少了运行时占用的内存,并且延迟开销减少,有利于将结构用于仰卧起坐动作的识别,扩充数据集上采用合成数据集扩充真实数据集容量,避免发生过拟合现象。
附图说明
为了更清楚地说明本发明示例性实施方式的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。在附图中:
图1为本发明方法的流程图;
图2为本发明方法检测的关键点示意图;
图3为本发明系统的原理框图;
图4为本发明系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
一种面向仰卧起坐的多头注意力姿态估计方法,包括:
S1、获取若干关于仰卧起坐的原始图像构建自建数据集并进行标注,然后使用合成数据集将若干所述原始图像进行扩充得到扩充数据集,将所述扩充数据集按照一定比例将标注后的所述扩充数据集划分为训练集和测试集;
本实施例中,S1的具体步骤为:
S1.1、在测试场地拍摄一定数量的关于仰卧起坐的视频,并从所述视频的每I帧中选择一帧作为原始图像,若干所述原始图像构建成为自建数据集,然后对所述原始图像进行标注;
S1.2、使用Infinite Data的API构建足够数量的合成数据集,本实施例中,足够数量约等于1万张,具体范围可以理解未9990-11000,然后使用所述合成数据集对每个所述原始图像进行扩充得到扩充数据集,并生成对应的标签,同时对所述扩充数据集进行预处理和数据增强的操作;
S1.3、将所述扩充数据集按照一定比例将标注后的所述扩充数据集划分为训练集和测试集。
本实施例中,在测试场地拍摄一定数量的仰卧起坐视频,从视频的每6帧中选择一帧,即每秒提取大约5帧图像,构建得到自建数据集,并对其进行标注,然后采用合成数据集的方式对原有的自建数据集进行扩充,使用Infinite Data的API构建足够数量的合成数据集,并生成对应的标签,得到扩充数据集,合成数据集构建的每个图像包含1-5个人,这些图像中的人具有各种注释的、特定于仰卧起坐的姿势(合成数据集自动生成了相关图像的2d关键点坐标),并通过随机扰动RGB曲线构建不同的肤色和不同服装的变化用于扩充数据集中,最后将扩充数据集以一定比例划分为训练集和测试集。
将自建数据集与合成数据集合并,并对数据集进行预处理和数据增强的操作。
本实施例中,对所述扩充数据集进行预处理和数据增强具体包括:执行随机缩放增强、平移变换增强、随机水平翻转增强、半身肢体数据增强、随机旋转和缩放增强以及防射变换,并将所述扩充数据集的图像转换为张量,并对输入的张量进行归一化。张量指的是Tensor,opencv储存图片格式为(H,W,C),而torch储存的格式是(C,H,W),经过张量的转换通道将(H,W,C)转成(C,H,W)。
S2、构建多头自注意力模块Mx和ResNet50神经网络,并将所述多头自注意力模块Mx添加至ResNet50神经网络中,得到用于提取图像特征的特征提取网络;
本实施例中,S2中,所述特征提取网络的构建过程为:
S2.1、构建ResNet50神经网络;构建标准的ResNet50网络结构,标准的ResNet50网络结构分为五个阶段,每个阶段包含了不同卷积个数和步长。第一阶段包含一个7×7的补偿为2的卷积核,第二个阶段、第三个阶段、第四个阶段和第五个阶段每个阶段内部包含残差块,每组分别是3,4,6,3个残差块,每个残差块里面有三个卷积,卷积核大小分别为[1,3,1]。
S2.2、构建多头自注意力模块Mx
本实施例中,构建所述多头自注意力模块Mx的具体过程为:
D1、首先,假设输入的特征图
Figure BDA0004002933730000071
将训练集中的图像X划分成G1×G2的小网格,并将所述图像X重塑为X1
Figure BDA0004002933730000072
其中,H、W、C分别是图像的高、宽、特征维度;
D2、将查询定义为q,键定义为k,值定义为v(即传统Vision Transformer中的Key、Query、Value),因此得到:
Figure BDA0004002933730000073
其中,
Figure BDA0004002933730000074
为第一次分格得到的小网格对应的可训练的权重矩阵;
D3、通过使用传统的ViT(VisionTransformer)生成每个小网格的注意力A1,并添加一个残差连接N,得到:
A1=A1+N;
D4、为了简化网络,继续对得到所述注意力A1进行分格计算,得到下采样的注意力
Figure BDA0004002933730000075
因此可以得到:
Figure BDA0004002933730000076
其中,
Figure BDA0004002933730000077
分别为第一次下采样对应的可训练的权重矩阵;
D5、继续对D4中的注意力A1进行下采样,直到Hi×Wi足够小而不能够进行分割,i为第i次下采样的次数,Hi为得到的第i次图像的高,Wi为得到的第i次图像的宽;
将每次得到的下采样注意力定义为Ai,因此可以得到:
Figure BDA0004002933730000078
其中,
Figure BDA0004002933730000079
分别为第i次下采样对应的可训练的权重矩阵;
D6、将多次下采样后得到的注意力合并,得到所述多头自注意力模块Mx的注意力输出,即训练集中的图像的特征:
Mx(X)=(A1+…+Ai)Wp+N
其中,Mx(X)为所述多头自注意力模块Mx的输出,Ai为第i次下采样的采样注意力,
Figure BDA0004002933730000081
为用于特征投影的可训练权重矩阵,即Wi q,Wi k,Wi v的矩阵合并,N为残差连接。
S2.3、将所述ResNet50神经网络中的第五阶段中的所有残差块中卷积核为3×3的结构替换为所述多头自注意力模块Mx,得到特征提取网络。
将步骤S2.1中构建的ResNet50网络的第五阶段中的所有残差块中卷积核为3×3的结构替换为多头自注意力模块Mx,并对S1中截取到的图像输入至特征提取网络中,通过卷积神经网络编码的方法生成关于视觉的图像特征。
S3、构建基于人体坐标回归的人体姿态估计器Ex和损失函数Lloss,将所述特征提取网络和人体姿态估计器Ex通过平均池化层连接回归得到人体姿态估计网络,使用所述训练集的图像特征训练所述人体姿态估计网络,得到最终的面向仰卧起坐的多头注意力姿态估计网络;
本实施例中,构建基于人体坐标回归的人体姿态估计器Ex的具体过程为:
B1、通过对图像特征进行平均池化操作得到的结构,采用全连接层回归得到所述训练集的图像特征的关键点的坐标值;
B2、判断某一能区分左右的关键点位于所述图像中的左侧还是右侧,从而得到拍摄该所述图像的摄像头的拍摄方位;
B3、赋予身体属于同一部位的关键点同一权重,不同部位的关键点权重可以不相同,根据各权重结合仰卧起坐的评判标准。赋予权重只用在检测关键点的阶段,判断角度用于检测仰卧起坐阶段(满足条件->计数;不满足条件->不计数)。
例如,首先通过全连接层回归得到关键点的坐标值,如图2所示,判断关键点6(右肩)位于图像中的左/右部分,得到摄像头拍摄测试者身体左/右部分:
Figure BDA0004002933730000082
结合仰卧起坐的特性忽略另一侧身体的关节点,然后给身体的左/右部关键点赋予不同的权重,结合仰卧起坐的评判标准,分别给左/右上半身关键点和左/右腿部关键点赋予不同的权重[0.6,0.4]。
本实施例中,S3的具体步骤为:
S3.1、使用MLE极大似然估计结合对标准正态分布的拟合学习真实结果与预测结果之间的偏差的分布,以得到损失函数Lloss
本实施例中,S3.1的具体步骤为:
S3.1.1、获取所述训练集的图像的关键点的真实结果(x,y)以及通过所述人体姿态估计网络得到的所述训练集的图像的关键点的预测结果
Figure BDA0004002933730000091
并计算所述真实结果(x,y)和预测结果
Figure BDA0004002933730000092
的偏差Δ(·):
Figure BDA0004002933730000093
其中,(x,y)分别为所述训练集的图像上的真实的关键点的像素点的坐标,
Figure BDA0004002933730000094
分别为所述训练集的图像的预测的关键点的像素点的坐标;
S3.1.2、进一步,需要得到误差的分布函数,将偏差Δ(·)乘一个拉伸量S,再加到回归坐标中使误差作用到通过图片回归出来的坐标上:
Figure BDA0004002933730000095
引入正态分布G(∈)函数,得到所述偏差的回归模型,所述偏差的回归模型具体为:
Figure BDA0004002933730000096
其中,r为修正项,r设置的目的是使得残差过程成立;
S3.1.3、对所述偏差的回归模型取对数得到似然函数:
Figure BDA0004002933730000097
S3.1.4、将所述似然函数结合MLE极大似然估计得到损失函数Lloss
Figure BDA0004002933730000098
其中,G(∈)是一个正态分布,Δ(·)为真实结果与预测结果之间的偏差,S为拉伸量,r为修正项。
S3.2、采用Adam优化器,根据步骤S3.1得到的所述损失函数Lloss计算出来的误差,对所述人体姿态估计网络训练,得到最终的面向仰卧起坐的多头注意力姿态估计网络。
S4、使用训练完后的所述人体姿态估计网络对所述测试集中的图像进行识别,观察面向仰卧起坐的多头注意力姿态估计网络的识别精度及效果。
实施例2
本发明还公开了一种检测系统,包括:
图像采集模块,用于获取被测试者在测试时间段内的视频,并将所述视频划分为由一段视频帧序列组成的若干帧图像;
姿态估计模块,用于将提取的若干帧图像输入至上述的所述面向仰卧起坐的多头注意力姿态估计网络中,获取每一帧图像中被测试者的人体框和人体骨骼的关键点;
仰卧起坐行为识别模块,根据所述姿态估计模块得到的被测试者每一帧图像中的若干个关节点的坐标,识别输入的一段视频帧序列是否为一次完整的仰卧起坐,具体的,根据基于合成数据集的多头自注意力人体姿态估计网络得到被测试者每一帧的17个关节点坐标,用以识别输入的一段视频帧序列是否为一次完整的仰卧起坐;
判断与计数模块,通过所述仰卧起坐行为识别模块得到识别的若干个关键点的坐标,通过判断右肩关键点、右髋关键点、右膝关键点构成的夹角θ1<30°是否满足,同时,右髋关键点、右膝关键点以及右侧踝关键点三者构成的夹角θ2是否满足70°<θ2<120°来判断被测试者的身体下半部分动作是否标准,进而判断识别到的一段视频帧序列是否为一次合格的仰卧起坐,并对识别合格的仰卧起坐的结果进行计数;
通过仰卧起坐行为识别模块得到识别的17个关键点(即关节点),通过判断右肩关键点是否碰到右侧膝盖关键点,右髋关键点与右膝关键点以及右侧踝关键点三者构成的夹角θ是否接近90°来判断测试者身体下半部分动作是否标准,进而判断识别到的一段帧序列是否为合格的一次完整的仰卧起坐,并对合格完整的仰卧起坐的识别结果进行计数。
数据显示模块,显示被测试者在规定时间内仰卧起坐的测试结果。
本实施例中,还包括:
身份识别模块,用于识别被测试者的身份信息;
数据服务器,用于存储被测试者信息和被测试者最后的测试结果成绩。
使用训练好的面向仰卧起坐的多头注意力姿态估计网络构建仰卧起坐检测系统,包括图像采集模块、姿态估计模块、仰卧起坐行为识别模块、判断与计数模块、数据显示模块,其中:
图像采集模块,用于获取测试者在测试时间段内的视频图像;
姿态估计模块,用于将提取的连续帧输入姿态估计模型中获取被测试者的人体框和人体骨骼关键点。其中,所述姿态估计模型,是基于合成数据集的多头自注意力姿态估计方法,进行训练后得到的;
仰卧起坐行为识别模块,根据基于合成数据集的多头自注意力姿态估计方法得到测试者每一帧的17个关节点坐标;
判断与计数模块,通过仰卧起坐行为识别模块得到识别的17个关键点,通过所述仰卧起坐行为识别模块得到识别的若干个关键点的坐标,通过判断右肩关键点、右髋关键点、右膝关键点构成的夹角θ1<30°是否满足,同时,右髋关键点、右膝关键点以及右侧踝关键点三者构成的夹角θ2是否满足70°<θ2<120°来判断被测试者的身体下半部分动作是否标准,进而判断识别到的一段视频帧序列是否为一次合格的仰卧起坐,并对识别合格的仰卧起坐的结果进行计数;
数据显示模块,显示测试者在规定时间内仰卧起坐的测试结果。
例如,本实施例中的检测系统,可以包括仰卧起坐测试垫、脚部固定器、身份证识别验证器、检测摄像头、触屏式一体机电脑(配备内置音响)、数据服务器,其中,仰卧起坐测试垫、脚部固定器即为日常普通测试垫以及脚部固定器;身份识别验证器上设有智能检测组件,与触屏式一体机电脑连接,包含人机对比模块、小型摄像头人脸拍摄模块、身份证读取模块;检测摄像头配备三脚架与触屏式一体机连接,架立与仰卧起坐测试垫右侧中部距离地面约50cm处,用于获取测试者动作影像;触屏式一体机电脑设有智能检测组件,包含人证对比软件系统和仰卧起坐计数系统;数据服务器,用于存储测试者信息和测试者最后的成绩。
具体的检测流程为:
首先在被测试者图像中确定被测试者是否已在测试垫上躺好并做好了仰卧起坐准备动作;随后触屏式一体机通过音响倒计时开始准备,同时启动计时器进行计时;然后通过摄像头实时捕捉测试者画面,将画面通过设计的分层多头注意力网络得到测试者身体的17个关键点,然后通过判断右肩关键点是否碰到右侧膝盖关键点,右髋关键点与右膝关键点以及右侧踝关键点三者构成的夹角θ是否接近90°,若达到以上两个条件计数器加1;如果测试者右肩关键点未碰到右侧膝盖关键点或右髋关键点与右膝关键点以及右侧踝关键点三者构成的夹角θ未接近90°,则音响提示测试者动作不标准,该次仰卧起坐不纳入成绩计数;计时器计时结束,音响提示测试者测试结束;测试结束后,将测试者信息和成绩存入数据服务器中。
本发明设计了一个仰卧起坐检测系统,首先在测试者图像中确定测试者是否已在测试垫上躺好并做好了仰卧起坐准备动作;随后触屏式一体机通过音响倒计时开始准备,同时启动计时器进行计时;然后通过摄像头实时捕捉测试者画面,将画面通过设计的分层多头注意力网络得到测试者身体的17个关键点,然后通过判断右肩关键点是否碰到右侧膝盖关键点,右髋关键点与右膝关键点以及右侧踝关键点三者构成的夹角θ是否接近90°,若达到以上两个条件计数器加1;如果测试者右肩关键点未碰到右侧膝盖关键点或右髋关键点与右膝关键点以及右侧踝关键点三者构成的夹角θ未接近90°,则音响提示测试者动作不标准,该次仰卧起坐不纳入成绩计数;计时器计时结束,音响提示测试者测试结束;测试结束后,将测试者信息和成绩存入数据服务器中。本发明针对仰卧起坐中的姿势不规范提出了相关的验证方法,相比于其他现有发明关注到测试者下半身动作的标准性,同时涉及身体的17个关键点,使得仰卧起坐动作的评判标准更为丰富。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种面向仰卧起坐的多头注意力姿态估计方法,其特征在于,包括:
S1、获取若干关于仰卧起坐的原始图像构建自建数据集并进行标注,然后使用合成数据集将若干所述原始图像进行扩充得到扩充数据集,将所述扩充数据集按照一定比例将标注后的所述扩充数据集划分为训练集和测试集;
S2、构建多头自注意力模块Mx和ResNet50神经网络,并将所述多头自注意力模块Mx添加至ResNet50神经网络中,得到用于提取图像特征的特征提取网络;
S3、构建基于人体坐标回归的人体姿态估计器Ex和损失函数Lloss,将所述特征提取网络和人体姿态估计器Ex通过平均池化层连接回归得到人体姿态估计网络,使用所述训练集的图像特征训练所述人体姿态估计网络,得到最终的面向仰卧起坐的多头注意力姿态估计网络;
S4、使用训练完后的所述面向仰卧起坐的多头注意力姿态估计网络对所述测试集中的图像进行识别。
2.根据权利要求1所述的一种面向仰卧起坐的多头注意力姿态估计方法,其特征在于,S1的具体步骤为:
S1.1、在测试场地拍摄一定数量的关于仰卧起坐的视频,并从所述视频的每I帧中选择一帧作为原始图像,若干所述原始图像构建成为自建数据集,然后对所述原始图像进行标注;
S1.2、使用Infinite Data的API构建足够数量的合成数据集,然后使用所述合成数据集对每个所述原始图像进行扩充得到扩充数据集,并生成对应的标签,同时对所述扩充数据集进行预处理和数据增强的操作;
S1.3、将所述扩充数据集按照一定比例将标注后的所述扩充数据集划分为训练集和测试集。
3.根据权利要求2所述的一种面向仰卧起坐的多头注意力姿态估计方法,其特征在于,对所述扩充数据集进行预处理和数据增强具体包括:执行随机缩放增强、平移变换增强、随机水平翻转增强、半身肢体数据增强、随机旋转和缩放增强以及防射变换,并将所述扩充数据集的图像转换为张量,并对输入的张量进行归一化。
4.根据权利要求3所述的一种面向仰卧起坐的多头注意力姿态估计方法,其特征在于,S2中,所述特征提取网络的构建过程为:
S2.1、构建ResNet50神经网络;
S2.2、构建多头自注意力模块Mx
S2.3、将所述ResNet50神经网络中的第五阶段中的所有残差块中卷积核为3×3的结构替换为所述多头自注意力模块Mx,得到特征提取网络。
5.根据权利要求4所述的一种面向仰卧起坐的多头注意力姿态估计方法,其特征在于,构建所述多头自注意力模块Mx的具体过程为:
D1、将训练集中的图像X划分成G1×G2的小网格,并将所述图像X重塑为X1
Figure FDA0004002933720000021
其中,H、W、C分别是图像的高、宽、特征维度;
D2、将查询定义为q,键定义为k,值定义为v,因此得到:
Q1=X1W1 q,
Figure FDA0004002933720000022
其中,W1 q,
Figure FDA0004002933720000023
为第一次分格得到的小网格对应的可训练的权重矩阵;
D3、使用ViT生成每个小网格的注意力A1,并添加一个残差连接N,得到:
A1=A1+N;
D4、继续对所述注意力A1进行分格计算,得到下采样的注意力
Figure FDA0004002933720000027
因此可以得到:
Figure FDA0004002933720000024
其中,
Figure FDA0004002933720000025
分别为第一次下采样对应的可训练的权重矩阵;
D5、继续对D4中的注意力A1进行下采样,直到Hi×Wi不能进行分割,i为第i次下采样的次数,Hi为得到的第i次图像的高,Wi为得到的第i次图像的宽;
D6、将多次下采样后得到的注意力合并,得到所述多头自注意力模块Mx的注意力输出,即训练集中的图像的特征:
Mx(X)=(A1+…+Ai)Wp+N
其中,Mx(X)为所述多头自注意力模块Mx的输出,Ai为第i次下采样的采样注意力,
Figure FDA0004002933720000026
为用于特征投影的可训练权重矩阵,即Wi q,Wi k,Wi v的矩阵合并,N为残差连接。
6.根据权利要求1所述的一种面向仰卧起坐的多头注意力姿态估计方法,其特征在于,构建基于人体坐标回归的人体姿态估计器Ex的具体过程为:
B1、通过对图像特征进行平均池化操作得到的结构,采用全连接层回归得到所述训练集中的图像特征的关键点的坐标值;
B2、判断某一能区分左右的关键点位于所述图像中的左侧还是右侧,从而得到拍摄该所述图像的摄像头的拍摄方位;
B3、赋予身体属于同一部位的关键点同一权重,不同部位的关键点权重可以不相同。
7.根据权利要求6所述的一种面向仰卧起坐的多头注意力姿态估计方法,其特征在于,S3的具体步骤为:
S3.1、使用MLE极大似然估计结合对标准正态分布的拟合学习真实结果与预测结果之间的偏差的分布,以得到损失函数Lloss
S3.2、采用Adam优化器,根据步骤S3.1得到的所述损失函数Lloss计算出来的误差,对所述人体姿态估计网络训练,得到最终的面向仰卧起坐的多头注意力姿态估计网络。
8.根据权利要求7所述的一种面向仰卧起坐的多头注意力姿态估计方法,其特征在于,S3.1的具体步骤为:
S3.1.1、获取所述训练集的图像的关键点的真实结果(x,y)以及通过所述人体姿态估计网络得到的所述训练集的图像的关键点的预测结果
Figure FDA0004002933720000031
并计算所述真实结果(x,y)和预测结果
Figure FDA0004002933720000032
的偏差Δ(·):
Figure FDA0004002933720000033
其中,(x,y)分别为所述训练集的图像上的真实的关键点的像素点的坐标,
Figure FDA0004002933720000034
分别为所述训练集的图像的预测的关键点的像素点的坐标;
S3.1.2、将所述偏差乘以拉伸量S再与所述预测结果进行相加得到偏差的分布函数,并引入正态分布G(∈)函数,得到所述偏差的回归模型;
所述偏差的回归模型具体为:
Figure FDA0004002933720000035
其中,r为修正项;
S3.1.3、对所述偏差的回归模型取对数得到似然函数:
Figure FDA0004002933720000036
S3.1.4、将所述似然函数结合MLE极大似然估计得到损失函数Lloss
Figure FDA0004002933720000037
其中,G(∈)是一个正态分布,Δ(·)为真实结果与预测结果之间的偏差,S为拉伸量,r为修正项。
9.一种检测系统,其特征在于,包括:
图像采集模块,用于获取被测试者在测试时间段内的视频,并将所述视频划分为由一段视频帧序列组成的若干帧图像;
姿态估计模块,用于将提取的若干帧图像输入至权利要求1-8任一所述的所述面向仰卧起坐的多头注意力姿态估计网络中,获取每一帧图像中被测试者的人体框和人体骨骼的关键点;
仰卧起坐行为识别模块,根据所述姿态估计模块得到的被测试者每一帧图像中的若干个关节点的坐标;
判断与计数模块,通过所述仰卧起坐行为识别模块得到识别的若干个关键点的坐标,通过判断右肩关键点、右髋关键点、右膝关键点构成的夹角θ1<30°是否满足,同时,右髋关键点、右膝关键点以及右侧踝关键点三者构成的夹角θ2是否满足70°<θ2<120°来判断被测试者的身体下半部分动作是否标准,进而判断识别到的一段视频帧序列是否为一次合格的仰卧起坐,并对识别合格的仰卧起坐的结果进行计数;
数据显示模块,显示被测试者在规定时间内仰卧起坐的测试结果。
10.根据权利要求9所述的一种检测系统,其特征在于,还包括:
身份识别模块,用于识别被测试者的身份信息;
数据服务器,用于存储被测试者信息和被测试者最后的测试结果成绩。
CN202211622338.1A 2022-12-16 2022-12-16 面向仰卧起坐的多头注意力姿态估计方法及检测系统 Pending CN115953834A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211622338.1A CN115953834A (zh) 2022-12-16 2022-12-16 面向仰卧起坐的多头注意力姿态估计方法及检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211622338.1A CN115953834A (zh) 2022-12-16 2022-12-16 面向仰卧起坐的多头注意力姿态估计方法及检测系统

Publications (1)

Publication Number Publication Date
CN115953834A true CN115953834A (zh) 2023-04-11

Family

ID=87281932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211622338.1A Pending CN115953834A (zh) 2022-12-16 2022-12-16 面向仰卧起坐的多头注意力姿态估计方法及检测系统

Country Status (1)

Country Link
CN (1) CN115953834A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824631A (zh) * 2023-06-14 2023-09-29 西南交通大学 一种姿态估计方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824631A (zh) * 2023-06-14 2023-09-29 西南交通大学 一种姿态估计方法及系统
CN116824631B (zh) * 2023-06-14 2024-02-27 西南交通大学 一种姿态估计方法及系统

Similar Documents

Publication Publication Date Title
CN111368810B (zh) 基于人体及骨骼关键点识别的仰卧起坐检测系统及方法
Ji Research on basketball shooting action based on image feature extraction and machine learning
CN109815907B (zh) 一种基于计算机视觉技术的仰卧起坐姿态检测与指导方法
Li et al. [Retracted] Intelligent Sports Training System Based on Artificial Intelligence and Big Data
CN110728220A (zh) 基于人体动作骨骼信息的体操辅助训练方法
CN112069933A (zh) 基于体态识别和人体生物力学的骨骼肌肉受力估计方法
CN110222665A (zh) 一种基于深度学习和姿态估计的监控中人体动作识别方法
CN109993103A (zh) 一种基于点云数据的人体行为识别方法
CN113610046B (zh) 一种基于深度视频联动特征的行为识别方法
CN115953834A (zh) 面向仰卧起坐的多头注意力姿态估计方法及检测系统
Huang et al. Intelligent yoga coaching system based on posture recognition
Yang et al. Research on face recognition sports intelligence training platform based on artificial intelligence
Paithane Yoga posture detection using machine learning
CN114092971A (zh) 一种基于视觉图像的人体动作评估方法
Guo et al. PhyCoVIS: A visual analytic tool of physical coordination for cheer and dance training
Almasi et al. Investigating the Application of Human Motion Recognition for Athletics Talent Identification using the Head-Mounted Camera
CN116740618A (zh) 一种运动视频动作评估方法、系统、计算机设备及介质
CN116543455A (zh) 建立帕金森症步态受损评估模型、使用方法、设备及介质
CN115530814A (zh) 一种基于视觉姿态检测及计算机深度学习的儿童运动康复训练方法
CN114092862A (zh) 一种基于最优帧选取的动作评估方法
CN114092863A (zh) 一种用于多视角视频图像的人体动作评估方法
CN113517052A (zh) 商用健身场景下的多感知人机交互系统与方法
Zeng et al. Machine learning based automatic sport event detection and counting
Lai et al. RepEPnP: Weakly Supervised 3D Human Pose Estimation with EPnP Algorithm
CN110210336A (zh) 一种低分辨率单样本人脸识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination