CN115100744A

CN115100744A - 一种羽毛球比赛人体姿态估计和球路追踪方法

Info

Publication number: CN115100744A
Application number: CN202210741652.5A
Authority: CN
Inventors: 耿卫东; 宋金洲; 厉向东
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-09-23

Abstract

本发明公开一种羽毛球比赛人体姿态估计和球路追踪方法，其中，球路追踪方法包括：通过双目视角获得的两组时序图像序列，在目标识别的基础上，对双目是要双目视角预测的羽毛球目标的像素坐标进行位置信息融合，并经过平滑得到平滑的羽毛球三维球路，该方式简单可以快速准确地实现对羽毛球球路追踪；羽毛球比赛人体姿态估计方法包括：通过单目视角和双目视角采用不同的方式进行羽毛球比赛人体姿态估计，并通过地面约束对关节点坐标进行约束，以提升姿态评估的准确性。

Description

一种羽毛球比赛人体姿态估计和球路追踪方法

技术领域

本发明属于羽毛球数据分析领域，具体涉及一种羽毛球比赛人体姿态估计和球路追踪方法。

背景技术

早期的球路跟踪方案通常是基于单目视角的RGB相机拍摄得到的图像视频数据进行预测，一般会采用传统的视觉跟踪算法跟踪球体的运动轨迹。研究人员通常基于卡尔曼滤波器或粒子滤波器的方法，结合球体体积、颜色、速度、加速度等特征来预测球路。例如Ishii等人提出了基于球体在二维空间中的速度和加速度来建立基于卡尔曼滤波的数学模型，提高了球路跟踪系统的鲁棒性和连续性。Chen等人将增量贝叶斯算法与卡尔曼滤波器相结合，更新了球的运动特征和外观参数。对于泛化的球路跟踪框架，球体在三维空间中具有球速、加速度、自旋等非线性因素，对此，Ariki等人提出了基于粒子滤波器的切换搜索方法，用于在局部连续的图像序列中搜索由于尺寸过小或被遮挡而消失的球体。

考虑到单摄像机球跟踪方法在遮挡处理方面的局限性，研究者们开始采用多摄像机系统来弥补个别视角无法捕捉球体的缺陷。Nieto等人提出了一个系统，通过使用多个摄像头来测量网球比赛中运动员的三维位置。系统通过对多个摄像机的结果进行均值计算，计算出玩家的位置。因此，一个具体的摄像机标定与跟踪误差往往造成较大的测量误差。该框架可以通过位置信息融合的方法处理这个问题。在早些时候，Ren等人提出了一种使用多个固定摄像机跟踪足球的方法。然而，在基于深度学习的方法出现之前，传统的方法已经不能保证满意的跟踪效果。

早期的二维人体姿态估计方法采用手工特征提取或通过创建复杂的人体模型来获得局部表示和全局人体姿态。近年来，随着深度神经网络的兴起与广泛应用，研究者们发现使用深度神经网络可以从图像或视频中提取出更精确和更鲁棒的人体姿态特征。基于深度学习的二维人体姿态估计方法对于输入图像中的人数多少，可以分为针对单人和针对多人的人体姿态估计方法。单人人体姿态估计方法以单人RGB图像作为输入，利用二维单人姿态估计对人体关节点位置进行定位，如果图像中有多人时，可通过对输入图像进行裁剪，得到单人图像。通常，二维人体姿态估计方法分为2类，分别是基于回归的人体姿态估计方法和基于身体部位检测的人体姿态估计方法。Toshev等人率先应用卷积神经网络AlexNet作为主干网络，提出了一种名为DeepPose的回归器学习得到人体关节点的二维像素坐标，但实验证明基于回归的方法得到的关节点误差较大，较难从图像中获取精确的二维像素坐标。因此，研究者们提出了基于身体部位检测的方法，该方法的特点是通过预测身体部位或关节点的大致位置，通常采用关节点热度图(Heat Map)的表示方式，进行监督学习得到人体关节点位置。这种方法能够很好地减小预测误差。

热度图是一种以关节点位置为中心，构建的一个二维高斯分布图，该分布图用来表示某像素坐标可能是关节点的置信度。Sun等人基于热度图的表示方式，提出一种由多个不同尺度的分支网络并联组成的高分辨率卷积神经网络，可以实现多尺度的特征融合。通常取热度图中置信度最大的位置作为输出，是一种不可微的操作，这会使整个网络无法进行端到端的训练。

发明内容

鉴于上述，本发明提供一种羽毛球比赛人体姿态估计和球路追踪方法，实现对羽毛球比赛人体姿态的准确快速估计，同时实现羽毛球球路的追踪。

为实现上述发明目的，实施例提供了一种双目视角的羽毛球球路追踪方法，包括以下步骤：

获取两相机从双目视角同时拍摄羽毛球场景得到的两组时序图像序列；

对两组时序图像序列进行目标识别，得到双目视角预测的羽毛球目标的像素坐标；

基于极线约束原理和标定的相机参数，对双目视角预测的羽毛球目标的像素坐标进行位置信息融合，得到各个时刻的羽毛球三维位置；

结合时序信息和各个时刻的羽毛球三维位置，得到羽毛球三维球路，并对羽毛球三维球路进行离群点检测以去除轨迹噪声，得到平滑的羽毛球三维球路。

在一个实施例中，采用基于编码器-解码器构建的羽毛球目标识别模型，分别对两组时序图像序列进行目标识别；其中，编码器采用VGG16，用于对图像中羽毛球进行特征提取，编码器每层输出的特征数组直接传输到解码器对应特征映射层中，保持小体积物体目标的图像特征；解码器依据输入扩展特征映射生成特征映射图，然后采用与编码器下行采样结构相对应的上行采样结构，生成与输入图像尺寸相同的预测热图，该预测热图中标记有羽毛球目标的像素坐标。

在一个实施例中，羽毛球目标识别模型被应用之前需要经过参数优化，优化时，选择的真实标签为以羽毛球球托部分为圆心向外扩散的二维正态分布函数，采用的损失函数为依据预测热图与真实标签的加权交叉熵损失，表示为：

其中，y_i∈{0,1}为真实标签，0表示该像素点不是羽毛球球体，1表示该像素为羽毛球球体中的像素点，

是网络模型预测值，表示该像素点是羽毛球球体中的像素点的可能性，w是一个权重系数，定义为w＝y,即权重系数等于像素值，以此激励模型更多地关注残差较大的像素。

在一个实施例中，采用孤立森林的离群点检测方式对离群点检测以剔除离群点后，再采用基于投影的二维曲线拟合方式对羽毛球进行拟合，并对缺失羽毛球三维位置的图像帧进行插值，不对已经存在羽毛球三维位置且通过离群点检测被剔除的图像帧做插值，得到平滑的羽毛球三维球路。

为实现上述发明目的，实施例还提供了一种基于双目视角的羽毛球比赛人体姿态估计方法，包括以下步骤：

获取两相机从双目视角同时拍摄羽毛球场景得到的双目视角视频图像；

对双目视角视频图像分别进行运动员检测，以得到运动员包围框和对应ID；

对裁剪放大的人体包围框进行二维人体关节检测，预测双视角下的运动员的关节点像素坐标；

对双视角下对应的同一运动员进行基于极线约束的位置信息融合，获得运动员的三维人体位姿信息，对逐帧的三维人体位姿信息进行组合，得到运动员在视频中的技术动作。

在一个实施例中，所述对双目视角视频图像分别进行运动员检测，以得到运动员的人体包围框和对应ID，包括：

采用基于YOLOv5的人体检测网络对双目视角视频图像进行目标识别，以得到人体包围框；

采用后处理模块基于羽毛球场地的边界标线对人体包围框进行约束，筛选在边界标线内的人体包围框作为运动员包围框。

为实现上述发明目的，实施例还提供了一种基于单目视角的羽毛球比赛人体姿态估计方法，包括以下步骤：

对单目视角的图像序列进行二维人体姿态估计，得到二维人体姿态；

结合相机内参矩阵和二维人体姿态估计三维人体姿态；

对时序图像序列中的三维人体姿态进行基于自适应滤波的时序姿态优化，得到平滑的三维人体姿态；

结合地面约束对三维人体姿态进行修正。

在一个实施例中，采用时序人体姿态估计网络结合相机内参矩阵和二维人体姿态估计三维人体姿态；其中，时序人体姿态估计网络采用空洞卷积神经网络结构。

在一个实施例中，所述对时序图像序列中的三维人体姿态进行基于自适应滤波的时序姿态优化，包括：

利用以下公式进行姿态优化：

其中，

表示人体关节点的世界坐标，

表示优化后结果，E_pred()是一个误差函数，用来保证平滑处理优化后的结果接近初始的网络预测结果，E_smooth()是一个用于平滑处理的误差函数，λ₁和λ₂为权重因子，参数τ(τ₁和τ₂)用来控制平滑滤波器的频率，即控制姿态平滑的尺度，τ较小时表示一个带有高频率阈值的低通滤波器，τ较大时表示一个带有低频率阈值的高通滤波器，设定τ₁＞＞τ₂，v是可见度得分，当姿态完全可见或大部分可见时，v接近1；当人体姿态被遮挡或小部分可见时，v接近于0；当人体姿态完全不可见时，v设置为0，当运动员的人体姿态完全可见时，只考虑E_pred，而忽略E_smooth对人体姿态的平滑处理。

在一个实施例中，所述结合地面约束对三维人体姿态进行修正，包括：

(1)根据图像坐标系下的膝盖关节点与脚踝关节点的连线延长线，得到延长线与包围框底线的交点；

(2)计算图像坐标系下的交点在世界坐标系下的三维位置，由于该交点与底面相交，可知交点位于世界坐标系下的球场平面xOy平面中；

(3)根据交点在世界坐标系下与膝盖关节点与脚踝关节点的连线的比例关系，计算得到膝盖关节点与脚踝关节点的修正位置，通过平移变换得到脚关节点及其他关节点的修正位置，实现人体姿态进行修正。

与现有技术相比，本发明具有的有益效果至少包括：

通过双目视角获得的两组时序图像序列，在目标识别的基础上，对双目是要双目视角预测的羽毛球目标的像素坐标进行位置信息融合，并经过平滑得到平滑的羽毛球三维球路，该方式简单可以快速准确地实现对羽毛球球路追踪；

通过单目视角和双目视角采用不同的方式进行羽毛球比赛人体姿态估计，并通过地面约束对关节点坐标进行约束，以提升姿态评估的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的双目视角的羽毛球球路追踪方法的流程图；

图2和图3是实施例提供的基于双目视角的羽毛球比赛人体姿态估计方法的流程图；

图4和图5是实施例提供的基于单目视角的羽毛球比赛人体姿态估计方法的流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

图1是实施例提供的双目视角的羽毛球球路追踪方法的流程图。如图1所示，实施例提供的双目视角的羽毛球球路追踪方法，包括：

步骤1，获取两相机从双目视角同时拍摄羽毛球场景得到的两组时序图像序列。

实施例中，采用两个内参确定的相机分别从两个视角同时拍摄羽毛球场景得到的两组时序图像序列。

步骤2，对两组时序图像序列进行目标识别，得到双目视角预测的羽毛球目标的像素坐标。

实施例中，采用基于编码器-解码器构建的羽毛球目标识别模型，分别对两组时序图像序列进行目标识别。由于羽毛球的球体体积特征已经十分微弱，为了防止丢失其体积特征，网络放弃了尺寸不变性。输入图像序列时，需要先将RGB图像进行裁剪、放缩和填充操作，使输入图像满足512×288的尺寸大小。网络维护一个最小为1的滑动窗口，本章将窗口大小N定义为3，即网络每次接收3张连续拍摄的RGB图像进行预测。

在羽毛球目标识别模型(TrackNet)中，编码器采用VGG16，用于对图像中羽毛球进行特征提取，编码器每层输出的特征数组直接传输到解码器对应特征映射层中，保持小体积物体目标的图像特征；解码器依据输入扩展特征映射生成特征映射图，然后采用与编码器下行采样结构相对应的上行采样结构，生成与输入图像尺寸相同的预测热图，该预测热图中标记有羽毛球目标的像素坐标。

实施例中，羽毛球目标识别模型被应用之前需要经过参数优化，优化时，选择的真实标签为以羽毛球球托部分为圆心向外扩散的二维正态分布函数，为了使羽毛球目标识别模型更集中于羽毛球这样的小物体目标检测与跟踪，采用的损失函数为依据预测热图与真实标签的加权交叉熵损失，表示为：

步骤3，基于极线约束原理和标定的相机参数，对双目视角预测的羽毛球目标的像素坐标进行位置信息融合，得到各个时刻的羽毛球三维位置。

实施例中，基于预测的球体二维位置信息(像素坐标)作为输入，基于极线约束方法进行双目视角的位置信息融合(Podsition Fusion)，计算得到羽毛球三维位置。其中，标定的相机参数是指双目视角的相机的中心。

步骤4，结合时序信息和各个时刻的羽毛球三维位置，得到羽毛球三维球路，并对羽毛球三维球路进行离群点检测以去除轨迹噪声，得到平滑的羽毛球三维球路。

对于基于极线约束输出的羽毛球三维位置，本质上丢失了时序信息，即步骤2和步骤3主要依靠羽毛球目标识别模型对于时序图像序列的学习能力来输出尽可能平滑的球路，但这样的方式在网络图像输入窗口较小时本身不够可靠。目前球体轨迹出现噪声的主要原因是由于网络错误识别了正样本(FP)导致的，即将原本不是羽毛球的物体错误识别为了羽毛球球体。产生这类现象的具体原因如下：1)仅有一个视角出现FP(负样本)，另一视角输出结果为TP，导致球体轨迹出现离群点。2)因为球速快导致单个或两个视角的球体位置与真实值存在差距，距离误差不大。3)两个视角场景内均出现了类似羽毛球特征的物体并被双目视角的网络同时检测为羽毛球，且一直断断续续出现。

对于第1类情况，虽然直接采用最小二乘法可以得到较好的曲线拟合效果，但如果输入的图像视频的前若干帧就出现第1类情况的噪声，或在图像视频中偶然出现第3类情况时，有可能会累积曲线拟合函数的误差，得到出现偏移的拟合结果，或输出完全不正确的结果，这与球路优化的初衷相悖。因此，采用基于孤立森林的离群点检测方案，对离群点进行初筛，剔除离群点后进行后续的再次插入，能够得到较好的拟合效果。值得注意的是，如果图像视频中连续出现第三种情况，是由于复杂的场地背景导致的，在羽毛球的训练和比赛过程中较少遇到。在此不对这一类情况进行讨论。双目视角训练视频数据集的588帧图像中，共有312帧视频同时从两个视角中检测到羽毛球目标。基于上述视频片段，描述的基于孤立森林的离群点检测方案采用经典的孤立森林算法，每次选取连续片段的羽毛球三维位置结合时间戳信息(xi,yi,zi,framei)作为训练样本S输入；根据返回样本的预测标签的布尔值，删除布尔值为False的离群点。

在删除离群点之后，球路上仍然存在的问题是：没有删除位置坐标上不显著的离群点噪声，缺失双目视角下网络预测为不可见的某帧球体，基于孤立森林方法删除离群点后的时间戳的三维坐标缺失。针对这三类问题，统一采用基于投影的二维曲线拟合方案，即采用基于投影的二维曲线拟合方式对羽毛球进行拟合，得到平滑的羽毛球三维球路。在曲线拟合方案仅并对缺失羽毛球三维位置的图像帧进行插值，不对已经存在羽毛球三维位置且通过离群点检测被剔除的图像帧做插值，实验证明，对全部图像帧进行曲线拟合会累积误差，偏离预期的拟合结果。

实施例还提供了一种基于双目视角的羽毛球比赛人体姿态估计方法，如图2和3所示，包括以下步骤：

步骤1，获取两相机从双目视角同时拍摄羽毛球场景得到的双目视角视频图像。

实施例中，获取给定任意时刻双目视角同步拍摄的羽毛球单打RGB图像。

步骤2，对双目视角视频图像分别进行运动员检测，以得到运动员包围框和对应ID。

实施例中，在对运动员进行检测时，首先，采用基于YOLOv5的人体检测网络(HumanDetect Net)对双目视角视频图像进行目标识别，以得到人体包围框；然后采用后处理模块基于羽毛球场地的边界标线对人体包围框进行约束，筛选在边界标线内的人体包围框作为运动员包围框。

实施例中，基于YOLOv5的人体检测网络的构建流程为：

1)计算视频图像中所有的真实标签与每个锚点的IoU(Intersection overUnion)，获取对每一个真实标签匹配度最高的锚点ID；2)遍历每一个真实标签，找到这个锚点对应的尺度；3)最终输出3个尺度的N维目标检测包围框，N表示真实标签的物体类别。其中，包围框数据包含了定位信息(x,y,w,h)、置信度p，分类信息class，即(x,y,w,h,p,class)。取包围框数据中置信度p最高的目标检测包围框参与计算损失函数L，YOLOv5l通过设定损失函数，把目标检测任务转化为回归任务。其中，xi,yi表示包围框的中心坐标，wi,hi表示包围框的宽和高，

表示第i个锚点中第j个包围框是否负责检测人体目标。

其中，λ_coord表示坐标损失的权重，λ_noobj表示坐标损失的权重，s²表示网格集合，B表示一个网格里有几个框，c_i表示GT类别，

表示预测类别，p_i(c)表示GT置信度，

表示模型预测置信度，ceclasses表示分类损失。

通过场地规则可知，球场内只有两名运动员，且运动员分布在各自的半场中，在半场和中场比赛结束前不会换位，运动员由于羽毛球得分的场地约束，大部分时间均为在球场内的己方半场内活动。基于上述该条件可知，运动员的双脚中通常至少有一只脚会在图像中标线划分的半场内，即使由于运动员的跳跃、跑动导致一只脚或两只脚离开了，也不会远离球场标线。而在YOLOv5l的人体包围框检测中，将人体在图像中垂直像素坐标最低点作为包围框底边，而在比赛中，该点正好是运动员双脚中的其中一个脚点。因此，后处理模块可以通过检测人体包围框的底边线段两端点是否在羽毛球场的半场内，即可将人体包围框的ID与对应半场的运动员ID绑定。

具体地，选取包围框底部两点

作为待跟踪脚点。基于相机场地定义和边界特征点定义，选取世界坐标系下的单打场地的边界特征点(P0,P1,P2,P3,P4,P5)，A半场区域由(P0,P1,P2,P3)依次连接而成的标线划定，B半场区域由(P0,P3,P4,P5)依次连接而成的标线划定。对于任意一个特征点P_i,i∈{0,1,2,3,4,5},根据以下公式得到特征点的像素坐标p_i。

其中，K、R、T分别为相机内参、转换矩阵、平移矩阵。以A半场的运动员跟踪为例，对于A半场的运动员某一脚点p，连接

和边界标线

若该脚点p在秋场内，则下述公式成立：

依次输入所有检测包围框的待跟踪脚点和A/B半场的特征点坐标，若待检测的某包围框内2个脚点中存在至少1个脚点与某个半场特征点关系满足上式。则表示该包围框为该半场内的运动员，获取该运动员的全部包围框数据与对应半场编号相对应。

由于在羽毛球的训练和比赛期间，处于安全和比赛公平考虑，场地周围不会有观众站立，因此可以将球场的特征点按比例向外适当扩大范围，使得球员站在球场边界附近击球时能够更容易被检测，也可以避免运动员的双脚均在球场线附近，存在漏检的情况。

步骤3，对裁剪放大的人体包围框进行二维人体关节检测，预测双视角下的运动员的关节点像素坐标。

实施例中，对包围框进行裁剪，对每个人体检测包围框中的运动员的技术动作进行估计与获取，通过双目视角的二维关节点估计网络得到运动员的二维人体关节点。二维人体姿态估计网络(2D Estimate Net)选用高分辨率卷积神经网络作为主干网络，是一个多目标分类任务，在对高分辨率卷积神经网络进行优化时，采用均方误差作为损失函数。

步骤4，对双视角下对应的同一运动员进行基于极线约束的位置信息融合，获得运动员的三维人体位姿信息，对逐帧的三维人体位姿信息进行组合，得到运动员在视频中的技术动作。

实施例中，对于每个视角下一一对应的运动员二维关节点，根据相机的内外参矩阵进行位置信息融合，得到世界坐标系下的运动员三维人体姿态，在连续图像上组成运动员的技术动作。

实施例还提供了一种基于单目视角的羽毛球比赛人体姿态估计方法，如图4和5所示，包括以下步骤：

步骤1，对单目视角的图像序列进行二维人体姿态估计，得到二维人体姿态。

实施例中，采用二维人体姿态估计网络(2D Estimate Net)对单目视角的图像序列进行二维人体姿态估计(2D player Estimate)得到二维人体姿态估计，即得到运动员的二维人体关节点坐标。

步骤2，结合相机内参矩阵和二维人体姿态估计三维人体姿态。

实施例中，采用时序人体姿态估计网络(Temporal PoseNet)来估计三维人体姿态，给定一段单目视角的羽毛球单打图像序列，根据二维人体姿态估计的输出结果，可以获得了每个运动员的人体包围框预测信息，以及二维关节点像素坐标序列。时序人体姿态估计网络的目标是通过二维人体姿态信息和相机内参，求解三维人体位姿信息。

实施例中，时序人体姿态估计网络采用空洞卷积神经网络结构，内部有3个残差模块，共由6个全连接层组成；残差模块中的卷积操作为空洞卷积；每个残差模块内部先后全连接一个卷积核大小为3和卷积核大小为1的卷积层；卷积层后均为批标准化层、ReLU激活函数和Dropout层。网络的输入和输出均通过去除均值和标准差达到归一化效果。具体实现将第t帧图像前后w帧二维人体关节点序列组成大小为2w+1的滑动窗口，和相机内参一起作为输入，预测得到第t帧图像的三维人体姿态和位置。

在优化时序人体姿态估计网络时，以全部时刻的预测结果与真值标签的距离作为损失函数。

步骤3，对时序图像序列中的三维人体姿态进行基于自适应滤波的时序姿态优化，得到平滑的运动员技术动作。

实施例中，时序人体姿态估计网络(Temporal PoseNet)的输入是一个较大的时序滑动窗口，保证了人体姿态一定的平滑性，但仍然有可能出错，比如双方运动员均在球网前角力而产生互相遮挡时，就可能导致网络的估计错误。因此，实施例采用基于能量优化的关键点轨迹自适应滤波的姿态优化(Pose Refinement)方法，来保证人体姿态在个别帧中被遮挡或部分关节点估计错误时，能够保持连贯平滑的姿态动作。公式表示为：

其中，

表示人体关节点的世界坐标，

表示优化后结果，E_pred()是一个误差函数，用来保证平滑处理优化后的结果接近初始的网络预测结果，E_smooth()是一个用于平滑处理的误差函数，λ₁和λ₂为权重因子，参数τ(τ₁和τ₂)用来控制平滑滤波器的频率，即控制姿态平滑的尺度，τ较小时表示一个带有高频率阈值的低通滤波器，τ较大时表示一个带有低频率阈值的高通滤波器，设定τ₁＞＞τ₂。v是可见度得分，当姿态完全可见或大部分可见时，v接近1；当人体姿态被遮挡或小部分可见时，v接近于0；当人体姿态完全不可见时，v设置为0，当运动员的人体姿态完全可见时，只考虑E_pred，而忽略E_smooth对人体姿态的平滑处理。也就是说，当人体姿态大部分可见时，目标函数并不一会优于时序人体姿态估计网络的预测结果，只有当姿态被大部分遮挡时，该函数才会处于活动状态，以此保证姿态是时刻平滑的。

步骤4，结合地面约束对三维人体姿态进行修正，得到在三维空间中更为平滑和准确的运动员技术动作。

时序人体姿态估计网络虽然实现了根节点(脚关节点)的三维位置估计，但该网络对与训练的数据集和测试集拥有较好的表现效果，但想要泛化地应用于任何场景，还有待考量。泛化能力有限是目前时序人体姿态估计网络通常会遇到的问题，原因有获取的三维人体位置信息受到训练数据集的相机焦距的影响，无法较为准确地估计其他数据集上人体在三维位置中的距离，例如对于采集的单目羽毛球比赛视频和双目羽毛球训练视频，时序人体姿态估计网络的估计结果仍然存在深度估计不准的问题，特别是在采用长焦距拍摄的单目羽毛球比赛视频上，人体姿态会出现明显的过于靠近或远离相机的情况，这也说明，目前的深度学习模型研究从单目视频中能获取的三维信息仍十分有限，依赖于深度学习网络去泛化估计单目视频中的人体绝对位姿是一件不可靠的事情。因此，针对羽毛球比赛的训练，引入了地面约束，介绍一种改进时序人体姿态估计网络估计结果的位置优化方案，结合人体包围框与场地的关系，在运动员双脚不起跳的前提下，可以实现更准确地估计运动员在世界坐标系下的位置。

具体地，结合地面约束对三维人体姿态进行修正，包括：

实施例中，用到的相机参数都是通过场地特征点估计得到，具体过程包括：首先，给定一张RGB图像，人工标注球场内的特征点；然后，根据标注点的像素坐标和对应的世界坐标，计算相机可能的焦距；最后，根据相机的内参矩阵和特征点对应的像素坐标和世界坐标的转换误差，确定相机的外参矩阵。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种双目视角的羽毛球球路追踪方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的双目视角的羽毛球球路追踪方法，其特征在于，采用基于编码器-解码器构建的羽毛球目标识别模型，分别对两组时序图像序列进行目标识别；其中，编码器采用VGG16，用于对图像中羽毛球进行特征提取，编码器每层输出的特征数组直接传输到解码器对应特征映射层中，保持小体积物体目标的图像特征；解码器依据输入扩展特征映射生成特征映射图，然后采用与编码器下行采样结构相对应的上行采样结构，生成与输入图像尺寸相同的预测热图，该预测热图中标记有羽毛球目标的像素坐标。

3.根据权利要求2所述的双目视角的羽毛球球路追踪方法，其特征在于，羽毛球目标识别模型被应用之前需要经过参数优化，优化时，选择的真实标签为以羽毛球球托部分为圆心向外扩散的二维正态分布函数，采用的损失函数为依据预测热图与真实标签的加权交叉熵损失，表示为：

4.根据权利要求1所述的双目视角的羽毛球球路追踪方法，其特征在于，采用孤立森林的离群点检测方式对离群点检测以剔除离群点后，再采用基于投影的二维曲线拟合方式对羽毛球进行拟合，并对缺失羽毛球三维位置的图像帧进行插值，不对已经存在羽毛球三维位置且通过离群点检测被剔除的图像帧做插值，得到平滑的羽毛球三维球路。

5.一种基于双目视角的羽毛球比赛人体姿态估计方法，其特征在于，包括以下步骤：

6.根据权利要求5所述的基于双目视角的羽毛球比赛人体姿态估计方法，其特征在于，所述对双目视角视频图像分别进行运动员检测，以得到运动员的人体包围框和对应ID，包括：

7.一种基于单目视角的羽毛球比赛人体姿态估计方法，其特征在于，包括以下步骤：

结合相机内参矩阵和二维人体姿态估计三维人体姿态；

结合地面约束对三维人体姿态进行修正。

8.根据权利要求7所述的基于单目视角的羽毛球比赛人体姿态估计方法，采用时序人体姿态估计网络结合相机内参矩阵和二维人体姿态估计三维人体姿态；其中，时序人体姿态估计网络采用空洞卷积神经网络结构。

9.根据权利要求7所述的基于单目视角的羽毛球比赛人体姿态估计方法，所述对时序图像序列中的三维人体姿态进行基于自适应滤波的时序姿态优化，包括：

利用以下公式进行姿态优化：

其中，

表示人体关节点的世界坐标，

10.根据权利要求7所述的基于单目视角的羽毛球比赛人体姿态估计方法，所述结合地面约束对三维人体姿态进行修正，包括：