CN111680608A

CN111680608A - 一种基于视频分析的智慧体育辅助训练系统及训练方法

Info

Publication number: CN111680608A
Application number: CN202010493114.XA
Authority: CN
Inventors: 张立华; 张沛轩; 林野; 郭博宇
Original assignee: Changchun Boli Electronic Technology Co ltd
Current assignee: Changchun Boli Electronic Technology Co ltd
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2020-09-18
Anticipated expiration: 2040-06-03
Also published as: CN111680608B

Abstract

本发明公开了一种基于视频分析的智慧体育辅助训练系统及训练方法，包括：视频监控系统，其包括多个摄像机，用于采集视频信息；主机服务器，其通过网络设备与所述视频监控系统相连，用于接收视频信息并进行视频分析；中心服务器，其通过网络设备与所述主机服务器相连，用于接收视频分析数据，通过深度学习后形成分析报告；客户端，其通过网络设备与所述中心服务器相连，并通过互联网或者局域网与所述中心服务器实现交互。

Description

一种基于视频分析的智慧体育辅助训练系统及训练方法

技术领域

本发明涉及体育辅助训练技术领域，尤其涉及一种基于视频分析的智慧体育辅助训练系统及训练方法。

背景技术

近年来，利用运动员的训练、比赛及视频图像作为训练的参考，进行体育运动分析是国内普遍采用的一种训练方式。通过视频分析系统可以提高体育训练视频回放的动作分析能力，提高训练质量。通过分析运动员的动作不足之处进行针对性训练，也可以尽量避免伤病的出现。

现有辅助训练系统，需要预先安装大量的监控设备，或3d摄像头，价格都相对较高，而且维护和更新费用也比较高。同时，在进行视频分析时，识别人物的反应速度慢。

其次，只能通过视频对运动员动作进行分析，无法精确到运动员的运动状态、步伐大小等。并且，无法对视频中运动员的运动轨迹进行轨迹追踪重建，这样不利于教练员在指导训练时做出决策。

同时，现有技术无法对运动员进行追踪，一旦运动员移出监控范围，再回到监控范围，无法对其进行追踪。

发明内容

本发明设计开发了一种基于视频分析的智慧体育辅助训练系统，本发明的发明目的是解决现有助训练系统，需要预先安装大量的监控设备的问题。

本发明设计开发了一种基于视频分析的智慧体育辅助训练方法，本发明的发明目的是解决了现有技术中在进行视频分析时，识别人物的反应速度慢的问题。

本发明提供的技术方案为：

一种基于视频分析的智慧体育辅助训练系统，包括：

视频监控系统，其包括多个摄像机，用于采集视频信息；

主机服务器，其通过网络设备与所述视频监控系统相连，用于接收视频信息并进行视频分析；

中心服务器，其通过网络设备与所述主机服务器相连，用于接收视频分析数据，通过深度学习后形成分析报告；

客户端，其通过网络设备与所述中心服务器相连，并通过互联网或者局域网与所述中心服务器实现交互。

优选的是，所述中心服务还用于相应所述客户端的不同请求，提供访问功能，同时通过向主机服务器发送控制信息。

优选的是，所述摄像机的安装满足相邻间可视区域有50％以上重叠区域，设置高度范围为2m～5m，垂直角度范围为10°～15°，摄像机清晰度为720p，帧率为30fps。

一种基于视频分析的智慧体育辅助训练方法，包括如下步骤：

步骤一、通过视频监控系统采集运动员视频信息，并将所述视频信息输送至主机服务器；

步骤二、所述主机服务器对所述视频信息进行分析得到运动员的运动信息，并将所述运动信息输送至中心服务器；

步骤三、所述中心服务器根据所述运动信息星湖曾分析报告并存储；

步骤四、客户端通过调取所述分析报告对运动员进行实时监控并进行训练。

优选的是，在所述步骤二中，分析等到所述运动信息过程包括：

步骤1、对所述视频信息的特定角度进行特征提取；

步骤2、将相邻时段各个人物的融合特征进行聚类以确定运动员身份ID；

步骤3、利用已知运动员身份ID的3d关键点确定运动员的运动信息。

优选的是，在所述步骤1中，特征提取过程包括：

提取外观特征：通过人物检测神经网络检测视频中的视频信息中的运动员，将视频信息中各视角图像作为输入，通过任意人物边框特征提取公式提取任意人物的检测网络结构后，将每个人物矩形框所对应的图像作为输入，送入外观特征神经网络，通过外观特征提取公式提取运动员的外观特征；以及

提取面部特征：通过面部检测神经网络检测视频中的视频信息中的运动员，将视频信息中各视角图像作为输入，通过任意面部边框特征提取公式提取任意面部的检测网络结构后，将每个面部矩形框所对应的图像作为输入，送入面部特征神经网络，通过面部特征提取公式提取运动员的面部特征。

优选的是，所述任意人物边框特征提取公式为 {x_i，y_i，h_i，w_i，s_i}＝F_人物检测(I_i)；

式中，F_人物检测为满足输出格式的任意人物检测网络结构，I_i为第i个视角下当前时刻的图像，x_i表示检测出的人物边框左上点的横坐标数组，y_i表示检测出边框左上点的纵坐标数组，h_i表示检测出边框长度数组，w_i表示检测出边框宽度数组，s_i表示检测出边框的分数数组；

所述外观特征提取公式为f_外观＝F_外观特征(I_p)；

式中，f_外观为外观特征，I_p为第p个人物边框所对应的图像。

优选的是，任意面部边框特征提取公式为 {x_fi，y_fi，h_fi，w_fi，s_fi}＝F_面部检测(I_p)；式中，F_面部检测为满足输出格式的任意面部检测网络结构，I_p为第p个人物边框所对应的图像，x_fi表示检测出的面部边框左上点的横坐标数组，y_fi表示检测出边框左上点的纵坐标数组，h_fi表示检测出边框长度数组，w_fi表示检测出边框宽度数组，s_fi表示检测出边框的分数数组；

所述面部特征提取公式为f_面部＝F_面部特征(I_pf)；

式中，f_面部为面部特征，I_pf为第p个人物的面部边框所对应的图像。

优选的是，在所述步骤2中，确定运动员身份ID过程包括：

根据人物边框特征和面部边框特征，将每个人物矩形框所对应的图像作为输入，3D人体关键点检测网络，提取相对17个3D骨骼关键点坐标，根据标定好的第i个视角下的相机矩阵P_i、人物矩形框坐标左下坐标(x₁，y₁)，右下坐标(x₂，y₂)，计算出底点坐标

根据坐标公式计算检测出的人物在3D空间中的坐标位置(x_3d，y_3d)，将17个3D骨骼关键点坐标更新得到3D骨骼关键点特征为

(x_global，y_global，z_gloabl)＝(x_local，y_local，z_local)+(x_3d，y_3d，0)；

其中，坐标公式为

根据所述外观特征、面部特征和3D骨骼关键点特征形成融合特征后确定运动身份ID。

优选的是，在所述步骤3中，所述运动信息包括：

运动员速度为

运动员步伐为

运动员手臂夹角或者膝关节夹角为

式中， v_a＝(x_lh-x_ln，y_lh-y_ln，z_lh-z_ln)，v_b＝(x_lh-x_la，y_lh-y_la，z_lh-z_la)， (x_lh，y_lh，z_lh)，(x_ln，y_ln，z_ln)，(x_la，y_la，z_la)为手臂夹角或者膝关节夹角的相邻三个关键点坐标。

本发明与现有技术相比较所具有的有益效果：本发明通过不同角度摄像机获取的高清图像，不需要预先安装大量的监控设备，或3d摄像头。同时利用神经网络提取运动员的面部特征、外观特征、3D人体关键点等特征来描述运动员身份，保证了算法更新维护的便捷性。通过将相邻时段提取出的多个人特征进行聚类，以确定出各个检测结果的身份。由于用于聚类的特征是在相邻时段多角度视频中提取的，所以及时运动员被短时遮挡或者短时移出监控范围，本系统也可以实现运动员的运动轨迹进行轨迹追踪重建。最后利用同一身份的3D人体关键点序列，确定运动员速度、步幅、动作标准程度、运动状态等信息，为教练员提供科学可靠的参考。

附图说明

图1为本发明所述的17个关键点示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

本发明通过不同角度摄像机获取的高清图像，利用人物检测神经网络检测视频中的运动员，面部检测神经网络检测视频中的运动员面部边框，同时利用面部检测神经网络提取运动员面部特征，利用外观特征神经网络提取运动员的外观特征，利用标记好的相机矩阵提取运动员的位置坐标，利用3D 人体关键点检测网络提取3D骨骼关键点特征，利用聚类方法确定运动员身份，最后确定运动员速度、步幅、动作标准程度、运动状态等信息。

本发明提供一种基于视频分析的智慧体育辅助训练系统，包括：视频监控系统(由多个摄像头组成)，主机服务器、中心服务器(云服务器)、网络连接设备、客户端软件(包括监控端和管理端)。

中心服务器(云服务器)部署在中心机房，通过网络连接设备与部署在运动员训练场被的主机服务器连接。同时接入互联网，客户端软件通过互联网与中心服务器交互。

中心服务器实现的功能有：接收主机服务器发送过来的录制视频，并通过深度学习和人工智能的大数据系统进行分析，形成运动员分析报告。中心服务器中响应客户端的不同请求，提供相应的访问功能；通过向主机服务器发送控制指令，间接控制监控系统。

主机服务器与监控系统都安装在训练场内，二者通过网络设备连接，同时，主机服务器通过网络设备与机房的中心服务器连接。

网络设备用于连接视频监控系统、主机服务器、中心服务器(云服务器) 和互联网。

视频监控系统由多个摄像机组成，根据比赛场地大小确定摄像机位置以及角度，要求相邻摄像机间可视区域有50％及以上重叠，摄像机高度在2m- 5m之间，垂直角度在10°～15°之间，相机清晰度在720p，帧率在30fps以上。保证多个相机可以全面观测训练区域所有位置。根据区域大小、运动员多少、运动训练项目等因素安装2-N个可变焦摄像机。所有的摄像机都通过网络设备与主机服务器相连。

主机服务器主要是利用已经训练好的卷积神经网络进行特征提取，实现视频分析。主要分成三个部分，系统具体如下：

第一部分是特定角度特征提取，包括：利用人物检测神经网络检测视频中的运动员，将各视角图像作为输入检测运动员。可用下面的公式表示{x_i，y_i，h_i，w_i，s_i}＝F_人物检测(I_i)，其中F_人物检测为人物检测神经网络，I_i为第i 个视角下当前时刻的图像，返回的结果包括五部分其中x_i表示检测出的人物边框左上点的横坐标数组，y_i表示检测出边框左上点的纵坐标数组，h_i表示检测出边框长度数组，w_i表示检测出边框宽度数组，s_i表示检测出边框的分数数组。通常数组长度可以设定成足够大，以满足检出足够多的目标被检出，最终保留分数大于预设阈值的矩形框。F_人物检测为满足输出格式的任意人物检测网络结构；在本实施例中，人物检测神经网络不需要定义，满足输入输出格式即可；

利用面部检测神经网络提取运动员面部特征，将各视角图像检出的运动员图像作为输入，提取运动员的面部边框。与人物检测相似，可用下面的公式表示{x_fi，y_fi，h_fi，w_fi，s_fi}＝F_面部检测(I_p)，其中F_面部检测为面部检测神经网络，I_p为第p个人物边框所对应的图像，返回的结果包括五部分其中x_fi表示检测出的面部边框左上点的横坐标数组，y_fi表示检测出边框左上点的纵坐标数组，h_fi表示检测出边框长度数组，w_fi表示检测出边框宽度数组，s_fi表示检测出边框的分数数组。通常仅取分数最高的矩形框。F_面部检测为满足输出格式的任意人脸检测网络结构；在本实施例中，人脸检测神经网络不需要定义，满足输入输出格式即可；

在获取运动员以及相应人物边框以及面部边框后，将每个人物矩形框所对应的图像作为输入，送入外观特征神经网络，提取运动员的外观特征；每个人物的面部矩形框所对应的图像作为输入，送入面部特征神经网络，提取运动员的面部特征。可用下面的公式表示，f_外观＝F_外观特征(I_p)， f_面部＝F_面部特征(I_pf)。其中，F_外观特征，F_面部特征为外观特征神经网络以及面部特征网络，I_p为第p个人物边框所对应的图像，I_pf为第p个人物的面部边框所对应的图像，返回的结果为外观特征f_外观、面部特征f_面部。其中F_外观特征和F_面部特征为特征提取网络；在本实施例中，外观检测神经网络不需要定义，满足输入输出格式即可；

第二部分将相邻时段各个人物的融合特征进行聚类以确定运动员身份 ID；在本实施例中，不需要明确定义聚类方法，任何不需要预先设定聚类中心数量的聚类方法都可以；包括：利用相应人物边框以及面部边框，将每个人物矩形框所对应的图像作为输入，3D人体关键点检测网络，提取相对17 个3D骨骼关键点坐标；包括关键点如图1所示，可以下面的公式表示， pts＝F_3d关键点(I_p)，其中I_p为第p个人物边框所对应的图像，pts表示为 [17×3]的矩阵表示17个关键点的(x_local，y_local，z_local)相对坐标；其中，17 个关键点设置在胸中点，左肩，左肘，左手，右肩，右肘，右手，左胯，左膝，左脚，右胯，右膝，右脚，左眼，右眼，左耳，右耳；

根据标定好的第i个视角下的相机矩阵P_i，以及检测出的人物矩形框坐标左下坐标(x₁，y₁)，右下坐标(x₂，y₂)，计算出底点坐标

y_bottom＝y₁＝y₂，利用公式：

计算出检测出的人物在3D空间中的坐标位置(x_3d，y_3d)，根据这个坐标将17个 3D骨骼关键点坐标更新，

将面部特征、外观特征、3D骨骼关键点特征进行拼接形成融合特征，将之前N帧的多个摄像头提取的融合特征进行无监督聚类，将类内融合特征标记成相同的身份，以确定运动员身份ID，实现运动员轨迹追踪、运动轨迹重建；

第三个部分利用已知运动员身份ID的3d关键点确定运动员动作、速度、步幅、动作标准程度、运动状态等信息，包括：在确定每个运动员的3D骨骼关键点之后，利用相邻两帧中运动员头部关键点所对应的3D坐标计算移动差值，可用下面公式确定运动员速度：

式中，(x_t y_t，z_t)为t时刻运动员头部位置，(x_t-1 y_t-1，z_t-1)为t-1时刻运动员头部位置，FPS为相机的帧率；

利用每帧中运动员左右脚踝3D关键点坐标计算步伐，可用下面公式确定步伐大小：

其中，(x_l，y_l，z_l)，(x_r，y_r，z_r)分别代表左、右脚踝3D坐标，d代表步伐大小，以厘米为单位；

利用3D关键点确定关键关节夹角，以17个关键点为例，关键夹角如左右手臂夹角、左右膝关节夹角，以左膝关节夹角计算为例，其中三个关键点参与计算，分别是(x_lh，y_lh，z_lh)，(x_ln，y_ln，z_ln)，(x_la，y_la，z_la)， v_a＝(x_lh-x_ln，y_lh-y_ln，z_lh-z_ln)，v_b＝(x_lh-x_la，y_lh-y_la，z_lh-z_la)，计算向量v_a，v_b之间的夹角，

利用时序3D关键点作为输入，利用动作识别神经网络模型实现对运动员当前的动作识别。通过下述公式表达：action＝arg max F_动作识别(Pts3D)， Pts3D为3D时序关键点，F_动作识别为动作识别神经网络模型，action为识别出的动作，将3D时序关键点数据与标准动作3D关键点数据进行拼接，回归动作标准程度。计算时段内平均标准程度，判断运动员的训练状态，为教练员指导训练提供决策依据；在本实施例中，动作识别神经网络不需要定义，满足输入输出格式即可；

将提取到的运动信息，如速度、步幅、关节角度、动作标准程度、运动状态等，存在中心服务器端，供客户端调取。

客户端包括两种形式，一种基于Web界面的B/S风格客户端，主要用于 PC端；另一种是移动APP客户端。客户端提供两种使用角色：监控端和管理端。客户端可以通过互联网或者局域网与中心服务器实现交互。

客户端需要实现的功能有：客户端将对，中心服务器将对多视角视频处理结果进行可视化：其中包括多角度视频，检测到的人物边框，人脸边框，运动员在运动场地内的俯视图运动轨迹，3D骨架时序序列。通过调取中心服务器段存储的运动信息，主要包括：关键骨骼夹角，步幅，速度，标准程度系数。计算各个指标均值、方差等统计指标，生成时序变化图，将其作为运动员状态分析报告、运动轨迹追踪报告、动作分析报告的内容。以及实现其他管理功能。

实施例

以花样滑冰运动为例。

教练员需要注册后才能使用客户端相应的功能，注册后，需要管理员后台审核，以避免出现安全问题。

教练员需要录入所指导的运动员信息，包括个人信息。

管理员可以在主机服务器上部署的神经网络，具体网络结构可以根据用户需求进行自行配置，但需要满足各个网络输入输出匹配。具体部署样例：人物检测网络、人脸检测网络使用yolo-v3[1]结构，外观特征、面部特征网络使用resnet-50[2]结构，3D人体关键点检测网络使用open-pose[3]、 VideoPose3D[4]结合的两阶段检测网络。无监督聚类使用谱聚类。动作识别网络LSTM结构分类器，动作标准程度网络均为LSTM结构分类器。所有网络使用预先标定的数据集进行训练。

其中X_t作为输入代表一个运动员的3D关键点，维度为[17×1]，LSTM 的隐藏向量维度可根据用户需求自行设定，逻辑回归的输出维度也根据用户想识别的动作数目而定。

动作标准程度网络结构与动作识别网络结构相似。其中输入包括：想要对比的标准动作时序，检测到的动作时序。利用线性插值，将两段动作统一到相同长度，然后按照对应位置进行拼接。因此动作标准程度输入的数据维度为[34×1]。通过LSTM层计算后送入逻辑回归层，逻辑回归层的输出为标准程度数值。

投入使用后，主机服务器不断从监控系统中获取录制的视频，通过主机服务器上面部署的人物检测神经网络检测出运动员在图像中的位置；通过面部检测神经网络检测出运动员人脸；通过外观特征提取神经网络提取运动员外观特征；通过面部特征提取神经网络提取运动员面部特征；通过3D人体关键点提取网络提取运动员人体3D关键点的3D坐标。拼接外观特征、3D 关键点坐标，然后进行无监督聚类，判定运动员身份。根据运动员身份检索出运动员的3D关键点时序，利用动作识别网络识别运动员动作，例如：跳跃，旋转等。计算检测得到的3D关键点提取关键骨骼间的夹角，步幅，速度等运动信息，计算检测得到的3D关键点时序与标准动作3D关键点时序的相关性，判定动作标准程度系数。

中心服务器保存了运动员运动信息，客户端提取这些运动员信息，进而生成运动员状态统计报告、运动轨迹追踪报告、动作统计报告等返回客户端。这样设计，当人员出现变动时，便于维护，而且客户端不直接与主机服务器连接，也避免了网络安全的问题。

网络设备氛围两种，一种是放置在训练场内的小型设备(交换机)，用于连接监控系统和主机服务器，另一种是放着在机房的大型网络设备(大型交互机)，用于中心服务器和主机服务器、互联网连接。

因此，本发明的个性化辅助训练系统，是一种借助于深度学习和人工智能的视频分析系统，该系统能够实现对训练场内运动员的自动识别、运动轨迹追踪、自动采集、自动分析、自动传输，减少人工成本，为运动员提高技能，避免伤病提供保障。本发明可以对运动员步伐大小、姿态估计进行追踪，对移出范围，并在短时间移入范围的运动员进行轨迹追踪重建，避免追踪不到的问题。有助于教练员更好的指导运动员训练。

同时本发明系统结构简单(仅有监控+主机、中心服务器、客户端三层)，部署容易，成本低(客户端可以用现有PC或智能手机)，易于升级维护，且升级维护成本低(一般情况下只要升级中心服务器和主机服务器的软件即可)，智能化程度高(无需大量人工干预)，同时能够节省查找人物相关视频的时间。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于视频分析的智慧体育辅助训练系统，其特征在于，包括：

视频监控系统，其包括多个摄像机，用于采集视频信息；

2.如权利要求1所述的基于视频分析的智慧体育辅助训练系统，其特征在于，所述中心服务还用于相应所述客户端的不同请求，提供访问功能，同时通过向主机服务器发送控制信息。

3.如权利要求1所述的基于视频分析的智慧体育辅助训练系统，其特征在于，所述摄像机的安装满足相邻间可视区域有50％以上重叠区域，设置高度范围为2m～5m，垂直角度范围为10°～15°，摄像机清晰度为720p，帧率为30fps。

4.一种基于视频分析的智慧体育辅助训练方法，其特征在于，包括如下步骤：

5.如权利要求4所述的基于视频分析的智慧体育辅助训练方法，其特征在于，在所述步骤二中，分析等到所述运动信息过程包括：

步骤1、对所述视频信息的特定角度进行特征提取；

6.如权利要求5所述的基于视频分析的智慧体育辅助训练方法，其特征在于，在所述步骤1中，特征提取过程包括：

7.如权利要求6所述的基于视频分析的智慧体育辅助训练方法，其特征在于，所述任意人物边框特征提取公式为{x_i，y_i，h_i，w_i，s_i}＝F_人物检测(I_i)；

所述外观特征提取公式为f_外观＝F_外观特征(I_p)；

8.如权利要求7所述的基于视频分析的智慧体育辅助训练方法，其特征在于，任意面部边框特征提取公式为{x_fi，y_fi，h_fi，w_fi，s_fi}＝F_面部检测(I_p)；式中，F_面部检测为满足输出格式的任意面部检测网络结构，I_p为第p个人物边框所对应的图像，x_fi表示检测出的面部边框左上点的横坐标数组，y_fi表示检测出边框左上点的纵坐标数组，h_fi表示检测出边框长度数组，w_fi表示检测出边框宽度数组，s_fi表示检测出边框的分数数组；

所述面部特征提取公式为f_面部＝F_面部特征(I_pf)；

9.如权利要求8所述的基于视频分析的智慧体育辅助训练方法，其特征在于，在所述步骤2中，确定运动员身份ID过程包括：

y_bottom＝y1＝y2，根据坐标公式计算检测出的人物在3D空间中的坐标位置(x_3d，y_3d)，将17个3D骨骼关键点坐标更新得到3D骨骼关键点特征为

其中，坐标公式为[x_3d，y_3d，0，1]^T＝P_i ^-1[x_bottom，y_bottom，1]^T；

10.如权利要求8所述的基于视频分析的智慧体育辅助训练方法，其特征在于，在所述步骤3中，所述运动信息包括：

运动员速度为

运动员步伐为

运动员手臂夹角或者膝关节夹角为

式中，v_a＝(x_lh-x_ln，y_lh-y_ln，z_lh-z_ln)，v_b＝(x_ln-x_la，y_ln-y_la，z_ln-z_la)，(x_lh，y_lh，z_lh)，(x_ln，y_ln，z_ln)，(x_la，y_la，z_la)为手臂夹角或者膝关节夹角的相邻三个关键点坐标。