CN115188074A

CN115188074A - 一种互动式体育训练测评方法、装置、系统及计算机设备

Info

Publication number: CN115188074A
Application number: CN202210806794.5A
Authority: CN
Inventors: 罗新建
Original assignee: Le Pao Sports Internet Wuhan Co ltd
Current assignee: Le Pao Sports Internet Wuhan Co ltd
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2022-10-14

Abstract

本发明涉及体育训练设备技术领域，公开了一种互动式体育训练测评方法、装置、系统及计算机设备，其方法是基于人脸识别技术、人员追踪技术、语音/动作控制技术、数据收集技术和动作识别技术，在确定包含有至少一个人体动作的体育训练项目后，针对基于Kinect骨骼数据识别出的且属于所述至少一个人体动作的某个人体动作，根据对应的多维特征数据和模板特征数据，计算得到对应的动作匹配度，最后将该动作匹配度作为实时测评结果推送至展示设备进行输出展示，如此可有一个统一标准去比较训练动作技术的力学特征及合理性，利于学员及时找出当前训练动作所存在的问题并及时进行纠正，进而可提高纠错准确性和运动成绩，减少教育教师工作量。

Description

一种互动式体育训练测评方法、装置、系统及计算机设备

技术领域

本发明属于体育训练设备技术领域，具体地涉及一种互动式体育训练测评方法、装置、系统及计算机设备。

背景技术

目前，传统的体育教学方式主要是基于人肉眼观察到的人体运动去进行动作技术分析以及基于情感经验方法去判断在体育教学中是否需要进行动作纠正，然而每位体育教师判断的标准不一，带有较强主观性，不利于客观分析学生在体育训练项目中的人体动作是否标准，进而存在纠正学生动作不及时和错误以及提高运动成绩有限的问题。

发明内容

为了解决传统体育教学方式所存在纠正学生动作不及时和错误以及提高运动成绩有限的问题，本发明目的在于提供一种互动式体育训练测评方法、装置、系统、计算机设备及计算机可读存储介质。

第一方面，本发明提供了一种互动式体育训练测评方法，包括：

接收由摄像设备对现场人员采集的人脸图像；

根据所述人脸图像，对所述现场人员进行身份验证处理，得到身份验证结果；

若所述身份验证结果为验证通过，则将所述现场人员作为合法用户，并基于由所述摄像设备采集而得的视频图像对所述合法用户进行人员追踪；

根据人员追踪结果，获取来自所述合法用户的语音控制指令/动作控制指令；

根据所述语音控制指令/所述动作控制指令，确定包含有至少一个人体动作的体育训练项目；

根据所述人员追踪结果接收由Kinect设备对所述合法用户实时采集的Kinect骨骼数据，其中，所述Kinect骨骼数据包含有多个人体关节点的三维坐标，所述多个人体关节点包括有头部关节点、颈部关节点、脊柱肩膀关节点、脊柱中间关节点、脊柱基底关节点、左肩关节点、左肘关节点、左腕关节点、左手关节点、左臀关节点、左膝关节点、左踝关节点、左足关节点、右肩关节点、右肘关节点、右腕关节点、右手关节点、右臀关节点、右膝关节点、右踝关节点和右足关节点；

将连续多帧的所述Kinect骨骼数据导入基于人工神经网络的且已预训练的人体动作识别模型，得到人体动作识别结果；

若所述人体动作识别结果表示存在属于所述至少一个人体动作的某个人体动作，则针对所述某个人体动作，根据在对应起止时间内的且所述多个人体关节点的三维坐标，提取得到对应的第一多维特征数据集；

根据所述第一多维特征数据集和第二多维特征数据集，计算得到所述某个人体动作的动作匹配度，其中，所述第二多维特征数据集为预先在专业人士进行所述体育训练项目且做出所述某个人体动作时基于Kinect骨骼数据采集结果提取而得的模板特征数据，并具有与所述第一多维特征数据集相同的维度；

将所述某个人体动作的动作匹配度作为实时测评结果推送至展示设备，以便通过所述展示设备向所述合法用户输出展示。

基于上述发明内容，可提供一种可帮助体育教师科学量化地分析和纠正学生训练动作的新方案，即在基于人脸图像验证确定合法用户后，基于由摄像设备采集而得的视频图像对所述合法用户进行人员追踪，并根据人员追踪结果，获取来自所述合法用户的语音控制指令/ 动作控制指令，然后根据控制指令确定包含有至少一个人体动作的体育训练项目，以及根据所述人员追踪结果接收由Kinect设备对所述合法用户实时采集的Kinect骨骼数据，再然后针对基于Kinect骨骼数据识别出的且属于所述至少一个人体动作的某个人体动作，根据对应的多维特征数据和模板特征数据，计算得到对应的动作匹配度，最后将该动作匹配度作为实时测评结果推送至展示设备进行输出展示，如此可有一个统一标准去比较训练动作技术的力学特征及合理性，利于学员及时找出当前训练动作所存在的问题并及时进行纠正，进而可提高纠错准确性和运动成绩，同时减少教育教师工作量，便于实际应用和推广。

在一个可能的设计中，根据所述人脸图像，对所述现场人员进行身份验证处理，得到身份验证结果，包括：

将所述人脸图像导入基于深度学习技术的且已预训练的人脸识别模型，输出得到人脸识别结果；

若所述人脸识别结果表示所识别出人员为已注册的合法用户，则采用活体检测方式判断所述现场人员是否为虚假人员；

若判定所述现场人员不为虚假人员，则确定针对所述现场人员的身份验证结果为验证通过。

在一个可能的设计中，根据人员追踪结果，获取来自所述合法用户的语音控制指令，包括：

接收由拾音设备采集的现场音频数据；

根据所述现场音频数据，利用已完成训练的且基于端到端语音识别技术的关键词检索系统来进行控制话语关键词识别处理，得到控制话语关键词识别结果；

若所述控制话语关键词识别结果表示存在控制话语关键词，则针对所述控制话语关键词，根据在对应起止时间内的音频数据，利用已完成训练的声源方位估计模型来进行对应的声源方位估计处理，得到对应的声源相对于所述拾音设备的方向角及仰角；

根据所述方向角及仰角和所述拾音设备的已知位置，确定与所述控制话语关键词对应的声源位置；

根据人员追踪结果，确定所述合法用户在与所述控制话语关键词对应的起止时间内的人头位置；

判断所述声源位置与所述人头位置是否为同一位置；

若是，则将与所述控制话语关键词预先绑定的语音控制指令作为来自所述合法用户的语音控制指令。

在一个可能的设计中，根据人员追踪结果，获取来自所述合法用户的动作控制指令，包括：

接收由Kinect设备对现场人员实时采集的第二Kinect骨骼数据，其中，所述第二Kinect 骨骼数据包含有多个人体关节点的三维坐标，所述多个人体关节点包括有头部关节点、颈部关节点、脊柱肩膀关节点、脊柱中间关节点、脊柱基底关节点、左肩关节点、左肘关节点、左腕关节点、左手关节点、左臀关节点、左膝关节点、左踝关节点、左足关节点、右肩关节点、右肘关节点、右腕关节点、右手关节点、右臀关节点、右膝关节点、右踝关节点和右足关节点；

将连续多帧的所述第二Kinect骨骼数据导入基于人工神经网络的且已预训练的控制动作识别模型，得到控制动作识别结果；

若所述控制动作识别结果表示存在控制动作，则针对所述控制动作，根据在对应起止时间内的且所述多个人体关节点的三维坐标，确定对应的动作发生位置；

根据人员追踪结果，确定所述合法用户在与所述控制动作对应的起止时间内的人员位置；

判断所述动作发生位置与所述人员位置是否为同一位置；

若是，则将与所述控制动作预先绑定的动作控制指令作为来自所述合法用户的动作控制指令。

在一个可能的设计中，在确定体育训练项目之后且根据所述人员追踪结果接收由Kinect 设备对所述合法用户实时采集的Kinect骨骼数据之前，所述方法还包括：

将与所述体育训练项目对应的学习视频推送至展示设备，以便通过所述展示设备向所述合法用户输出展示。

在一个可能的设计中，当根据所述语音控制指令/所述动作控制指令，还确定有虚拟训练场景和由多个人体部位虚拟模型组成的虚拟训练人物时，则在根据所述人员追踪结果接收由Kinect设备对所述合法用户实时采集的Kinect骨骼数据之后，所述方法还包括：

根据所述Kinect骨骼数据和所述多个人体部位虚拟模型与所述多个人体关节点的对应关系，确定所述多个人体部位虚拟模型中各个人体部位虚拟模型在所述虚拟训练场景中的实时位置及姿态，其中，所述多个人体部位虚拟模型包括有人体头部虚拟模型、人体颈部虚拟模型、躯干上部虚拟模型、躯干下部虚拟模型、左上臂虚拟模型、左前臂虚拟模型、左手虚拟模型、左大腿虚拟模型、左小腿虚拟模型、左足虚拟模型、右上臂虚拟模型、右前臂虚拟模型、右手虚拟模型、右大腿虚拟模型、右小腿虚拟模型和右足虚拟模型；

将所述实时位置及姿态推送至显示设备，以便通过所述显示设备向所述合法用户输出展示所述虚拟训练人物在所述虚拟训练场景中跟随所述合法用户进行所述体育训练项目的实时情况。

第二方面，本发明提供了一种互动式体育训练测评装置，包括有图像接收模块、身份验证模块、人员追踪模块、指令获取模块、训练项目确定模块、数据接收模块、动作识别模块、特征提取模块、匹配度计算模块和测评结果推送模块；

所述图像接收模块，用于接收由摄像设备对现场人员采集的人脸图像；

所述身份验证模块，通信连接所述图像接收模块，用于根据所述人脸图像，对所述现场人员进行身份验证处理，得到身份验证结果；

所述人员追踪模块，通信连接所述身份验证模块，用于若所述身份验证结果为验证通过，则将所述现场人员作为合法用户，并基于由所述摄像设备采集而得的视频图像对所述合法用户进行人员追踪；

所述指令获取模块，通信连接所述人员追踪模块，用于根据人员追踪结果，获取来自所述合法用户的语音控制指令/动作控制指令；

所述训练项目确定模块，通信连接所述指令获取模块，用于根据所述语音控制指令/所述动作控制指令，确定包含有至少一个人体动作的体育训练项目；

所述数据接收模块，通信连接所述人员追踪模块，用于根据所述人员追踪结果接收由 Kinect设备对所述合法用户实时采集的Kinect骨骼数据，其中，所述Kinect骨骼数据包含有多个人体关节点的三维坐标，所述多个人体关节点包括有头部关节点、颈部关节点、脊柱肩膀关节点、脊柱中间关节点、脊柱基底关节点、左肩关节点、左肘关节点、左腕关节点、左手关节点、左臀关节点、左膝关节点、左踝关节点、左足关节点、右肩关节点、右肘关节点、右腕关节点、右手关节点、右臀关节点、右膝关节点、右踝关节点和右足关节点；

所述动作识别模块，通信连接所述数据接收模块，用于将连续多帧的所述Kinect骨骼数据导入基于人工神经网络的且已预训练的人体动作识别模型，得到人体动作识别结果；

所述特征提取模块，分别通信连接所述训练项目确定模块和所述动作识别模块，用于若所述人体动作识别结果表示存在属于所述至少一个人体动作的某个人体动作，则针对所述某个人体动作，根据在对应起止时间内的且所述多个人体关节点的三维坐标，提取得到对应的第一多维特征数据集；

所述匹配度计算模块，通信连接所述特征提取模块，用于根据所述第一多维特征数据集和第二多维特征数据集，计算得到所述某个人体动作的动作匹配度，其中，所述第二多维特征数据集为预先在专业人士进行所述体育训练项目且做出所述某个人体动作时基于Kinect 骨骼数据采集结果提取而得的模板特征数据，并具有与所述第一多维特征数据集相同的维度；

所述测评结果推送模块，通信连接所述匹配度计算模块，用于将所述某个人体动作的动作匹配度作为实时测评结果推送至展示设备，以便通过所述展示设备向所述合法用户输出展示。

第三方面，本发明提供了一种互动式体育训练测评系统，包括有摄像设备、Kinect设备、展示设备和控制设备，其中，所述摄像设备和所述Kinect设备的输出端分别通信连接所述控制设备的输入端，所述控制设备的输出端通信连接所述展示设备的输入端；

所述摄像设备，用于采集现场人员的图像；

所述Kinect设备，用于实时采集现场人员的Kinect骨骼数据，其中，所述Kinect骨骼数据包含有多个人体关节点的三维坐标，所述多个人体关节点包括有头部关节点、颈部关节点、脊柱肩膀关节点、脊柱中间关节点、脊柱基底关节点、左肩关节点、左肘关节点、左腕关节点、左手关节点、左臀关节点、左膝关节点、左踝关节点、左足关节点、右肩关节点、右肘关节点、右腕关节点、右手关节点、右臀关节点、右膝关节点、右踝关节点和右足关节点；

所述展示设备，用于输出展示来自所述控制设备的实时测评结果；

所述控制设备，用于执行如第一方面或第一方面中任意一种可能设计所述的互动式体育训练测评方法。

第四方面，本发明提供了一种计算机设备，包括有依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如第一方面或第一方面中任意一种可能设计所述的互动式体育训练测评方法。

第五方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如上第一方面或第一方面中任意一种可能设计的所述的互动式体育训练测评方法。

第六方面，本发明提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如上第一方面或第一方面中任意一种可能设计的所述的互动式体育训练测评方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的互动式体育训练测评方法的流程示意图。

图2是本发明提供的基于端到端语音识别技术的关键词检索系统的工作原理示意图。

图3是本发明提供的在关键词检索过程中帧级别对齐算法的流程示意图。

图4是本发明提供的在关键词检索过程中关键词匹配及去重方法的流程示意图。

图5是本发明提供的声音信号预处理方法的流程示意图。

图6是本发明提供的在声源位置估计模型中卷积神经网络的结构示意图。

图7是本发明提供的在Kinect骨骼数据中25个人体关节点的示例图。

图8是本发明提供的互动式体育训练测评装置的结构示意图。

图9是本发明提供的互动式体育训练测评系统的结构示意图。

图10是本发明提供的计算机设备的结构示意图。

具体实施方式

下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是，对于这些实施例方式的说明虽然是用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明示例的实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解，尽管本文可能使用术语第一和第二等等来描述各种对象，但是这些对象不应当受到这些术语的限制。这些术语仅用于区分一个对象和另一个对象。例如可以将第一对象称作第二对象,并且类似地可以将第二对象称作第一对象，同时不脱离本发明的示例实施例的范围。

应当理解，对于本文中可能出现的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A、单独存在B或者同时存在A和B等三种情况；对于本文中可能出现的术语“/和”，其是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A或者同时存在A和B等两种情况；另外，对于本文中可能出现的字符“/”，一般表示前后关联对象是一种“或”关系。

如图1所示，本实施例第一方面提供的互动式体育训练测评方法，可以但不限于由具有一定计算资源的且通信连接有摄像设备、Kinect设备(其是一种由微软开发的现有深度体感摄影机，“Kinect”为动力学——Kinetics加上连接——Connection两字所自创的新词汇) 和展示设备的计算机设备执行，例如由单片机、个人计算机(Personal Computer，PC，指一种大小、价格和性能适用于个人使用的多用途计算机；台式机、笔记本电脑到小型笔记本电脑和平板电脑以及超级本等都属于个人计算机)、智能手机、个人数字助理(Personal digital assistant，PAD)、可穿戴设备或平台服务器等电子设备执行，以便有一个统一标准去比较训练动作技术的力学特征及合理性，利于学员及时找出当前训练动作所存在的问题并及时进行纠正，进而可提高纠错准确性和运动成绩，同时减少教育教师工作量，便于实际应用和推广。如图1所示，所述互动式体育训练测评方法，可以但不限于包括有如下步骤S1～ S10。

S1.接收由摄像设备对现场人员采集的人脸图像。

在所述步骤S1中，所述摄像设备可以是所述Kinect设备中的一个特定摄像头，也可以是一个独立摄像头，用于采集获取所述现场人员的人脸图像。

S2.根据所述人脸图像，对所述现场人员进行身份验证处理，得到身份验证结果。

在所述步骤S2中，所述身份验证处理为系统登录验证过程，具体的，可以但不限于包括有如下步骤S21～S23。

S21.将所述人脸图像导入基于深度学习技术的且已预训练的人脸识别模型，输出得到人脸识别结果。

在所述步骤S21中，所述深度学习(Deep Learning)技术是机器学习技术的一个分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法，至今已有数种深度学习框架，如卷积神经网络、深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别和生物信息学等领域，并获取了极好的效果，因此可以基于卷积神经网络、深度置信网络和递归神经网络等深度学习网络，通过常规的学习训练方式预训练得到所述人脸识别模型，使得其在输入人脸图像后，可以输出对应的人脸识别结果。此外，若在人脸识别过程中发现所述人脸图像中的人脸大小不符合规定人脸大小(即人脸太大或者太小)，可以通过所述展示设备提示所述现场人员向前靠近摄像头(即在人脸太小时)或者向后远离摄像头(即在人脸太大时)。

S22.若所述人脸识别结果表示所识别出人员为已注册的合法用户，则采用活体检测方式判断所述现场人员是否为虚假人员。

在所述步骤S22中，所述活体检测方式可以但不限于具体采用常规的眨眼检测方式、点头检测方式和/或摇头检测方式等，如此可以防止有人使用照片等虚假信息进行身份验证，提高验证通过准确性。

S23.若判定所述现场人员不为虚假人员，则确定针对所述现场人员的身份验证结果为验证通过。

在所述步骤S23中，相应的，当所述人脸识别结果表示所识别出人员为未注册用户或者判定所述现场人员为虚假人员时，还可以确定针对所述现场人员的身份验证结果为验证未通过。

S3.若所述身份验证结果为验证通过，则将所述现场人员作为合法用户，并基于由所述摄像设备采集而得的视频图像对所述合法用户进行人员追踪。

在所述步骤S3中，对所述合法用户进行人员追踪的具体手段为现有视频追踪技术，于此不再赘述。此外，所述摄像设备优选为摄像头可转动的现有设备，以便使该摄像头可跟随所述合法用户的移动而进行相应的镜头转动，实现更好的人员追踪目的。

S4.根据人员追踪结果，获取来自所述合法用户的语音控制指令/动作控制指令。

在所述步骤S4中，考虑存在现场人员有多个而合法用户仅有一个的情况，为了准确获取来自所述合法用户的语音控制指令，优选的，根据人员追踪结果，获取来自所述合法用户的语音控制指令，包括但不限于有如下步骤S411～S417。

S411.接收由拾音设备采集的现场音频数据。

在所述步骤S411中，所述拾音设备可以是所述Kinect设备中的一个特定麦克风，也可以是一个独立麦克风，用于采集获取现场音频数据。

S412.根据所述现场音频数据，利用已完成训练的且基于端到端语音识别技术的关键词检索系统来进行控制话语关键词识别处理，得到控制话语关键词识别结果。

在所述步骤S412中，所述基于端到端语音识别技术的关键词检索系统主要用于进行现场人员话语中关键词的匹配并得到关键词的起止时间点和置信度。所述关键词检索系统中的主要核心部分为端到端语音识别系统(其采用基于Transformer神经网络结构的联合CTC/注意力架构作为语音识别的基本框架)、逐帧音素分类器、帧级别对齐部分以及N-最佳假设的关键词匹配和去重，其概要示意图如图2所示，该图2中的A虚线框为逐帧音素分类器，B虚线框为联合CTC/注意力的端到端语音识别前端(其中，需要说明的是逐帧音素分类器与语音识别编码器两者的网络结构除输出层维度不同外，其他完全相同，故将逐帧音素分类器和端到端语音识别前端的下采样层共享以及若干低层编码器层参数共享，但为求训练时不互相干扰，则将若干高层编码器层隔离开来)。

所述关键词检索系统的处理流程是：先着眼于A虚线框所示，将原始语音特征输入到下采样共享层(目的是为了减少后续神经网络的计算量)，而后进入由若干层堆叠构成的(低层和高层)编码器网络，再经过softmax全连接输出层(即音素分类器输出层)，得到逐帧的音素后验概率(音素分类器的输出为单词每一帧语音上每一个音素的后验概率)；同时如B虚线框所示，在将原始语音特征输入到下采样共享层和若干(低层和高层)编码器网络后，数据会进入到CTC(Connectionist Temporal Classification，联结主义时间分类)输出层(利用CTC的神经网络逐帧预测出CTC标签序列，并合并序列中连续的相同输出标签，经删除特定标签及塌缩后得到结果序列)及经注意力机制(由前馈网络和多头自注意力层两子层构成了每个编码器层；自注意力的三个输入：Q-查询、K-键和V-值皆为前子层的输出；自注意力和前馈网络之间有单个多头注意力子层，其输入Q来自前一子层的输出，而输入K和输入V 来自编码器的最后一层输出，从而构成此处的注意力机制，且此处注意力机制是缩放点乘注意力)后进入若干解码器层，加之解码器的输入为文本标签的嵌入向量序列，且在推理时以上一步预测的输出标签作为输入(以自回归的形式预测当前标签)；此时，在解码器的预测标签集合和CTC结果序列的加持下，在推理过程中，利用CTC和解码器的分数，进行CTC/注意力联合解码。

为了给联合CTC/注意力的端到端语音识别前端提供较为精确的单词起止时间点和可靠置信度，可采用帧级对齐方法和使用Softmax输出层获取的结果后验概率(归属于单词每帧语音的每音素)来达到目的，帧级别对齐方法如图3所示：将语音识别的解码结果单词序列映射为音素序列(δ₁，…，δ_M)，并在句首、句尾以及相邻单词间插入间隔音素；对于每个音素δ_M，从音素分类器中获取到的音素在每帧语音帧上的后验概率。则δ_M在第n帧上的后验概率为P_n(δ_M)，总语音帧数为N，则音素后验概率构成了一个M×N矩阵P；使用动态规划算法找到从矩阵左上角元素P_1,1到右下角元素P_M,N的最大累积后验概率路径(路径只向右或右下方前进，每一帧对应且仅对应一个音素，每个有实际发音的音素至少对应一帧，但间隔音素可以跳过)；回溯各音素对应的语音帧，进而得出语音识别解码结果中各个单词的起止帧，依据模型的帧率计算出起止时间点，并计算出单词的帧平均音素后验概率置信度γ，且利用解码器输出的标签后验概率均值置信度ξ与γ线性插值后获得结果关键词置信度。至此，已对音素分类器的后验概率和联合解码结果进行时间对齐，已获取各个单词的时间起止点和置信度，而后进入N-最佳假设的关键词匹配和去重(目的是以防遗漏潜在的关键词结果)，如图4所示：将结果列表清空，而后倒序遍历各假设(N假设->1假设)匹配关键词，将其放入结果列表后，若发现结果列表中已有相同关键词，则将置信度较高者保留，较低者删除。

在所述步骤S412之前，针对所述关键词检索系统的样本采集及训练过程，可以但不限于包括如下：(1)获取人工标注的且与控制话语关键词(例如“跳绳训练”、“垫球训练”和“发球训练”等预先定义的语音命令)对应的语音识别数据集C(对作为训练集的数据进行全局的倒谱均值方差归一化)；而后将使用Kaldi进行语音预处理和特征提取,采用40维高分辨率梅尔频率倒谱系数以及三维声调特征作为语音特征，并将所述语音识别数据集C中的训练集人工转录文本，用字节对编码(BPE)算法生成一定数目文本建模单元，作为端到端语音识别输出单元；另外，采用三音子建模的高斯混合模型-HMM语音识别系统得到音素分类器训练所需的训练集语音逐帧音素标注；(2)根据所述语音识别数据集C，采用基于端到端语音识别技术的关键词检索系统进行模型训练；其中，逐帧音素分类器和语音识别前端两者以多任务学习的方式联合训练，总损失函数由音素分类器损失函数L_PC与语音识别前端损失函数L_ASR线性插值得到：L＝βL_PC+(1-β)L_ASR，式中，β表示插值系数；在模型训练时采用带Noam学习率衰减的Adam优化器进行优化，并使用dropout(概率为0.1)、标签平滑(系数为0.1)、训练热身(25000步)和梯度裁剪(阈值为5)训练，多任务学习损失插值系数α和β分别设置为0.3和0.1，得到所述已完成训练的且基于端到端语音识别技术的关键词检索系统。

另外，在所述关键词检索系统的参数配置阶段，可将逐帧音素分类器和语音识别前端的共享底层配置为9层Transformer编码器,另外各自的较高3层编码器分别配置为独立使用；语音识别前端的解码器配置为6层，每个编码器和解码器层中多头注意力的维度配置为320，头数配置为4，前馈神经网络维度配置为2048；逐帧音素分类器的建模单元配置为汉语的22 个辅音、10个元音以及静音(间隔音素)，共33个音素标签。此外，在运行阶段，使用CTC 权重为0.5的CTC/注意力联合解码，以及考虑系统模型的训练过程需要消耗大量的计算资源，所述关键词检索系统优选在其他计算机设备上完成训练后，再作为AI检测算法的一部分部署到所述计算机设备上。

S413.若所述控制话语关键词识别结果表示存在控制话语关键词，则针对所述控制话语关键词，根据在对应起止时间内的音频数据，利用已完成训练的声源方位估计模型来进行对应的声源方位估计处理，得到对应的声源相对于所述拾音设备的方向角及仰角。

在所述步骤S413中，所述声源方位估计模型主要包含有声音信号的预处理和卷积神经网络结构两大部分，其中，预处理部分需要对采集的声音采取分帧加窗和降噪等处理，通过麦克风阵列结构进而算出通道间的Gcc-Phat，然后依据四通道阵元结构，经阵元间的关系可获取六维Gcc-Phat特征，如图5所示。如图6所示为所述声源方位估计模型中卷积神经网络结构图，该CNN(Convolutional Neural Network,卷积神经网络)网络结构的网络参数如下表1所示：

表1.CNN网络结构的网络参数

序号	网络结构	网络参数
			1	卷积块C1	64@3x3
2	卷积块C2	128@3x3
			3	卷积块C3	256@3x3
4	卷积块C4	512@3x3
			5	Pool	2x2
6	全连接层FC	512->2N

此外，在该CNN网络结构中采用池化窗口为2x2的最大池化且每一个卷积块之后进行批量归一化。

在所述步骤S413之前，所述声源方位估计模型的样本采集及训练过程，可以但不限于包括如下：(1)获取模拟在现场仅有双人情况下的音频数据；(2)基于音频数据经预处理获取到Gcc-Phat特征且做相关量计算后，再将特征数据、相关量计算结果以及拾音设备与发声位置的参考坐标(拾音设备前端中心为原点)、参考方位角和仰角数据作为声音定位估计数据集；(3)利用所述声音定位估计数据集对声源方位估计模型的卷积神经网络进行模型训练，得到所述已完成训练的声源方位估计模型。此外，考虑估计模型的训练过程需要消耗大量的计算资源，所述声源方位估计模型优选在其他计算机设备上完成训练后，再作为AI检测算法的一部分部署到所述计算机设备上。

S414.根据所述方向角及仰角和所述拾音设备的已知位置，确定与所述控制话语关键词对应的声源位置。

在所述步骤S414中，可以具体通过几何知识，根据所述方向角及仰角和所述拾音设备的已知位置，确定与所述控制话语关键词对应的声源位置。

S415.根据人员追踪结果，确定所述合法用户在与所述控制话语关键词对应的起止时间内的人头位置。

在所述步骤S415中，由于是进行人员追踪，可以具体细化到对所述合法用户的人体头部进行视频追踪，进而可以根据人员追踪结果，确定所述合法用户在与所述控制话语关键词对应的起止时间内的人头位置。

S416.判断所述声源位置与所述人头位置是否为同一位置。

在所述步骤S416中，具体的判断过程可以但不限于包括有：先计算所述声源位置与所述人头位置的空间距离，若该空间距离小于预设的第一距离阈值(例如50厘米)，则可以判定所述声源位置与所述人头位置为同一位置，表明所述控制话语关键词是由所述合法用户发出的，否则判定所述声源位置与所述人头位置不为同一位置，表明所述控制话语关键词不是由所述合法用户发出的，而是由其他现场人员发出的。

S417.若是，则将与所述控制话语关键词预先绑定的语音控制指令作为来自所述合法用户的语音控制指令。

在所述步骤S4中，考虑存在现场人员有多个而合法用户仅有一个的情况，同样为了准确获取来自所述合法用户的动作控制指令，优选的，根据人员追踪结果，获取来自所述合法用户的动作控制指令，包括但不限于有如下步骤S421～S426。

S421.接收由Kinect设备对现场人员实时采集的第二Kinect骨骼数据，其中，所述第二Kinect骨骼数据包含但不限于有多个人体关节点的三维坐标，所述多个人体关节点包括有头部关节点、颈部关节点、脊柱肩膀关节点、脊柱中间关节点、脊柱基底关节点、左肩关节点、左肘关节点、左腕关节点、左手关节点、左臀关节点、左膝关节点、左踝关节点、左足关节点、右肩关节点、右肘关节点、右腕关节点、右手关节点、右臀关节点、右膝关节点、右踝关节点和右足关节点等。

在所述步骤S421中，所述Kinect设备优选为第二代的Kinect V2设备，其相对于第一代Kinect设备有改进的4阵列麦克风(零点平衡)、新的主动式红外检测和1080P高清视频等，同时可利用改进之后的骨骼追踪识别技术，对深度图像前景和背景进行分离，然后通过基于深度图像特征的骨骼关节点跟踪6个完整骨骼和25个关节点(如图7所示，有头部关节点1——Head、颈部关节点2——Neck、脊柱肩膀关节点3——SpineShoulder、脊柱中间关节点4——SpineMid、脊柱基底关节点5——SpineBase、左肩关节点6——ShoulderLeft、左肘关节点7——ElbowLeft、左腕关节点8——WristLeft、左手关节点9——HandLeft、左拇指关节点10——ThumbLeft、左指尖关节点11——HandTipLeft、左臀关节点12—— HipLeft、左膝关节点13——KneeLeft、左踝关节点14——AnkleLeft、左足关节点15—— FootLeft、右肩关节点16——ShoulderRight、右肘关节点17——ElbowRight、右腕关节点 18——WristRight、右手关节点19——HandRight、右拇指关节点20——ThumbRight、右指尖关节点21——HandTipRight、右臀关节点22——HipRight、右膝关节点23——KneeRight、右踝关节点24——AnkleRight和右足关节点25——FootRight等)，最后以约30fps的传输速度输出Kinect骨骼数据，使得追踪的姿势更加精确和稳定。由于所述Kinect设备会对所述25个关节点进行追踪，因此追踪所得的Kinect骨骼数据必然包含有所述多个人体关节点的三维坐标。

S422.将连续多帧的所述第二Kinect骨骼数据导入基于人工神经网络的且已预训练的控制动作识别模型，得到控制动作识别结果。

在所述步骤S422中，所述人工神经网络(Artificial Neural Network，简称ANN)是指由大量的处理单元(即神经元)互相连接而形成的复杂网络结构，是对人脑组织结构和运行机制的某种抽象、简化和模拟，其以数学模型模拟神经元活动，是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统，因此具有自学习、自组织、自适应以及很强的非线性函数逼近能力，拥有强大的容错性，可以实现仿真、二值图像识别、预测以及模糊控制等功能，是处理非线性系统的有力工具。由此可通过常规的学习训练方式预训练得到所述控制动作识别模型，使得其在输入连续多帧的所述Kinect骨骼数据后，可以输出对应的控制动作识别结果。

S423.若所述控制动作识别结果表示存在控制动作，则针对所述控制动作，根据在对应起止时间内的且所述多个人体关节点的三维坐标，确定对应的动作发生位置。

在所述步骤S423中，考虑图7中的脊柱中间关节点4最接近人体中心，因此为了简化确定方式，可优选地直接将所述多个人体关节点中脊柱中间关节点4在与所述控制动作(例如将左手提高到水平位置等预先定义的交互姿势命令)对应的起止时间内的三维坐标均值，确定为所述控制动作的动作发生位置。

S424.根据人员追踪结果，确定所述合法用户在与所述控制动作对应的起止时间内的人员位置。

S425.判断所述动作发生位置与所述人员位置是否为同一位置。

在所述步骤S425中，具体的判断过程可以但不限于包括有：先计算所述动作发生位置与所述人员位置的空间距离，若该空间距离小于预设的第二距离阈值(例如100厘米)，则可以判定所述动作发生位置与所述人员位置为同一位置，表明所述控制动作是由所述合法用户做出的，否则判定所述动作发生位置与所述人员位置不为同一位置，表明所述控制动作不是由所述合法用户做出的，而是由其他现场人员做出的。

S426.若是，则将与所述控制动作预先绑定的动作控制指令作为来自所述合法用户的动作控制指令。

S5.根据所述语音控制指令/所述动作控制指令，确定包含有至少一个人体动作的体育训练项目。

在所述步骤S5中，所述体育训练项目可以但不限于有跳绳训练、垫球训练和发球训练等。此外，根据所述语音控制指令/所述动作控制指令，还可以确定其他可控内容，例如确定虚拟训练场景(例如采用Unity3D建立的室内单人训练场或室内排球场等)和由多个人体部位虚拟模型组成的虚拟训练人物(例如采用Unity3D建立的3D游戏人物等)。

S6.根据所述人员追踪结果接收由Kinect设备对所述合法用户实时采集的Kinect骨骼数据，其中，所述Kinect骨骼数据包含有多个人体关节点的三维坐标，所述多个人体关节点包括但不限于有头部关节点、颈部关节点、脊柱肩膀关节点、脊柱中间关节点、脊柱基底关节点、左肩关节点、左肘关节点、左腕关节点、左手关节点、左臀关节点、左膝关节点、左踝关节点、左足关节点、右肩关节点、右肘关节点、右腕关节点、右手关节点、右臀关节点、右膝关节点、右踝关节点和右足关节点等。

在所述步骤S6中，由于根据人员追踪结果可确定所述合法用户在任意时刻的人员位置，因此可以将实时最靠近该人员位置的且包含有所述多个人体关节点的三维坐标，作为由所述 Kinect设备对所述合法用户实时采集的Kinect骨骼数据，以便排除因其它现场人员动作而采集到的噪声数据，进一步确保后续测评结果的准确性。此外，为了在用户训练前向所述合法用户提供训练学习资料，优选的，在确定体育训练项目之后且根据所述人员追踪结果接收由Kinect设备对所述合法用户实时采集的Kinect骨骼数据之前，所述方法还包括但不限于有：将与所述体育训练项目对应的学习视频推送至展示设备，以便通过所述展示设备向所述合法用户输出展示，其中，所述展示设备可以不限于为显示屏或投影仪等。

S7.将连续多帧的所述Kinect骨骼数据导入基于人工神经网络的且已预训练的人体动作识别模型，得到人体动作识别结果。

在所述步骤S7中，同样可通过常规的学习训练方式预训练得到所述人体动作识别模型，使得其在输入连续多帧的所述Kinect骨骼数据后，可以输出对应的人体动作识别结果。

S8.若所述人体动作识别结果表示存在属于所述至少一个人体动作的某个人体动作，则针对所述某个人体动作，根据在对应起止时间内的且所述多个人体关节点的三维坐标，提取得到对应的第一多维特征数据集。

在所述步骤S8中，举例的，所述第一多维特征数据集可以但不限于包含有所述多个人体关节点中各个人体关节点的轨迹数据和/或相邻三个人体关节点(例如左肩关节点6、左肘关节点7和左腕关节点8等)的夹角数据，等等，因此可以通过常规的数据特征提取方式，提取得到所述某个人体动作的所述第一多维特征数据集。

S9.根据所述第一多维特征数据集和第二多维特征数据集，计算得到所述某个人体动作的动作匹配度，其中，所述第二多维特征数据集为预先在专业人士进行所述体育训练项目且做出所述某个人体动作时基于Kinect骨骼数据采集结果提取而得的模板特征数据，并具有与所述第一多维特征数据集相同的维度。

在所述步骤S9中，所述第二多维特征数据集即表示所述某个人体动作的模板特征数据，其同样可以通过常规的数据特征提取方式得到。所述动作匹配度的具体计算过程，可以但不限于包括如下：针对所述第一多维特征数据集中各个特征值，将其与在所述第二多维特征数据集中的对应特征值相除，并取绝对值作为对应的相除结果；然后对在所述第一多维特征数据集中所有特征值的相除结果求和，再计算出均值，得到所述某个人体动作的动作匹配度。此外，若预先在专业人士进行所述体育训练项目且做出所述某个人体动作时基于Kinect骨骼数据采集结果提取得到多个所述第二多维特征数据集(即所述专业人士每做出一次所述某个人体动作，提取得到对应的一个所述第二多维特征数据集)，可以对多个所述第二多维特征数据集做均值处理后，得到所述某个人体动作的模板特征数据。

S10.将所述某个人体动作的动作匹配度作为实时测评结果推送至展示设备，以便通过所述展示设备向所述合法用户输出展示。

在所述步骤S10中，具体的，还可以将基于所述动作匹配度而得的评价等级也作为实时测评结果推送至所述展示设备，以便通过所述展示设备向所述合法用户输出展示，其中，基于所述动作匹配度确定所述评价等级的具体方式可以但不限于包括有：当所述动作匹配度位于区间[0.00，0.60)时，记评价等级为不合格；当所述动作匹配度位于区间[0.60，0.75)时，记评价等级为合格；当所述动作匹配度位于区间[0.75，0.90)时，记评价等级为良好；当所述动作匹配度位于区间[0.90，1.00]时，记评价等级为优秀。此外，还可以在得到所述至少一个人体动作中各个人体动作的动作匹配度后，将它们的动作匹配度平均值作为所述体育训练项目的训练动作匹配度，并将该训练动作匹配度作为最终测评结果推送至展示设备，以便通过所述展示设备向所述合法用户输出展示。

由此通过前述步骤S1～S10所描述的互动式体育训练测评方法，提供了一种可帮助体育教师科学量化地分析和纠正学生训练动作的新方案，即在基于人脸图像验证确定合法用户后，基于由摄像设备采集而得的视频图像对所述合法用户进行人员追踪，并根据人员追踪结果，获取来自所述合法用户的语音控制指令/动作控制指令，然后根据控制指令确定包含有至少一个人体动作的体育训练项目，以及根据所述人员追踪结果接收由Kinect设备对所述合法用户实时采集的Kinect骨骼数据，再然后针对基于Kinect骨骼数据识别出的且属于所述至少一个人体动作的某个人体动作，根据对应的多维特征数据和模板特征数据，计算得到对应的动作匹配度，最后将该动作匹配度作为实时测评结果推送至展示设备进行输出展示，如此可有一个统一标准去比较训练动作技术的力学特征及合理性，利于学员及时找出当前训练动作所存在的问题并及时进行纠正，进而可提高纠错准确性和运动成绩，同时减少教育教师工作量，便于实际应用和推广。

本实施例在前述第一方面的技术方案基础上，还提供了一种结合虚拟现实技术提升学员训练兴趣的可能设计一，即当根据所述语音控制指令/所述动作控制指令，还确定有虚拟训练场景和由多个人体部位虚拟模型组成的虚拟训练人物时，则在根据所述人员追踪结果接收由Kinect设备对所述合法用户实时采集的Kinect骨骼数据之后，所述方法还包括但不限于有如下步骤S61～S62。

S61.根据所述Kinect骨骼数据和所述多个人体部位虚拟模型与所述多个人体关节点的对应关系，确定所述多个人体部位虚拟模型中各个人体部位虚拟模型在所述虚拟训练场景中的实时位置及姿态，其中，所述多个人体部位虚拟模型包括但不限于有人体头部虚拟模型、人体颈部虚拟模型、躯干上部虚拟模型、躯干下部虚拟模型、左上臂虚拟模型、左前臂虚拟模型、左手虚拟模型、左大腿虚拟模型、左小腿虚拟模型、左足虚拟模型、右上臂虚拟模型、右前臂虚拟模型、右手虚拟模型、右大腿虚拟模型、右小腿虚拟模型和右足虚拟模型等。

在所述步骤S61中，所述各个人体部位虚拟模型均可采用Unity3D建立而得。所述多个人体部位虚拟模型与所述多个人体关节点的对应关系可以是一一对应关系(例如人体头部虚拟模型与头部关节点一一对应，等等)，也可以是一对多的对应关系(例如躯干上部虚拟模型与脊柱肩膀关节点、脊柱中间关节点、左肩关节点和右肩关节点对应，等等)，因此可以基于所述多个人体关节点的三维坐标，通过常规几何知识，确定所述各个人体部位虚拟模型在所述虚拟训练场景中的实时位置及姿态。

S62.将所述实时位置及姿态推送至展示设备，以便通过所述展示设备向所述合法用户输出展示所述虚拟训练人物在所述虚拟训练场景中跟随所述合法用户进行所述体育训练项目的实时情况。

在所述步骤S62中，优选的，通过所述展示设备向所述合法用户输出展示所述虚拟训练人物在所述虚拟训练场景中跟随所述合法用户进行所述体育训练项目的实时情况，包括但不限于有：当所述某个人体动作的动作匹配度低于预设的匹配度阈值(例如0.68)时，通过所述展示设备以警示颜色展示用于做出所述某个人体动作的至少一个人体部位虚拟模型。例如在发球训练时，若右手发球动作的动作匹配度低于预设的匹配度阈值，可以用红色来展示用于做出所述右手发球动作的右上臂虚拟模型、右前臂虚拟模型和右手虚拟模型，如此可以更加直观且准确地提醒学员及时纠正右手发球动作。

由此基于上述步骤S61～S62所描述的可能设计一，还可以在确定有虚拟训练场景和由多个人体部位虚拟模型组成的虚拟训练人物时，通过所述展示设备向所述合法用户输出展示所述虚拟训练人物在所述虚拟训练场景中跟随所述合法用户进行所述体育训练项目的实时情况，从而可以结合虚拟现实技术提升学员训练兴趣，以及更加直观且准确地提醒学员及时纠正错误的训练动作。

如图8所示，本实施例第二方面提供了一种实现第一方面或在第一方面中任意可能设计所述的互动式体育训练测评方法的虚拟装置，包括有图像接收模块、身份验证模块、人员追踪模块、指令获取模块、训练项目确定模块、数据接收模块、动作识别模块、特征提取模块、匹配度计算模块和测评结果推送模块；

本实施例第二方面提供的前述装置的工作过程、工作细节和技术效果，可以参见第一方面或第一方面中任意一种可能设计所述的方法，于此不再赘述。

如图9所示，本实施例第三方面提供了一种应用第一方面或在第一方面中任意可能设计所述互动式体育训练测评方法的互动式体育训练测评系统，包括有摄像设备、Kinect设备、展示设备和控制设备，其中，所述摄像设备和所述Kinect设备的输出端分别通信连接所述控制设备的输入端，所述控制设备的输出端通信连接所述展示设备的输入端；所述摄像设备，用于采集现场人员的图像；所述Kinect设备，用于实时采集现场人员的Kinect骨骼数据，其中，所述Kinect骨骼数据包含有多个人体关节点的三维坐标，所述多个人体关节点包括有头部关节点、颈部关节点、脊柱肩膀关节点、脊柱中间关节点、脊柱基底关节点、左肩关节点、左肘关节点、左腕关节点、左手关节点、左臀关节点、左膝关节点、左踝关节点、左足关节点、右肩关节点、右肘关节点、右腕关节点、右手关节点、右臀关节点、右膝关节点、右踝关节点和右足关节点；所述展示设备，用于输出展示来自所述控制设备的实时测评结果；所述控制设备，用于执行如第一方面或在第一方面中任意可能设计所述的互动式体育训练测评方法。

本实施例第三方面提供的前述系统的工作过程、工作细节和技术效果，可以参见第一方面或在第一方面中任意可能设计所述的互动式体育训练测评方法，于此不再赘述。

如图10所示，本实施例第四方面提供了一种执行如第一方面或在第一方面中任意可能设计所述的互动式体育训练测评方法的计算机设备，包括有依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如第一方面或在第一方面中任意可能设计所述的互动式体育训练测评方法。具体举例的，所述存储器可以但不限于包括随机存取存储器(Random-Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、闪存(FlashMemory)、先进先出存储器(First Input First Output，FIFO)和/或先进后出存储器(First Input Last Output， FILO)等等；所述处理器可以但不限于采用型号为STM32F105系列的微处理器。此外，所述计算机设备还可以但不限于包括有电源模块、显示屏和其它必要的部件。

本实施例第四方面提供的前述计算机设备的工作过程、工作细节和技术效果，可以参见第一方面或在第一方面中任意可能设计所述的互动式体育训练测评方法，于此不再赘述。

本实施例第五方面提供了一种存储包含如第一方面或在第一方面中任意可能设计所述的互动式体育训练测评方法的指令的计算机可读存储介质，即所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面或在第一方面中任意可能设计所述的互动式体育训练测评方法。其中，所述计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等计算机可读存储介质，所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。

本实施例第五方面提供的前述计算机可读存储介质的工作过程、工作细节和技术效果，可以参见如第一方面或在第一方面中任意可能设计所述的互动式体育训练测评方法，于此不再赘述。

本实施例第六方面提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如第一方面或在第一方面中任意可能设计所述的互动式体育训练测评方法。其中，所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。

最后应说明的是，本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种互动式体育训练测评方法，其特征在于，包括：

接收由摄像设备对现场人员采集的人脸图像；

2.如权利要求1所述的互动式体育训练测评方法，其特征在于，根据所述人脸图像，对所述现场人员进行身份验证处理，得到身份验证结果，包括：

3.如权利要求1所述的互动式体育训练测评方法，其特征在于，根据人员追踪结果，获取来自所述合法用户的语音控制指令，包括：

接收由拾音设备采集的现场音频数据；

判断所述声源位置与所述人头位置是否为同一位置；

4.如权利要求1所述的互动式体育训练测评方法，其特征在于，根据人员追踪结果，获取来自所述合法用户的动作控制指令，包括：

接收由Kinect设备对现场人员实时采集的第二Kinect骨骼数据，其中，所述第二Kinect骨骼数据包含有多个人体关节点的三维坐标，所述多个人体关节点包括有头部关节点、颈部关节点、脊柱肩膀关节点、脊柱中间关节点、脊柱基底关节点、左肩关节点、左肘关节点、左腕关节点、左手关节点、左臀关节点、左膝关节点、左踝关节点、左足关节点、右肩关节点、右肘关节点、右腕关节点、右手关节点、右臀关节点、右膝关节点、右踝关节点和右足关节点；

判断所述动作发生位置与所述人员位置是否为同一位置；

5.如权利要求1所述的互动式体育训练测评方法，其特征在于，在确定体育训练项目之后且根据所述人员追踪结果接收由Kinect设备对所述合法用户实时采集的Kinect骨骼数据之前，所述方法还包括：

6.如权利要求1所述的互动式体育训练测评方法，其特征在于，当根据所述语音控制指令/所述动作控制指令，还确定有虚拟训练场景和由多个人体部位虚拟模型组成的虚拟训练人物时，则在根据所述人员追踪结果接收由Kinect设备对所述合法用户实时采集的Kinect骨骼数据之后，所述方法还包括：

7.一种互动式体育训练测评装置，其特征在于，包括有图像接收模块、身份验证模块、人员追踪模块、指令获取模块、训练项目确定模块、数据接收模块、动作识别模块、特征提取模块、匹配度计算模块和测评结果推送模块；

所述数据接收模块，通信连接所述人员追踪模块，用于根据所述人员追踪结果接收由Kinect设备对所述合法用户实时采集的Kinect骨骼数据，其中，所述Kinect骨骼数据包含有多个人体关节点的三维坐标，所述多个人体关节点包括有头部关节点、颈部关节点、脊柱肩膀关节点、脊柱中间关节点、脊柱基底关节点、左肩关节点、左肘关节点、左腕关节点、左手关节点、左臀关节点、左膝关节点、左踝关节点、左足关节点、右肩关节点、右肘关节点、右腕关节点、右手关节点、右臀关节点、右膝关节点、右踝关节点和右足关节点；

所述匹配度计算模块，通信连接所述特征提取模块，用于根据所述第一多维特征数据集和第二多维特征数据集，计算得到所述某个人体动作的动作匹配度，其中，所述第二多维特征数据集为预先在专业人士进行所述体育训练项目且做出所述某个人体动作时基于Kinect骨骼数据采集结果提取而得的模板特征数据，并具有与所述第一多维特征数据集相同的维度；

8.一种互动式体育训练测评系统，其特征在于，包括有摄像设备、Kinect设备、展示设备和控制设备，其中，所述摄像设备和所述Kinect设备的输出端分别通信连接所述控制设备的输入端，所述控制设备的输出端通信连接所述展示设备的输入端；

所述摄像设备，用于采集现场人员的图像；

所述控制设备，用于执行如权利要求1～6中任意一项所述的互动式体育训练测评方法。

9.一种计算机设备，其特征在于,包括有依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如权利要求1～6中任意一项所述的互动式体育训练测评方法。

10.一种计算机可读存储介质，其特征在于,所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如权利要求1～6中任意一项所述的互动式体育训练测评方法。