CN114550027A

CN114550027A - 基于视觉的运动视频精细分析方法和装置

Info

Publication number: CN114550027A
Application number: CN202210052785.1A
Authority: CN
Inventors: 杨吉江; 舒大伟; 王青
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-05-27

Abstract

本申请提出一种基于视觉的运动视频精细分析方法，包括：获取运动视频的视频数据，并将视频数据输入至预设的动作识别模型，得到对应的动作类别；根据动作类别，从预先采集的标准视频数据中获取与动作类别匹配的目标标准数据；将视频数据输入至预设的人体姿态估计模型，得到运动视频中每一帧视频图像的第一关键点信息；将目标标准数据输入至人体姿态估计模型，得到每一帧标准视频图像的第二关键点信息；将第一关键点信息和第二关键点信息进行匹配，确定第一关键点信息和第二关键点信息的相似度，根据相似度确定运动视频的整体动作评分。本申请能够客观化地进行动作评分，同时更细粒度地生成动作辅助建议，并且易推广、易实施，具备良好的应用前景。

Description

基于视觉的运动视频精细分析方法和装置

技术领域

本申请涉及人工智能技术领域，尤其涉及基于视觉的运动视频精细分析方法和装置。

背景技术

传统的评分方式主要为人为主观判读进行评分，其要求评分者有一定经验以及专业性，人为评分存在的问题主要有主观性强、效率低、准确率低、评分标准模糊等问题。

现有技术实现方案：

现有运动评分系统核心技术点之一是对运动者动作进行动作捕捉建模的方法，对于动作建模目前主要采用的方法是通过传感器设备进行动作捕捉，在人体的各关节上安装传感器，传感器返回的数据通过一定的算法模型进行模拟，根据人体的关节连接关系，将其抽象为简单的刚性实体，进一步可获得人体骨骼点动作模型。

现有运动评分系统的核心技术点之二是对已建模动作模型的动作评估方法，目前主要采用的方法是根据获得的骨骼点模型，对其各个关节之间的相互运动关系，主要是相互之间的角度旋转范围、相对位置偏移等差异判断运动与正常形态运动之间的差异，综合多个骨骼点数据进行打分评估。

现有技术的缺点：

硬件设备门槛相对较高：人体各个关节需要安装传感器，通常这样的一套设备成本不菲，对于运动评分技术的推广有一定阻碍，同时该类设备适应性可能存在一定问题，对于体态差异较大的个体进行的数据采集存在准确度偏差问题。

对于存在竞技的体育赛事项目，若是使用传感器等硬件则会对运动者产生不必要的负担影响其竞技状态。

综合来看，现有技术其对设备和场地都有较高的要求，有着成本高、操作复杂、泛用性差、对被评估者存在动作干扰的缺陷，这就意味着难以大范围的推广使用。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种基于视觉的运动视频精细分析方法，解决了现有方法存在成本高、操作复杂、泛用性差、对被评估者存在动作干扰的缺陷，导致难以大范围推广使用的问题，通过采用普通设备获取视频数据，对运动过程几乎没有干扰，同时降低了技术应用门槛，具有易推广、易普及的优点，根据获取的视频数据进行分析，能够更客观的得到动作评分，并且本申请通过在时间维度和空间维度的评分，可以更细粒度地给出动作辅助建议。

本申请的第二个目的在于提出一种基于视觉的运动视频精细分析装置。

本申请的第三个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本申请第一方面实施例提出了一种基于视觉的运动视频精细分析方法，包括：获取运动视频的视频数据，并将视频数据输入至预设的动作识别模型，以得到对应的动作类别；根据动作类别，从预先采集的标准视频数据中获取与动作类别匹配的目标标准数据，其中，标准视频数据中包括不同类别动作的标准范式；将视频数据输入至预设的人体姿态估计模型，得到运动视频中每一帧视频图像的第一关键点信息；将目标标准数据输入至人体姿态估计模型，得到每一帧标准视频图像的第二关键点信息；将第一关键点信息和第二关键点信息进行匹配，以确定第一关键点信息和第二关键点信息的相似度，根据相似度确定运动视频的整体动作评分。

可选地，在本申请的一个实施例中，在将视频数据输入至预设的动作识别模型之前，还包括：

对视频数据进行预处理，预处理包括：

将视频数据中视频图像的分辨率、格式和编码调整为与标准视频数据中标准视频图像的分辨率、格式和编码匹配；和/或

对视频数据中视频图像的像素值进行归一化处理；和/或

对视频数据中视频图像的像素值进行填充处理；和/或

根据标准视频图像对视频数据中视频图像进行视频片段剪切处理，以使视频数据中视频图像与标准视频图像在时间上对齐。

可选地，在本申请的一个实施例中，将第一关键点信息和第二关键点信息进行匹配，以确定第一关键点信息和第二关键点信息的相似度，根据相似度确定运动视频的整体动作评分，包括：

分别计算每一帧视频图像的第一关键点信息与对应的第二关键点信息的相似度，并计算所有帧视频图像的相似度的平均值，将平均值作为运动视频的整体动作评分。

可选地，在本申请的一个实施例中，在分别计算每一帧视频图像的第一关键点信息与对应的第二关键点信息的相似度之前，还包括：

分别对每一帧视频图像的第一关键点信息与对应的第二关键点信息进行标准尺度缩放。

可选地，在本申请的一个实施例中，在根据相似度确定运动视频的整体动作评分之后，还包括：

根据运动视频的整体动作评分生成可视化分析图，其中，可视化分析图包括运动视频中视频图像的时间轴，以及在时间轴上不同时刻的视频图像对应的动作评分。

可选地，在本申请的一个实施例中，在根据运动视频的整体动作评分生成可视化分析图之后，还包括：

基于可视化分析图，获取身体部位对应的动作评分，在身体部位的动作评分低于预设阈值时，根据身体部位与目标身体部位的偏差程度，生成动作辅助建议。

可选地，在本申请的一个实施例中，将视频数据输入至预设的动作识别模型，以得到对应的动作类别，包括：

对输入的视频数据分别进行高帧率和低帧率采样，对应输入快分枝和慢分枝通道，得到不同类型的动作特征；

将不同类型的动作特征进行融合，得到特征值数据；

使用softmax方式对特征值数据进行计算，得到对应的动作类别。

可选地，在本申请的一个实施例中，将视频数据输入至预设的人体姿态估计模型，得到运动视频中每一帧视频图像的第一关键点信息，包括：

对输入的视频数据进行检测，得到所有关键点；

使用PAF预测得到所有关键点间的向量场，根据向量场计算得到所有关键点关联度的权值；

使用PAF预测的权值对所有关键点进行匹配，得到最优匹配关系，从而得到第一关键点信息，

将目标标准数据输入至人体姿态估计模型，得到每一帧标准视频图像的第二关键点信息，包括：

对输入的目标标准数据进行检测，得到所有关键点；

使用PAF预测的权值对所有关键点进行匹配，得到最优匹配关系，从而得到第二关键点信息。

为达上述目的，本申请第二方面实施例提出了一种基于视觉的运动视频精细分析装置，包括：

识别模块，用于获取运动视频的视频数据，并将视频数据输入至预设的动作识别模型，以得到对应的动作类别；

匹配模块，用于根据动作类别，从预先采集的标准视频数据中获取与动作类别匹配的目标标准数据，其中，标准视频数据中包括不同类别动作的标准范式；

数据处理模块，用于将视频数据输入至预设的人体姿态估计模型，得到运动视频中每一帧视频图像的第一关键点信息；和将目标标准数据输入至人体姿态估计模型，得到每一帧标准视频图像的第二关键点信息；

评分模块，用于将第一关键点信息和第二关键点信息进行匹配，以确定第一关键点信息和第二关键点信息的相似度，根据相似度确定运动视频的整体动作评分。

为了实现上述目的，本申请第三方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器被执行时，能够执行一种基于视觉的运动视频精细分析方法。

本申请实施例的基于视觉的运动视频精细分析方法、基于视觉的运动视频精细分析装置和非临时性计算机可读存储介质，解决了现有方法存在成本高、操作复杂、泛用性差、对被评估者存在动作干扰的缺陷，导致难以大范围推广使用的问题，通过采用普通设备获取视频数据，对运动过程几乎没有干扰，同时降低了技术应用门槛，具有易推广、易普及的优点，根据获取的视频数据进行分析，能够更客观的得到动作评分，并且本申请通过在时间维度和空间维度的评分，可以更细粒度地给出动作辅助建议。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例一所提供的一种基于视觉的运动视频精细分析方法的流程图；

图2为本申请实施例的基于视觉的运动视频精细分析方法的整体框图；

图3为本申请实施例的基于视觉的运动视频精细分析方法的动作识别模型的结构示意图；

图4为本申请实施例的人体姿态估计模型的结构示意图；

图5为本申请实施例的基于视觉的运动视频精细分析方法的改进后的人体姿态估计模型的结构示意图；

图6为本申请实施例的基于视觉的运动视频精细分析方法的可视化分析图的示例图；

图7为本申请实施例二所提供的一种基于视觉的运动视频精细分析装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

传统的评分方式主要为人为主观判读进行评分，其要求评分者有一定经验以及专业性，人为评分存在的问题主要有主观性强、效率低、准确率低、评分标准模糊等问题。随着人工智能的发展，基于视频数据进行动作评分系统有了实现的可能，系统可以根据所得视频数据进行动作评分，这种方式有着易推广、易实施的特点，具备良好的应用前景。

下面参考附图描述本申请实施例的基于视觉的运动视频精细分析方法和装置。

图1为本申请实施例一所提供的一种基于视觉的运动视频精细分析方法的流程图。

如图1所示，该基于视觉的运动视频精细分析方法包括以下步骤：

步骤101，获取运动视频的视频数据，并将视频数据输入至预设的动作识别模型，以得到对应的动作类别；

步骤102，根据动作类别，从预先采集的标准视频数据中获取与动作类别匹配的目标标准数据，其中，标准视频数据中包括不同类别动作的标准范式；

步骤103，将视频数据输入至预设的人体姿态估计模型，得到运动视频中每一帧视频图像的第一关键点信息；

步骤104，将目标标准数据输入至人体姿态估计模型，得到每一帧标准视频图像的第二关键点信息；

步骤105，将第一关键点信息和第二关键点信息进行匹配，以确定第一关键点信息和第二关键点信息的相似度，根据相似度确定运动视频的整体动作评分。

本申请实施例的基于视觉的运动视频精细分析方法，通过获取运动视频的视频数据，并将视频数据输入至预设的动作识别模型，以得到对应的动作类别；根据动作类别，从预先采集的标准视频数据中获取与动作类别匹配的目标标准数据，其中，标准视频数据中包括不同类别动作的标准范式；将视频数据输入至预设的人体姿态估计模型，得到运动视频中每一帧视频图像的第一关键点信息；将目标标准数据输入至人体姿态估计模型，得到每一帧标准视频图像的第二关键点信息；将第一关键点信息和第二关键点信息进行匹配，以确定第一关键点信息和第二关键点信息的相似度，根据相似度确定运动视频的整体动作评分。由此，能够解决现有方法存在成本高、操作复杂、泛用性差、对被评估者存在动作干扰的缺陷，导致难以大范围推广使用的问题，通过采用普通设备获取视频数据，对运动过程几乎没有干扰，同时降低了技术应用门槛，具有易推广、易普及的优点，根据获取的视频数据进行分析，能够更客观的得到动作评分，并且本申请通过在时间维度和空间维度的评分，可以更细粒度地给出动作辅助建议。

相较于现有技术通过传感器获取数据，本申请直接采用摄像头这类门槛较低设备获取视频数据，在受众层面具备更大优势，技术应用门槛大大降低，同时也由于不使用附着在被评分者身体上的硬件设施，对运动过程几乎没有干扰，为保证最终检测效果，对输入数据的一致性要有一定要求，如光照环境，拍摄角度等方面。同时本申请结合领域专家知识，提出了一种客观化、细粒度高、准确率高的精细评分方法，可以对动作进行客观分析，同时还可以给出有助于辅助进行相关领域的动作训练的动作建议，进一步提升人员的技能水平。本申请可以应用于需要进行动作质量评估的场景，如舞蹈评分、跳水动作评分等，在评分的同时给出动作分析结果以及建议。

本申请实施例中，可以使用单个具备视频录制功能的移动端设备进行视频拍摄采集运动视频数据和标准视频数据，其中，拍摄环境需要保证一定的稳定性，保证有充足的关照以及无遮挡的单人环境进行采集。

进一步地，在本申请实施例中，在将视频数据输入至预设的动作识别模型之前，还包括：

对视频数据进行预处理，预处理包括：

将视频数据中视频图像的分辨率、格式和编码调整为与标准视频数据中标准视频图像的分辨率、格式和编码匹配，其中，可以将视频图像和标准视频图像编码规范为h.264规范，格式为mp4，分辨率尺寸将高度统一设定为256；和/或

对视频数据中视频图像的像素值进行归一化处理，原值范围为0-255，可以统一归一化至0-1范围内；和/或

对视频数据中视频图像的像素值进行填充处理，可以将视频图像的像素填充为256*256尺寸，填充值可以设定为0；和/或

本申请实施例中，运动视频的视频数据以匹配得到的目标标准数据作为比对基准。

本申请中将视频数据输入至预设的人体姿态估计模型，得到运动视频中每一帧视频图像的第一关键点信息，其中，第一关键点信息为视频数据中的人体骨骼点数据，通常骨骼点数据包括：踝关节、膝关节、髋关节、肩、颈、肘关节、腕关节、眼、耳、鼻等。

本申请中将目标标准数据输入至人体姿态估计模型，得到每一帧标准视频图像的第二关键点信息，其中，第二关键点信息为目标标准数据中的人体骨骼点数据，通常骨骼点数据包括：踝关节、膝关节、髋关节、肩、颈、肘关节、腕关节、眼、耳、鼻等。

进一步地，在本申请实施例中，将第一关键点信息和第二关键点信息进行匹配，以确定第一关键点信息和第二关键点信息的相似度，根据相似度确定运动视频的整体动作评分，包括：

本申请中对单帧视频图像的第一关键点信息与对应的第二关键点信息进行相似度计算，其中，

相似度计算公式表示为：

其中，OKS表示单帧视频图像的第一关键点信息与对应的第二关键点信息相似度，OKS越接近1表示相似度越好，越接近0表示相似度越差，i表示i位置关键点，d_i表示i位置关键点之间的欧式距离，S表示尺度因子，可以取为颈髋中心距，δ_i表示i位置的关键点归一化因子，归一化因子可以使用COCO关键点数据集中给出的标准值((0.026，nose)，(0.025，eyes)，(0.035，ears)，(0.079，shoulders)，(0.072，elbows)，(0.062，wrists)，(0.107，hips)，(0.087，knees)，(0.089，ankles)，nums of keypoint表示关键点数量，

其中，d_i计算公式表示为：

其中，视频图像的i位置的坐标值为(x_it，y_it)，标准视频图像的i位置的坐标值为(x_is，y_is)。

本申请在空间维度上对单个位置进行相似度计算，得到该位置偏离目标标准数据的情况表征，通过对单帧视频图像的所有位置进行相似度计算，得到单帧视频图像的相似度，计算所有帧视频图像的相似度的平均值，将平均值作为运动视频的整体动作评分。

进一步地，在本申请实施例中，在分别计算每一帧视频图像的第一关键点信息与对应的第二关键点信息的相似度之前，还包括：

本申请可以分别对每一帧视频图像的第一关键点信息与对应的第二关键点信息根据各自的颈髋中心点距离进行标准尺度缩放，避免由于视频图像和标准视频图像中的体型问题产生偏差。

进一步地，在本申请实施例中，在根据相似度确定运动视频的整体动作评分之后，还包括：

本申请实施例中，根据运动视频的整体动作评分生成可视化分析图，运动视频中视频图像的时间轴为可视化分析图横轴，在时间轴上不同时刻的视频图像对应的动作评分为竖轴，可以直观的了解不同时间运动视频的动作评分。

进一步地，在本申请实施例中，在根据运动视频的整体动作评分生成可视化分析图之后，还包括：

本申请实施例中，可以基于可视化分析图获取各个身体部位对应的动作评分，观察各个身体部位对应的动作评分是否低于预设阈值，其中，该动作评分即为相似度OKS的值，OKS计算得到的值范围在0-1之间，预设阈值范围也在0-1之间，可以设置为0.8。

进一步地，在本申请实施例中，将视频数据输入至预设的动作识别模型，以得到对应的动作类别，包括：

将不同类型的动作特征进行融合，得到特征值数据；

本申请的动作识别模型的Backbone要使用ResNet-50来实现效果和处理速度的均衡，并且本申请采用特征图直接相加或Concat的方式进行特征融合。

本申请实施例的基于Slow-fast Networks深度学习的动作识别模型用于进行动作识别任务，在Kinetic-400数据集上进行预训练，然后收集运动视频数据进行训练，其中，收集运动视频数据进行训练，具体包括：首先将收集到的运动视频数据给定类别标签，然后使用随机梯度下降的方法在预训练模型的基础上进行fine-tune训练，训练多个epoch直到识别准确率不能明显提升为止。

进一步地，在本申请实施例中，将视频数据输入至预设的人体姿态估计模型，得到运动视频中每一帧视频图像的第一关键点信息，包括：

对输入的视频数据进行检测，得到所有关键点；

对输入的目标标准数据进行检测，得到所有关键点；

本申请首先检测得到所有关键点，然后使用PAF(part affinity fields)预测的权值对所有关键点进行匹配找到最优匹配关系，匹配方式：PAF预测两个关键点间的向量场，通过向量场可计算两个关键点关联度的权值，然后可以使用最大权值的匈牙利算法得到所有关键点之间的匹配关系。

图2为本申请实施例的基于视觉的运动视频精细分析方法的整体框图。

如图2所示，该基于视觉的运动视频精细分析方法，可以分为数据处理、数据分析、数据可视化三个部分，其中，数据处理包括采集运动视频数据，对视频数据进行预处理；数据分析包括利用动作识别模型和人体姿态估计模型对视频数据进行分析，得到动作评分；基于动作评分生成可视化分析图。

图3为本申请实施例的基于视觉的运动视频精细分析方法的动作识别模型的结构示意图。

如图3所示，图中上分支为低帧率采样分支，抽取空间语义信息，下分支为高帧率采样分支，抽取更细粒度的时域信息，分支之间的特征维度差异如图3所示，每个阶段之间需要进行特征融合，可以采用特征图直接相加或Concat的方式进行特征融合。

图4为本申请实施例的人体姿态估计模型的结构示意图。

如图4所示，该人体姿态估计模型，使用VGG-19作为Backbone，产生的特征图为F，之后分多步进行训练，每一步中分别有两个独立分支，一个分支是heatmap分支，其作用是预测关键点，另一个分支是PAF分支，其作用是预测PAF图，用于之后的关键点之间的匹配，每个分支单独训练。双分支得到的特征图会和F进行组合作为下一步的F输入。

图5为本申请实施例的基于视觉的运动视频精细分析方法的改进后的人体姿态估计模型的结构示意图。

如图5所示，为进一步降低计算消耗，对人体姿态估计模型进行了轻量化改进，将Backbone从VGG-19替换为MobileNet v1，并将原人体姿态估计模型中的多细化阶段精简为只有初始阶段以及一个细化阶段，同时将双分支结构进一步进行权值共享。

图6为本申请实施例的基于视觉的运动视频精细分析方法的可视化分析图的示例图。

如图6所示，各个身体部位对应的可视化分析图的示例图，图中运动视频的时间轴为可视化分析图横轴，在时间轴上不同时刻的视频图像对应的动作评分为竖轴，基于可视化分析图获取各个身体部位对应的动作评分，观察各个身体部位对应的动作评分是否低于预设阈值，在身体部位的动作评分低于预设阈值时，根据身体部位与目标身体部位的偏差程度，生成动作辅助建议。

如图7所示，该基于视觉的运动视频精细分析装置，包括：

识别模块10，用于获取运动视频的视频数据，并将视频数据输入至预设的动作识别模型，以得到对应的动作类别；

匹配模块20，用于根据动作类别，从预先采集的标准视频数据中获取与动作类别匹配的目标标准数据，其中，标准视频数据中包括不同类别动作的标准范式；

数据处理模块30，用于将视频数据输入至预设的人体姿态估计模型，得到运动视频中每一帧视频图像的第一关键点信息；和将目标标准数据输入至人体姿态估计模型，得到每一帧标准视频图像的第二关键点信息；

评分模块40，用于将第一关键点信息和第二关键点信息进行匹配，以确定第一关键点信息和第二关键点信息的相似度，根据相似度确定运动视频的整体动作评分。

本申请实施例的基于视觉的运动视频精细分析装置，包括识别模块，用于获取运动视频的视频数据，并将视频数据输入至预设的动作识别模型，以得到对应的动作类别；匹配模块，用于根据动作类别，从预先采集的标准视频数据中获取与动作类别匹配的目标标准数据，其中，标准视频数据中包括不同类别动作的标准范式；数据处理模块，用于将视频数据输入至预设的人体姿态估计模型，得到运动视频中每一帧视频图像的第一关键点信息；和将目标标准数据输入至人体姿态估计模型，得到每一帧标准视频图像的第二关键点信息；评分模块，用于将第一关键点信息和第二关键点信息进行匹配，以确定第一关键点信息和第二关键点信息的相似度，根据相似度确定运动视频的整体动作评分。由此，能够解决现有方法存在成本高、操作复杂、泛用性差、对被评估者存在动作干扰的缺陷，导致难以大范围推广使用的问题，通过采用普通设备获取视频数据，对运动过程几乎没有干扰，同时降低了技术应用门槛，具有易推广、易普及的优点，根据获取的视频数据进行分析，能够更客观的得到动作评分，并且本申请通过在时间维度和空间维度的评分，可以更细粒度地给出动作辅助建议。

为了实现上述实施例，本申请还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例的基于视觉的运动视频精细分析方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于视觉的运动视频精细分析方法，其特征在于，包括：

获取运动视频的视频数据，并将所述视频数据输入至预设的动作识别模型，以得到对应的动作类别；

根据所述动作类别，从预先采集的标准视频数据中获取与所述动作类别匹配的目标标准数据，其中，所述标准视频数据中包括不同类别动作的标准范式；

将所述视频数据输入至预设的人体姿态估计模型，得到所述运动视频中每一帧视频图像的第一关键点信息；

将所述目标标准数据输入至所述人体姿态估计模型，得到每一帧标准视频图像的第二关键点信息；

将所述第一关键点信息和所述第二关键点信息进行匹配，以确定所述第一关键点信息和所述第二关键点信息的相似度，根据所述相似度确定所述运动视频的整体动作评分。

2.如权利要求1所述的方法，其特征在于，在将所述视频数据输入至预设的动作识别模型之前，还包括：

对所述视频数据进行预处理，所述预处理包括：

将所述视频数据中视频图像的分辨率、格式和编码调整为与所述标准视频数据中标准视频图像的分辨率、格式和编码匹配；和/或

对所述视频数据中视频图像的像素值进行归一化处理；和/或

对所述视频数据中视频图像的像素值进行填充处理；和/或

根据所述标准视频图像对所述视频数据中视频图像进行视频片段剪切处理，以使所述视频数据中视频图像与所述标准视频图像在时间上对齐。

3.如权利要求1或2所述的方法，其特征在于，将所述第一关键点信息和所述第二关键点信息进行匹配，以确定所述第一关键点信息和所述第二关键点信息的相似度，根据所述相似度确定所述运动视频的整体动作评分，包括：

分别计算每一帧视频图像的第一关键点信息与对应的第二关键点信息的相似度，并计算所有帧视频图像的相似度的平均值，将所述平均值作为所述运动视频的整体动作评分。

4.如权利要求3所述的方法，其特征在于，在分别计算每一帧视频图像的第一关键点信息与对应的第二关键点信息的相似度之前，还包括：

5.如权利要求1所述的方法，其特征在于，在根据所述相似度确定所述运动视频的整体动作评分之后，还包括：

根据所述运动视频的整体动作评分生成可视化分析图，其中，所述可视化分析图包括所述运动视频中视频图像的时间轴，以及在所述时间轴上不同时刻的视频图像对应的动作评分。

6.如权利要求5所述的方法，其特征在于，在根据所述运动视频的整体动作评分生成可视化分析图之后，还包括：

基于所述可视化分析图，获取身体部位对应的动作评分，在所述身体部位的动作评分低于预设阈值时，根据所述身体部位与目标身体部位的偏差程度，生成动作辅助建议。

7.如权利要求1所述的方法，其特征在于，所述将所述视频数据输入至预设的动作识别模型，以得到对应的动作类别，包括：

将不同类型的动作特征进行融合，得到特征值数据；

8.如权利要求1所述的方法，其特征在于，所述将所述视频数据输入至预设的人体姿态估计模型，得到所述运动视频中每一帧视频图像的第一关键点信息，包括：

对输入的视频数据进行检测，得到所有关键点；

将所述目标标准数据输入至所述人体姿态估计模型，得到每一帧标准视频图像的第二关键点信息，包括：

对输入的目标标准数据进行检测，得到所有关键点；

9.一种基于视觉的运动视频精细分析装置，其特征在于，包括：

识别模块，用于获取运动视频的视频数据，并将所述视频数据输入至预设的动作识别模型，以得到对应的动作类别；

匹配模块，用于根据所述动作类别，从预先采集的标准视频数据中获取与所述动作类别匹配的目标标准数据，其中，所述标准视频数据中包括不同类别动作的标准范式；

数据处理模块，用于将所述视频数据输入至预设的人体姿态估计模型，得到所述运动视频中每一帧视频图像的第一关键点信息；和

评分模块，用于将所述第一关键点信息和所述第二关键点信息进行匹配，以确定所述第一关键点信息和所述第二关键点信息的相似度，根据所述相似度确定所述运动视频的整体动作评分。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8中任一所述的方法。