CN113158914B

CN113158914B - 一种舞蹈动作姿态、节奏和表情的智能评估方法

Info

Publication number: CN113158914B
Application number: CN202110449558.8A
Authority: CN
Inventors: 王静; 胡勇
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2022-01-18
Anticipated expiration: 2041-04-25
Also published as: CN113158914A

Abstract

本发明公开了一种舞蹈动作姿态、节奏和表情的智能评估方法，包括以下步骤：S1：提取学生初始关节点数据、学生初始面部关键点数据、老师初始关节点数据和老师初始面部关键点数据；S2：进行预处理和归一化处理，得到学生最终关节点数据、学生最终面部关键点数据、老师最终关节点数据和老师最终面部关键点数据；S3：计算每帧图像的面部表情相似度；S4：提取老师舞蹈视频和学生舞蹈视频中的关键帧；S5：进行学生舞蹈视频的动作姿态准确度判断、动作节奏准确度判断和表情评估。本方法结合人工智能深度学习技术，将人体姿态分析技术和面部识别技术应用到实际工程领域。

Description

一种舞蹈动作姿态、节奏和表情的智能评估方法

技术领域

本发明属于机器学习和深度学习技术领域，具体涉及一种舞蹈动作姿态、节奏和表情的智能评估方法。

背景技术

近年来，动作姿态和面部视频自动分析是计算机视觉领域一个很活跃的分支，相关领域的研究越来越深入。识别场景从静态图像到动态视频，识别实体从单一个体到复杂场景多目标识别，识别要求从分辨率有严格要求到像素稀疏、目标重叠，姿态估计与面部识别逐渐地接近人们的实际生活，将给人们生活到来巨大的便利。

发明内容

本发明的目的是为了解决人体舞蹈动作姿态和动作节奏及面部表情的准确性与相似度的评价分析问题，提出了一种舞蹈动作姿态、节奏与表情的评估方法。

本发明的技术方案是：一种舞蹈动作姿态、节奏和表情的智能评估方法，包括以下步骤：

S1：采集老师舞蹈视频和学生舞蹈视频，并提取学生初始关节点数据、学生初始面部关键点数据、老师初始关节点数据和老师初始面部关键点数据；

S2：对学生初始关节点数据依次进行预处理和归一化处理，对学生初始面部关键点数据、老师初始关节点数据和老师初始面部关键点数据进行归一化处理，得到学生最终关节点数据、学生最终面部关键点数据、老师最终关节点数据和老师最终面部关键点数据；

S3：根据学生最终关节点数据和老师最终关节点数据，计算每帧图像的动作姿态相似度，根据学生最终面部关键点数据和老师最终面部关键点数据，计算每帧图像的面部表情相似度；

S4：分别提取老师舞蹈视频中的关键帧和学生舞蹈视频中的关键帧；

S5：根据老师舞蹈视频的关键帧、学生舞蹈视频中的关键帧、关键帧图像的动作姿态相似度和关键帧图像的面部表情相似度，进行学生舞蹈视频的动作姿态准确度判断、动作节奏准确度判断和表情评估。

进一步地，步骤S1中，提取学生初始关节点数据、学生初始面部关键点数据、老师初始关节点数据和老师初始面部关键点数据的方法相同，具体为：利用Alphapose姿态估计算法对舞蹈视频进行跳帧提取，得到初始关节点数据和初始面部关键点数据。

进一步地，步骤S2中，对学生初始关节点数据进行预处理的方法具体为：根据舞蹈视频中老师身高h1、老师体重w1、学生身高h2和学生体重w2，将学生初始关节点数据分别进行纵向拉伸和横向拉伸，其计算公式为：

X1＝X*(w1/w2)

Y1＝Y*(h1/h2)

其中，X表示学生初始关节点数据的x坐标，Y学生初始关节点数据的y坐标，X1表示X在横坐标方向拉伸后的关节点数据，Y1表示Y在纵坐标方向拉伸后的关节点数据；

对预处理后的学生初始关节点数据、学生初始面部关键点数据、老师初始关节点数据和老师初始面部关键点数据进行归一化处理时的计算公式为：

X2＝(X–X_Min)*(X_Max–X_Min)

Y2＝(Y–Y_Min)*(Y_Max–Y_Min)

其中，X表示初始数据的x坐标，Y表示初始数据的y坐标，X2表示最终数据的x坐标，Y2表示最终数据的y坐标，X_Max表示初始数据在x坐标的最大值，X_Min表示初始数据在x坐标的最小值，Y_Max表示初始数据在y坐标的最大值，Y_Min表示初始数据在y坐标的最小值。

进一步地，步骤S3中，每帧图像的动作姿态相似度sim的计算公式为：

sim＝discret_frechet(keypoints1,keypoints2)

其中，keypoints1表示老师最终关节点数据，keypoints2表示学生最终关节点数据，discret_frechet(·)表示弗雷歇距离运算。

进一步地，步骤S3中，计算面部表情相似度包括以下子步骤：

S31：基于老师舞蹈视频，提取每帧图像中老师最终面部关键点数据的鼻尖节点、脸部主轮廓起始节点、脸部主轮廓末尾节点和下颚节点，基于学生舞蹈视频，提取每帧图像中学生最终关节点数据的颈部节点、双肩节点、头部节点和臀部节点，并对每帧图像进行归一化处理；

S32：对归一化处理后的每帧图像进行面部匹配；

S33：利用欧式距离法计算面部匹配后的面部表情相似度。

进一步地，步骤S31中，进行归一化处理的具体方法为：将鼻尖节点作为中心节点，计算鼻尖节点和脸部主轮廓起始节点的距离D_t1、鼻尖节点和脸部主轮廓末尾节点D_t2与鼻尖节点和下颚节点的距离D_t3，其计算公式为：

其中，Xt表示老师面部中心节点的横坐标，Yt表示老师面部中心节点的纵坐标，Xti表示老师面部其余节点的横坐标，Yti表示老师面部其余节点的纵坐标；

将颈部节点作为中心节点，计算颈部节点和双肩节点的距离D_s1、颈部节点和头部节点的距离D_s2与颈部节点和臀部节点的距离D_s3，其计算公式为：

其中，Xs表示学生面部中心节点的横坐标，Ys表示学生面部中心节点的纵坐标，Xsi表示学生面部其余节点的横坐标，Ysi表示学生面部其余节点的纵坐标；

根据两帧对应图像中的对应距离计算对应比例R_i，其计算公式为：

R_i＝D_si/D_ti,i＝1,2,3

根据对应比例R_i计算放缩均值R，并作为放缩比例，完成归一化处理，其计算公式为：

进一步地，步骤S32包括以下子步骤：

S321：将老师舞蹈视频中每帧图像的中心节点横纵坐标减去学生舞蹈视频中对应帧图像的中心节点横纵坐标，得到两帧图像中心节点之间的水平距离dis_x和垂直距离dis_y；

S322：对老师舞蹈视频中的面部尺寸进行resize，并调节老师最终关节点数据的坐标，其调节公式为：

V_Xi＝(R-1)*(X_i-tch_x)

V_Yi＝(R-1)*(Y_i-tch_y)

其中，V_Xi表示第i个关节点的横坐标加上的调节值，V_Yi表示第i个关节点的纵坐标加上的调节值，X_i表示第i个关节点的原始横坐标，Y_i表示第i个关节点的原始纵坐标，tch_x表示中心节点的横坐标，tch_y表示中心节点的纵坐标，R表示放缩均值；

S323：将老师舞蹈视频中的中心节点作为粘合节点，将老师舞蹈视频中的所有关节点的横纵坐标分别对应减去水平距离dis_x和垂直距离dis_y，并将经过resize后的老师面部平移映射至学生面部上，完成面部表情匹配。

进一步地，步骤S4中，提取老师舞蹈视频和学生舞蹈视频关键帧的方法相同，具体为：循环读取舞蹈视频的每一帧图像，确定当前帧图像和相邻下一帧图像的动作姿态相似度，当两帧图像的动作姿态相似度小于等于设定相似性阈值，则继续比较下一帧图像，直到两帧图像的动作姿态相似度大于设定相似性阈值，并将其设为关键帧。

进一步地，步骤S5中，进行动作姿态准确度判断的具体方法为：将老师舞蹈视频中的关键帧和学生舞蹈视频中的关键帧进行比较，若两个关键帧间的动作姿态相似度在设定相似度阈值之内，且|x1-x|≤t，则该学生的动作姿态合格，否则该学生的动作姿态不合格，并继续比较下一关键帧，直到所有关键帧比较完毕，其中，x1和x分别表示同一动作在老师舞蹈视频关键帧和学生舞蹈视频关键帧中出现的时间，t表示老师动作和学生动作允许的最大时间延迟。

进一步的，步骤S5中，进行动作节奏准确度判断的具体方法为：统计所有学生舞蹈视频中关键帧动作节奏不合格的次数C_T，并统计学生舞蹈视频中所有关键帧和老师舞蹈视频中所有关键帧的时间偏差和S_T，根据次数C_T和时间偏差和S_T计算动作节奏分数R，完成动作节奏准确度评估；

判断学生舞蹈视频中关键帧动作节奏不合格的方法为：若|x1-x|≥t，则认为该学生的动作节奏不合格，其中，x1和x分别表示同一动作在老师舞蹈视频关键帧和学生舞蹈视频关键帧中出现的时间，t表示老师动作和学生动作允许的最大时间延迟；

时间偏差和S_T的计算公式为：

其中，T表示学生关键帧集合，xi表示某一动作在老师舞蹈视频关键帧出现的时间；

节奏分数R的计算公式为：

R＝100-αC_T-βS_T

其中，α和β均表示权重系数；

步骤S5中，进行表情准确度判断的具体方法为：将老师舞蹈视频中的关键帧和学生舞蹈视频中的关键帧进行比较，若两个关键帧间的面部表情相似度在设定相似度阈值之内，且|x1-x|≤t1，则该学生的面部表情合格，否则该学生的面部表情不合格，并继续比较下一关键帧，直到所有关键帧比较完毕，其中，x1和x分别表示同一面部表情在老师舞蹈视频关键帧和学生舞蹈视频关键帧中出现的时间，t1表示老师面部表情和学生面部表情允许的最大时间延迟。

本发明的有益效果是：本方法结合人工智能深度学习技术，将人体姿态分析和面部识别技术应用到工程实际中，分析评价视频中的人体动作姿态的相似性问题、动作节奏的准确性问题和情感表达的相似度问题，在舞蹈等各类运动教学评价领域有着巨大的需求，把动作和节奏以及情感的评价和分析系统应用于舞蹈类运动信息化平台，能够快速自动精准评判学生在进行舞蹈等动作学习时，动作姿态和节奏及情感表达的准确性，提升用户练习的效率和使用体验。

附图说明

图1为舞蹈动作姿态和动作节奏的评估方法的流程图；

图2为关节点识别的实施例示意图；

图3为脸部节点识别的实施例示意图；

图4为关键帧识别的示意图；

图5为实施例中学生节奏准确的一种示意图；

图6为实施例中学生节奏准确的另一种示意图；

图7为实施例中学生节奏不准确的一种示意图；

图8为实施例中学生节奏准确的另一种示意图。

具体实施方式

下面结合附图对本发明的实施例作进一步的说明。

在描述本发明的具体实施例之前，为使本发明的方案更加清楚完整，首先对本发明中出现的缩略语和关键术语定义进行说明：

resize：再调整尺寸。

如图1所示，本发明提供了一种舞蹈动作姿态、节奏和表情的智能评估方法，包括以下步骤：

在本发明实施例中，步骤S1中，提取学生初始关节点数据、学生初始面部关键点数据、老师初始关节点数据和老师初始面部关键点数据的方法相同，具体为：利用Alphapose姿态估计算法对舞蹈视频进行跳帧提取，得到初始关节点数据和初始面部关键点数据。

如图2所示，可以根据输入的参数s进行跳帧处理，每s帧提取一帧进行处理，提高处理的速度，输入一个视频后，输出n帧视频的关节点数据，一个人体包含多个关节点数据。

在本发明实施例中，步骤S2中，对学生初始关节点数据进行预处理的方法具体为：根据舞蹈视频中老师身高h1、老师体重w1、学生身高h2和学生体重w2，将学生初始关节点数据分别进行纵向拉伸和横向拉伸，其计算公式为：

X1＝X*(w1/w2)

Y1＝Y*(h1/h2)

由于老师和学生的身高体重等的差异，可能导致会导致在相似度判断上出现误差，所以需要对老师和学生的身高和体重做预处理。首先获取用户输入的学生的身高体重和老师的身高体重，然后将学生的身高体重和老师的身高体重做对比，然后根据比例对人的姿态进行相应的调整。

X2＝(X–X_Min)*(X_Max–X_Min)

Y2＝(Y–Y_Min)*(Y_Max–Y_Min)

通过遍历预处理后的老师和学生的关节点数据，将Max和Min记录下来，并通过Max-Min作为技术进行数据的规划化处理。

在本发明实施例中，步骤S3中，每帧图像的动作姿态相似度sim的计算公式为：

sim＝discret_frechet(keypoints1,keypoints2)

判断动作姿态相似性的方法具体为：计算两帧图像之间关键点数据的Fréchet距离，并将Fréchet距离和设定阈值比较，若Fréchet距离大于或者等于设定阈值，则两帧的动作相似，若Fréchet距离小于设定阈值，则两帧的动作不相似。

在本发明实施例中，步骤S3中，计算面部表情相似度包括以下子步骤：

S32：对归一化处理后的每帧图像进行面部匹配；

S33：利用欧式距离法计算面部匹配后的面部表情相似度。

由于视频中人物存在面部特征差异，可能会导致检测出的面部大小不统一，影响面部的对比和计算结果的准确度，因此需要对提取出的人体面部关节点信息进行调整，进行面部大小的归一化变换。

在本发明实施例中，步骤S31中，进行归一化处理的具体方法为：将鼻尖节点作为中心节点，计算鼻尖节点和脸部主轮廓起始节点的距离D_t1、鼻尖节点和脸部主轮廓末尾节点D_t2与鼻尖节点和下颚节点的距离D_t3，其计算公式为：

R_i＝D_si/D_ti，i＝1，2,3

在本发明实施例中，步骤S32包括以下子步骤：

V_Xi＝(R-1)*(X_i-tch_x)

V_Yi＝(R-1)*(Y_i-tch_y)

在本发明实施例中，如图4所示，步骤S4中，提取老师舞蹈视频和学生舞蹈视频关键帧的方法相同，具体为：循环读取舞蹈视频的每一帧图像，判断当前帧图像和相邻下一帧图像的动作姿态相似度，若两帧图像的动作姿态相似度小于等于设定相似性阈值，则继续比较下一帧图像，直到两帧图像的动作姿态相似度大于设定相似性阈值，并将其设为关键帧。

提取关键帧的目的是为了去除重复的动作，将相似的帧给去除掉，减少计算量，从而提高效率，例如：一个动作保持了t秒钟，则这t秒内所有帧的动作都是相似的，则将这t秒视频的第1帧作为关键帧。

例如，设定的阈值相似度为t，首先将第1帧设为关键帧，第1帧和第2帧的相似度为d2，小于设定的阈值相似度t，则第2帧不是关键帧；第1帧再和第3帧进行比较，第1帧和第3帧的相似度为d3，小于设定的阈值相似度t，则第3帧不是关键帧；第1帧再和第4帧进行比较，第1帧和第4帧的相似度为d4，大于设定的阈值相似度t，则第4帧是关键帧；然后第4帧再和第5、6、7、8……帧进行比较。若第4帧和第5、6、7、8帧的相似度小于t，而第4帧和第9帧的相似度大于t，则将第9帧设为关键帧。第9帧之后的比较方法类似，直到所有关键帧提取完毕。所以我们认为第1、2、3帧是相似的，是同一个动作；第4、5、6、7、8帧是相似的，是同一个动作，所以取有代表性的第1帧和第4帧为关键帧，第1帧代表了，第1、2、3帧；第4帧代表了，第4、5、6、7、8帧。对于每一个教师和学生的视频，都将视频转换为关键帧序列。

在本发明实施例中，步骤S5中，进行动作节奏准确度判断的具体方法为：统计所有学生舞蹈视频中关键帧动作节奏不合格的次数C_T，并统计学生舞蹈视频中所有关键帧和老师舞蹈视频中所有关键帧的时间偏差和A_T，根据次数C_T和时间偏差和S_T计算动作节奏分数R，完成动作节奏准确度评估；

时间偏差和S_T的计算公式为：

节奏分数R的计算公式为：

R＝100-αC_T-βS_T

其中，α和β均表示权重系数；

所述步骤S5中，进行表情准确度判断的具体方法为：将老师舞蹈视频中的关键帧和学生舞蹈视频中的关键帧进行比较，若两个关键帧间的面部表情相似度在设定相似度阈值之内，且|x1-x|≤t1，则该学生的面部表情合格，否则该学生的面部表情不合格，并继续比较下一关键帧，直到所有关键帧比较完毕，其中，x1和x分别表示同一面部表情在老师舞蹈视频关键帧和学生舞蹈视频关键帧中出现的时间，t1表示老师面部表情和学生面部表情允许的最大时间延迟。

将学生视频的每一关键帧和老师视频的关键帧做对比，如果当前帧中的动作出现在老师视频相应时间点的前后t秒之内，则认为当前学生的节奏和老师的一致，当前帧中的动作是正确的，如果当前帧中的动作出现在老师视频相应时间点的前t秒之外，或者当前帧中的动作出现在老师视频相应时间点的后t秒之外，则认为学生的节奏不符合要求，则认为当前帧中的动作是错误的。

最后，将整段视频对比过程中系统自动记录的动作存在时间延迟或时间提前的次数和时差幅度进行汇总，时间延迟或时间提前的次数越多，时差幅度的绝对值越大，则学生动作的节奏准确性就越低。据此，本方法就对运动动作的节奏的进行有效评价。

如图5所示，学生视频的第x秒的帧的动作出现在了老师视频的第x-0.5t秒，则认为该动作正确。

如图6所示，学生视频的第x秒的帧的动作出现在了老师视频的第x+0.5t秒，则认为该动作正确。

如图7所示，学生视频的第5秒的帧的动作出现在了老师视频的第x-(t+0.1)秒，则认为该动作错误。

如图8所示，学生视频的第x秒的帧的动作出现在了老师视频的第x+t+0.1秒，则认为该动作错误。

在本发明实施例中，步骤S5中，进行动作准确度判断的具体方法为：循环读取老师舞蹈视频和学生舞蹈视频中每一帧关键帧，得到t秒内相似性最接近的两帧关键帧，并进行关键帧比较，判断动作准确度；

进行关键帧比较的方法为：若两帧关键帧的相似度在设定相似度阈值之内，则该动作合格，若两帧关键帧的相似度在设定的阈值之外，则该动作不合格，并继续比较下一关键帧，直到所有关键帧比较完毕。

对于视频关键帧的对比，首先循环读取每一帧关键帧，然后判断学生的动作视频的关键帧和老师的动作视频的关键帧的相似性，然后在t秒内，找到最相似的关键帧，如果两帧的相似度在设定的阈值之内，则认为这个动作是合格的，如果两帧的相似度在设定的阈值之外，则认为这个动作是不合格的，继续比较下一关键帧，直到所有关键帧比较完毕。如果要比较的关键帧在t秒之外，但是这一关键帧所代表的那几帧在t秒之内，则这个关键帧也要进行比较。

假设学生视频提取到了m个关键帧，有n个关键帧和老师的关键帧相匹配，则学生的动作姿态准确度为(n/m)*100分。

本发明的工作原理及过程为：本发明首先通过人体姿态估计算法提取人体的各个关节点，然后将提取到的关节点进行归一化，然后判断老师和学生的各个关节点的相似性进行智能分析与评价，接着分别对躯干、手部、手指、腿部、头部和面部进行判断。本方法不仅对动作的相似性进行分析评价，也对动作的节奏准确性和面部表情的相似度进行评估，实现舞蹈动作准确性、节奏准确性、以及表情相似度的自动评判与打分。

本发明的有益效果为：本方法结合人工智能深度学习技术，将人体姿态分析和面部识别技术应用到工程实际中，分析评价视频中的人体动作姿态的相似性问题、动作节奏的准确性问题和情感表达的相似度问题，在舞蹈等各类运动教学评价领域有着巨大的需求，把动作和节奏以及情感的评价和分析系统应用于舞蹈类运动信息化平台，能够快速自动精准评判学生在进行舞蹈等动作学习时，动作姿态和节奏及情感表达的准确性，提升用户练习的效率和使用体验。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种舞蹈动作姿态、节奏和表情的智能评估方法，其特征在于，包括以下步骤：

S4：根据每帧图像的动作姿态相似度，分别提取老师舞蹈视频中的关键帧和学生舞蹈视频中的关键帧；

S5：根据老师舞蹈视频中的关键帧、学生舞蹈视频中的关键帧、关键帧图像的动作姿态相似度和关键帧图像的面部表情相似度，进行学生舞蹈视频的动作姿态准确度判断、动作节奏准确度判断和表情评估；

所述步骤S3中，计算面部表情相似度包括以下子步骤：

S32：对归一化处理后的每帧图像进行面部匹配；

S33：利用欧式距离法计算面部匹配后的面部表情相似度；

所述步骤S31中，进行归一化处理的具体方法为：将鼻尖节点作为中心节点，计算鼻尖节点和脸部主轮廓起始节点的距离D_t1、鼻尖节点和脸部主轮廓末尾节点D_t2与鼻尖节点和下颚节点的距离D_t3，其计算公式为：

R_i＝D_si/D_ti，i＝1，2，3

所述步骤S32包括以下子步骤：

V_Xi＝(R-1)*(X_i-tch_x)

V_Yi＝(R-1)*(Y_i-tch_y)

S323：将老师舞蹈视频中的中心节点作为粘合节点，将老师舞蹈视频中的所有关节点的横纵坐标分别对应减去水平距离dis_x和垂直距离dis_y，并将经过resize后的老师面部平移映射至学生面部上，完成面部表情匹配；

所述步骤S5中，进行动作节奏准确度判断的具体方法为：统计所有学生舞蹈视频中关键帧动作节奏不合格的次数C_T，并统计学生舞蹈视频中所有关键帧和老师舞蹈视频中所有关键帧的时间偏差和S_T，根据次数C_T和时间偏差和S_T计算动作节奏分数R，完成动作节奏准确度评估；

时间偏差和S_T的计算公式为：

节奏分数R的计算公式为：

R＝100-αC_T-βS_T

其中，α和β均表示权重系数；

2.根据权利要求1所述的舞蹈动作姿态、节奏和表情的智能评估方法，其特征在于，所述步骤S1中，提取学生初始关节点数据、学生初始面部关键点数据、老师初始关节点数据和老师初始面部关键点数据的方法相同，具体为：利用Alphapose姿态估计算法对舞蹈视频进行跳帧提取，得到初始关节点数据和初始面部关键点数据。

3.根据权利要求1所述的舞蹈动作姿态、节奏和表情的智能评估方法，其特征在于，所述步骤S2中，对学生初始关节点数据进行预处理的方法具体为：根据舞蹈视频中老师身高h1、老师体重w1、学生身高h2和学生体重w2，将学生初始关节点数据分别进行纵向拉伸和横向拉伸，其计算公式为：

X1＝X*(w1/w2)

Y1＝Y*(h1/h2)

X2＝(X-X_Min)*(X_Max-X_Min)

Y2＝(Y-Y_Min)*(Y_Max-Y_Min)

4.根据权利要求1所述的舞蹈动作姿态、节奏和表情的智能评估方法，其特征在于，所述步骤S3中，每帧图像的动作姿态相似度sim的计算公式为：

sim＝discret_frechet(keypoints1，keypoints2)

5.根据权利要求1所述的舞蹈动作姿态、节奏和表情的智能评估方法，其特征在于，所述步骤S4中，提取老师舞蹈视频和学生舞蹈视频关键帧的方法相同，具体为：循环读取舞蹈视频的每一帧图像，确定当前帧图像和相邻下一帧图像的动作姿态相似度，当两帧图像的动作姿态相似度大于等于设定相似性阈值，则继续比较下一帧图像，直到两帧图像的动作姿态相似度小于设定相似性阈值，并将其设为关键帧。

6.根据权利要求1所述的舞蹈动作姿态、节奏和表情的智能评估方法，其特征在于，所述步骤S5中，进行动作姿态准确度判断的具体方法为：将老师舞蹈视频中的关键帧和学生舞蹈视频中的关键帧进行比较，若两个关键帧间的动作姿态相似度在设定相似度阈值之内，且|x1-x|≤t，则该学生的动作姿态合格，否则该学生的动作姿态不合格，并继续比较下一关键帧，直到所有关键帧比较完毕，其中，x1和x分别表示同一动作在老师舞蹈视频关键帧和学生舞蹈视频关键帧中出现的时间，t表示老师动作和学生动作允许的最大时间延迟。