CN116012942A

CN116012942A - 手语教学方法、装置、设备及存储介质

Info

Publication number: CN116012942A
Application number: CN202211691075.XA
Authority: CN
Inventors: 陈致宏; 陈茂东; 程大龙
Original assignee: Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd
Current assignee: Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-04-25

Abstract

本发明提供一种手语教学方法、装置、设备及存储介质，方法包括：获取学习者模仿的手语视频序列帧；对所述手语视频序列帧进行姿态检测，得到骨骼点坐标序列；将模板骨骼点序列与所述骨骼点坐标序列进行对齐处理，得到目标对齐骨骼点序列；将所述骨骼点坐标序列和所述目标对齐骨骼点序列进行比较，得到手语评测结果。本发明通过将学习者手语视频对应的骨骼点坐标序列与标准模板的骨骼点序列进行最优对齐，进而将骨骼点坐标序列与对齐后的目标对齐骨骼点序进行分析比较动作差异，能够让学习者了解到具体的错误动作，从而为学习者提供更细粒度的指导，且无需人工检查手语动作，有效提升手语教学效果以及教学效率。

Description

手语教学方法、装置、设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种手语教学方法、装置、设备及存储介质。

背景技术

手语是听障人士进行交流、表达思想的工具，它和口头语言一样具有传递信息的功能，可以表达一些复杂或抽象的语言概念。

目前，手语视频教学的方式主要是学习者按照手语教学视频来模仿学习手语动作，进而针对学习者模仿的手语动作，通过人工检查各个手语动作是否正确，然而，人工检查需要消耗较大的人工成本以及时间成本，导致手语教学的效率较低。此外，近年来随着深度学习技术的不断发展，可通过训练深度学习模型对手语动作进行打分，然而深度学习模型只能给出一个最终的分数，学习者无法得知具体错误的手语动作，从而使得手语教学整体效果不佳。

发明内容

本发明提供一种手语教学方法、装置、设备及存储介质，旨在提高手语教学的效率以及提升手语教学效果。

本发明提供一种手语教学方法，包括：

获取学习者模仿的手语视频序列帧；

对所述手语视频序列帧进行姿态检测，得到骨骼点坐标序列；

将模板骨骼点序列与所述骨骼点坐标序列进行对齐处理，得到目标对齐骨骼点序列；

将所述骨骼点坐标序列和所述目标对齐骨骼点序列进行比较，得到手语评测结果。

根据本发明提供的一种手语教学方法，所述将模板骨骼点序列与所述骨骼点坐标序列进行对齐处理，得到目标对齐骨骼点序列，包括：

分别计算所述骨骼点坐标序列中任一骨骼点坐标向量与所述模板骨骼点序列中任一标准骨骼点坐标向量之间的目标相似度；

基于各所述目标相似度，将所述骨骼点坐标序列与所述模板骨骼点序列进行动态规整，得到全局最优对齐路径；

基于所述全局最优对齐路径，将所述骨骼点坐标序列与所述模板骨骼点序列进行对齐处理，得到所述目标对齐骨骼点序列。

根据本发明提供的一种手语教学方法，所述分别计算所述骨骼点坐标序列中任一骨骼点坐标向量与所述模板骨骼点序列中任一标准骨骼点坐标向量之间的目标相似度，包括：

将任一骨骼点坐标向量中的各个骨骼点坐标进行划分，得到多组第一划分骨骼点向量；以及将任一标准骨骼点坐标向量中的各个标准骨骼点坐标进行划分，得到多组第二划分骨骼点向量；

计算各所述第一划分骨骼点向量分别对应的第一关节角度向量，以及计算各所述第二划分骨骼点向量分别对应的第二关节角度向量；

基于各所述第一关节角度向量以及各所述第二关节角度向量，计算得到所述目标相似度。

根据本发明提供的一种手语教学方法，所述多组第一划分骨骼点向量包括第一左手骨骼点向量、第一右手骨骼点向量以及第一躯干骨骼点向量；所述多组第二划分骨骼点向量包括第二左手骨骼点向量、第二右手骨骼点向量以及第二躯干骨骼点向量；

相应地，所述基于各所述第一关节角度向量以及各所述第二关节角度向量，计算得到所述目标相似度，包括：

计算所述第一左手骨骼点向量对应的第一关节角度向量与所述第二左手骨骼点向量对应的第二关节角度向量之间的第一距离；

计算所述第一右手骨骼点向量对应的第一关节角度向量与所述第二右手骨骼点向量对应的第二关节角度向量之间的第二距离；

计算所述第一躯干骨骼点向量对应的第一关节角度向量与所述第二躯干骨骼点向量对应的第二关节角度向量之间的第三距离；

基于所述第一距离、所述第二距离以及所述第三距离，按照预先设置的分组权重系数计算得到所述目标相似度。

根据本发明提供的一种手语教学方法，所述对所述手语视频序列帧进行姿态检测，得到骨骼点坐标序列，包括：

将所述手语视频序列帧中的每一帧手语图像输入至姿态估计模型，得到所述姿态估计模型输出的每一帧手语图像的骨骼点坐标向量；

将各所述骨骼点坐标向量进行排序，得到所述骨骼点坐标序列。

根据本发明提供的一种手语教学方法，所述姿态估计模型是基于如下步骤训练得到：

获取若干张待训练图像样本，其中，所述待训练图像样本配置有骨骼点标签；

对于任意一张待训练图像样本，将所述待训练图像样本输入至初始模型，得到所述初始模型输出的骨骼点预测值；

基于所述待训练图像样本对应的骨骼点预测值以及骨骼点标签，计算得到模型损失值；

基于每一次迭代得到的模型损失值，对所述初始模型的模型参数进行更新，得到所述姿态估计模型。

根据本发明提供的一种手语教学方法，所述将所述将所述骨骼点坐标序列和所述目标对齐骨骼点序列进行比较，得到手语评测结果，包括：

将所述目标对齐骨骼点序列中的各个骨骼点坐标向量和所述骨骼点坐标序列中的各个标准骨骼点坐标向量进行对比分析，得到各所述骨骼点坐标向量分别对应的对比结果；

基于各所述骨骼点坐标向量分别对应的对比结果，形成所述手语评测结果。

本发明还提供一种手语教学装置，包括：

获取模块，用于获取学习者模仿的手语视频序列帧；

姿态检测模块，用于对所述手语视频序列帧进行姿态检测，得到骨骼点坐标序列；

对齐模块，用于将模板骨骼点序列与所述骨骼点坐标序列进行对齐处理，得到目标对齐骨骼点序列；

比较模块，用于将所述骨骼点坐标序列和所述目标对齐骨骼点序列进行比较，得到手语评测结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述手语教学方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述手语教学方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述手语教学方法。

本发明提供的手语教学方法、装置、设备及存储介质，通过对所述手语视频序列帧进行姿态检测，得到骨骼点坐标序列，进而将学习者手语视频对应的骨骼点坐标序列与标准模板的骨骼点序列进行最优对齐，进而将骨骼点坐标序列与对齐后的目标对齐骨骼点序进行分析比较动作差异，能够让学习者了解到具体的错误动作，从而为学习者提供更细粒度的指导，且无需人工检查手语动作，有效提升手语教学效果以及教学效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图逐一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的手语教学方法的流程示意图之一；

图2是本发明提供的手语教学方法的流程示意图之二；

图3是本发明提供的手语教学方法的流程示意图之三；

图4是本发明提供的手语教学装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明一个或多个实施例。在本发明一个或多个实施例中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本发明一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”。

目前的手语视频教学的方式主要是学习者按照手语教学视频来模仿学习手语动作，进而针对学习者模仿的手语动作，通过人工检查各个手语动作是否正确，然而，人工检查需要消耗较大的人工成本以及时间成本，导致手语教学的效率较低。

此外，近年来，随着深度学习技术的发展，可手机大量手语图像来训练得到深度学习模型，进而可通过深度学习模型对学习者所模仿的手语动作进行打分，然而深度学习模型只能给出一个最终的分数，学习者无法得知具体错误的手语动作，从而使得手语教学整体效果不佳。

针对上述问题，本发明提出以下各实施例。图1是本发明提供的手语教学方法的流程示意图之一。如图1所示，该手语教学方法包括：

步骤11，获取学习者模仿的手语视频序列帧；

需要说明的是，所述手语视频序列帧是学习者按照手语教学视频进行模仿的动作视频，在一个实施例中，学习者通过用户终端在手语教学系统上选择播放需要学习的手语教学视频，学习者在学习手语动作过程中，通过用户终端自带的摄像头拍摄得到学习者模仿的手语视频序列帧。在另一实施例中，学习者在正前方摆放一个摄像头，进而在学习手语动作过程中，通过摄像头拍摄得到学习者模仿的手语视频序列帧，进而将手语视频序列帧传输本发明实施例中的执行主体上，其中，摄像头需要正对拍摄到学习者的手部动作以及面部表情，使得每一帧图像可以提取清晰的骨骼关节点。

步骤12，对所述手语视频序列帧进行姿态检测，得到骨骼点坐标序列；

需要说明的是，所述骨骼点坐标序列是基于所述手语视频序列帧中每一帧手语图像对应的骨骼点坐标向量形成，所述骨骼点坐标向量是基于预先设定的多个骨骼点对应的像素坐标，可选地，人体对应的骨骼点包括鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左手、右手、左臀、右臀、左膝、右膝、左脚和右脚等骨骼关节点，由于本发明实施例涉及手语的姿态检测，可选地，选取左肩、右肩、左肘、右肘、左手和右手等骨骼关节点，其中，左手骨骼关节点和右手骨骼关节点包括左手以及右手上手腕骨骼关节点和各个手指对应的各个骨骼关节点。

具体地，在一个实施例中，分别将所述手语视频序列帧中的每一帧手语图像输入至姿态估计模型，以利用姿态估计模型提取每一帧手语图像中目标人物对应的各个骨骼点特征，得到每一帧手语图像对应的骨骼点坐标向量。需要说明的是，骨骼点坐标向量包括手语图像中目标人物对应的若干个骨骼点对应的像素坐标，所述姿态估计模型是基于各个待训练图像样本以及各所述待训练图像样本对应的骨骼点标签训练得到。进一步地，将每一帧手语图像对应的骨骼点坐标向量按照各个手语图像对应的时间顺序进行排序，形成一个多维时间序列，并将所述多维时间序列作为所述骨骼点坐标序列。

步骤13，将模板骨骼点序列与所述骨骼点坐标序列进行对齐处理，得到目标对齐骨骼点序列；

需要说明的是，所述对齐处理是指对任意两条不同长度的时间序列进行最优匹配对齐的处理方式。进一步需要说明的是，所述模板骨骼点序列表示标准模板视频对应的模板骨骼点序列，模板骨骼点序列由模板骨骼点序列中每一张模板图像对应的标准骨骼点坐标向量形成，标准骨骼点坐标向量包括各个骨骼点对应的像素坐标。在本实施例中，预先将手语教学系统中的各个标准模板视频对应的模板骨骼点序列存储至数据库中，进而当用户点击某一个标准模板视频进行学习时，即可在数据库中查找得到该标准模板视频对应的模板骨骼点序列。

在一个实施例中，针对骨骼点坐标序列中任意一个骨骼点坐标向量：计算所述骨骼点坐标向量分别与模板骨骼点序列中各个标准骨骼点坐标向量之间的相似度，可选地，计算相似度的方法包括欧氏距离算法、杰卡德相似系数和余弦相似度等算法，进而将相似度最大的标准骨骼点坐标向量作为所述骨骼点坐标向量相匹配的标准坐标向量。进一步地，基于所有骨骼点坐标向量对应的标准坐标向量，形成所述目标对齐骨骼点序列。

在另一个实施例中，针对骨骼点坐标序列中任意一个骨骼点坐标向量：计算所述骨骼点坐标向量分别与模板骨骼点序列中各个标准骨骼点坐标向量之间的相似度，进而根据各个骨骼点坐标向量分别与各个标准骨骼点坐标向量对应的相似度，利用动态时间规整(Dynamic Time Warping，DTW)算法计算累计相似度距离，以得到全局最优对齐路径，进一步地，基于所述全局最优对齐路径，将所述骨骼点坐标序列与所述模板骨骼点序列进行对齐处理，得到所述目标对齐骨骼点序列。

步骤14，将所述骨骼点坐标序列和所述目标对齐骨骼点序列进行比较，得到手语评测结果。

在一个实施例中，具体地，针对所述骨骼点坐标序列中的任意一个骨骼点坐标向量均执行一下步骤：在目标对齐骨骼点序列中，选取与所述骨骼点坐标向量相同位置的标准骨骼点坐标向量，进而将骨骼点坐标向量和相同位置的标准骨骼点坐标向量进行对比分析，得到所骨骼点坐标向量对应的对比结果，进而基于各所述骨骼点坐标向量分别对应的对比结果，形成所述手语评测结果，从而可根据每一个骨骼点坐标向量对比结果，确定骨骼点坐标向量是否正确。可以理解地，假设骨骼点坐标序列表示为{骨骼点坐标向量a，骨骼点坐标向量b，骨骼点坐标向量c}，目标对齐骨骼点序列表示为{标准骨骼点坐标向量d，标准骨骼点坐标向量e，标准骨骼点坐标向量f}，将骨骼点坐标向量a和标准骨骼点坐标向量d进行对比，将骨骼点坐标向量b和标准骨骼点坐标向量e进行对比，将骨骼点坐标向量c和标准骨骼点坐标向量f进行对比。

在另一个实施例中，在标准模板视频中，查找目标对齐骨骼点序列中各个标准骨骼点坐标向量分别对应的模板图像，形成对齐模板图像序列，进而将所述对齐模板图像序列以及所述手语视频序列帧进行逐帧对比，得到每一帧的对比结果，进而基于每一帧的对比结果，形成所述手语评测结果。从而当学习者模仿的手语动作存在错误时，可根据手语评测结果中各个对比结果，能够了解到具体的错误动作，从而为学习者提供更细粒度的指导。

本发明实施例通过上述方案，也即，获取学习者模仿的手语视频序列帧；对所述手语视频序列帧进行姿态检测，得到骨骼点坐标序列；将模板骨骼点序列与所述骨骼点坐标序列进行对齐处理，得到目标对齐骨骼点序列；将所述骨骼点坐标序列和所述目标对齐骨骼点序列进行比较，得到手语评测结果。实现了将学习者手语视频对应的骨骼点坐标序列与标准模板的骨骼点序列进行最优对齐，进而将骨骼点坐标序列与对齐后的目标对齐骨骼点序进行分析比较动作差异，能够让学习者了解到具体的错误动作，从而为学习者提供更细粒度的指导，且无需人工检查手语动作，有效提升手语教学效果以及教学效率。

图2是本发明提供的手语教学方法的流程示意图之二。如图2所示，在本发明的一个实施例中，上述步骤S13：所述将模板骨骼点序列与所述骨骼点坐标序列进行对齐处理，得到目标对齐骨骼点序列，包括：

步骤S131，分别计算所述骨骼点坐标序列中任一骨骼点坐标向量与所述模板骨骼点序列中任一标准骨骼点坐标向量之间的目标相似度；

需要说明的是，骨骼点均配置有骨骼点标签，此外，可以理解地，假设骨骼点坐标序列包括N个骨骼点坐标向量，模板骨骼点序列包括T个标准骨骼点坐标向量，针对每一个骨骼点坐标向量，均需要分别计算骨骼点坐标向量与T个标准骨骼点坐标向量之间的目标相似度。

在一个实施例中，具体地，对于任意一个骨骼点坐标向量均执行以下步骤：

基于所述骨骼点坐标向量中各个骨骼点坐标，以及任一标准骨骼点坐标向量对应的各个标准骨骼点坐标，进而计算相同骨骼点标签对应的骨骼点坐标与标准骨骼点坐标之间的相似度，进一步地，基于所有骨骼点标签分别对应的相似度，按照预设权重计算得到所述骨骼点坐标向量与所述任一标准骨骼点坐标向量之间的目标相似度，从而得到每一个骨骼点坐标向量分别与各个标准骨骼点坐标向量之间的目标相似度。可选地，所述预设权重可根据实际情况设置，在此不做具体限制。

在另一个实施例中，具体地，对于任意一个骨骼点坐标向量以及任意一个标准骨骼点坐标向量均执行以下步骤：

将所述骨骼点坐标向量中的各个骨骼点坐标按照预设分组类型进行划分，得到所述骨骼点坐标向量对应的多组第一划分骨骼点向量，以及将所述标准骨骼点坐标向量中的各个标准骨骼点坐标进行划分，得到所述标准骨骼点坐标向量对应的多组第二划分骨骼点向量，可选地，由于手语比划中，主要是根据人体左手、人体右手以及人体躯干对应的动作来识别手语意思，因此，可将人体左手、人体右手以及人体躯干分别对应的各个骨骼点设置为3组分组类型(也即，本实施例中的预设分组类型)，进一步地，根据相同分组类型对应的第一划分骨骼点向量中的各个骨骼点坐标以及第二划分骨骼点的各个标准骨骼点坐标，计算得到相似度，从而根据所有分组类型对应的相似度，按照预设权重计算得到所述目标相似度。

可选地，相似度的具体计算过程如下：基于第一划分骨骼点向量中的各个骨骼点坐标以及第二划分骨骼点的各个标准骨骼点坐标，计算相同骨骼点标签对应的骨骼点坐标与标准骨骼点坐标之间的距离，并将所述距离作为所述骨骼点标签对应的相似度。另外地，也可基于第一划分骨骼点向量中的各个骨骼点坐标，计算得到第一划分骨骼点向量对应的所有关节角度，从而形成第一关节角度向量，基于所述第二划分骨骼点向量对应的各个标准骨骼点坐标，计算得到第二划分骨骼点向量对应的所有关节角度，从而形成第二关节角度向量，从而计算得到第一关节角度向量以及第二关节角度向量之间的相似度。

步骤S132，基于各所述目标相似度，将所述骨骼点坐标序列与所述模板骨骼点序列进行动态规整，得到全局最优对齐路径；

步骤S133，基于所述全局最优对齐路径，将所述骨骼点坐标序列与所述模板骨骼点序列进行对齐处理，得到所述目标对齐骨骼点序列。

具体地，根据动态时间规整算法，从骨骼点坐标序列中各个骨骼点坐标向量与模板骨骼点序列中各个标准骨骼点坐标向量之间的距离中，计算获取所述骨骼点坐标序列与所述模板骨骼点序列之间的动态时间规整距离，并且在获取该动态时间规整距离的过程中选择所述骨骼点坐标序列与所述模板骨骼点序列对应的的全局最优对齐路径。其中，动态时间规整距离可以是各个骨骼点坐标向量和各个标准骨骼点坐标向量组成的N×T的矩阵网格中，从格点(1，1)到格点(N，T)的各条路径的累积距离，而全局最优对齐路径可以是动态时间规整距离最小对应的路径，也就是说，全局最优对齐路径是从格点(1，1)到格点(N，T)的各条路径中累积距离最小的路径。累积距离可以是当前格点距离与可以到达该当前格点的各个邻近格点的累积距离中的最小值之和，其中，当前格点距离可以表示当前格点所指示的骨骼点坐标向量和标准骨骼点坐标向量之间的距离(也即，本实施例中的目标相似度)。

进一步地，按照所述全局最优对齐路径，在模板骨骼点序列选取得到与骨骼点坐标序列对齐的各个对齐骨骼点坐标向量，从而基于各所述对齐骨骼点坐标向量，形成所述目标对齐骨骼点序列。

在一个具体示例中，假设骨骼点坐标序列包括4个骨骼点坐标向量，模板骨骼点序列包括6个标准骨骼点坐标向量，构建可以构造一个4×6的矩阵网格，格点(i，j)中的元素可以表示骨骼点坐标序列中第i个骨骼点坐标向量与模板骨骼点序列中第j个标准骨骼点坐标向量的距离d(i，j)，也即，本实施中的目标相似度，其中，i∈[1，4]，j∈[1，6]。举例来说，格点(2，4)中的元素可以表示骨骼点坐标序列中第2个骨骼点坐标向量与模板骨骼点序列中第4个标准骨骼点坐标向量的距离d(2，4)。

假设累积距离Y(i，j)可以表示从格点(1，1)到格点(i，j)的各条路径的累积距离中的最小值，也就是说，累积距离Y(i，j)可以表示格点(i，j)的累积距离，可以到达格点(i，j)的邻近格点包括格点(i-1，j1)、格点(i-1，j)以及格点(i，j-1)，那么累积距离Y(i，j)可以是当前格点距离与累积距离Y(i-1，j-1)、累积距离Y(i-1，j)以及累积距离Y(i，j-1)中的最小值之和，其中，当前格点距离可以是距离d(i，j)，也就是说，累积距离Y(i，j)可以是格点(i，j)中的元素与累积距离Y(i-1，j-1)、累积距离Y(i-1，j)以及累积距离Y(i，j-1)中的最小值之和，以此类推，从而获取矩阵网格中从格点(1，1)到格点(4，6)的累积距离Y(4，6)，举例来说，假设以回溯的方式找到的全局最优对齐路径为(4，6)、(4，5)、(3，4)、(2，3)、(1，2)以及(1，1)时，可以将第一个骨骼点坐标向量与第一个模板骨骼点序列以及第二个模板骨骼点序列进行匹配，可以将第二个骨骼点坐标向量与第三个模板骨骼点序列进行匹配，可以将第三个骨骼点坐标向量与第四个模板骨骼点序列进行匹配，还可以将第四个骨骼点坐标向量与第五个模板骨骼点序列以及第六个模板骨骼点序列进行匹配。

本发明实施例通过上述方案，也即，分别计算所述骨骼点坐标序列中任一骨骼点坐标向量与所述模板骨骼点序列中任一标准骨骼点坐标向量之间的目标相似度；基于各所述目标相似度，将所述骨骼点坐标序列与所述模板骨骼点序列进行动态规整，得到全局最优对齐路径；基于所述全局最优对齐路径，将所述骨骼点坐标序列与所述模板骨骼点序列进行对齐处理，得到所述目标对齐骨骼点序列。实现了将学习者手语视频对应的骨骼点坐标序列与标准模板的骨骼点序列进行最优对齐，进而将骨骼点坐标序列与对齐后的目标对齐骨骼点序进行分析比较动作差异，使得学习者能够了解到具体的错误动作，为学习者提供更细粒度的指导。

在本发明的一个实施例中，所述分别计算所述骨骼点坐标序列中任一骨骼点坐标向量与所述模板骨骼点序列中任一标准骨骼点坐标向量之间的目标相似度，包括：

步骤S1311，将任一骨骼点坐标向量中的各个骨骼点坐标进行划分，得到多组第一划分骨骼点向量；以及将任一标准骨骼点坐标向量中的各个标准骨骼点坐标进行划分，得到多组第二划分骨骼点向量；

具体地，由于手语主要集中在手部的动作比划，可根据左手对应的各个骨骼点、右手对应的各个骨骼点以及躯干对应的各个骨骼点，将任一骨骼点坐标向量中的各个骨骼点坐标划分，得到各所述骨骼点坐标向量分别对应的多组第一划分骨骼点向量，可选地，所述多组第一划分骨骼点向量包括第一左手骨骼点向量、第一右手骨骼点向量以及第一躯干骨骼点向量；另外地，将任一标准骨骼点坐标向量中的各个标准骨骼点坐标进行划分，得到各所述标准骨骼点坐标向量分别对应的多组第二划分骨骼点向量，可选地，所述多组第二划分骨骼点向量包括第二左手骨骼点向量、第二右手骨骼点向量以及第二躯干骨骼点向量。需要说明的是，左手骨骼点向量表示左手手腕以及左手手指对应的各个骨骼点坐标，右手骨骼点向量表示右手手腕以及右手手指对应的各个骨骼点坐标，躯干骨骼点向量可以表示手臂对应的各个骨骼点坐标。

步骤S1312，计算各所述第一划分骨骼点向量分别对应的第一关节角度向量，以及计算各所述第二划分骨骼点向量分别对应的第二关节角度向量；

需要说明的是，在模仿手语过程中，手臂、手腕以及各个手指上的骨骼关节会呈现出一定的角度，因此，在本实施例中，针对任意一个骨骼点坐标向量均执行如下步骤：基于所述骨骼点坐标向量对应的第一左手骨骼点向量中的各个骨骼点坐标、所述第一右手骨骼点向量中的各个骨骼点坐标和所述第一躯干骨骼点向量中的各个骨骼点坐标，计算得到第一左手骨骼点向量对应的所有关节角度、第一右手骨骼点向量对应的所有关节角度以及第一躯干骨骼点向量对应的所有关节角度，从而形成所述第一左手骨骼点向量对应的第一关节角度向量、所述第一右手骨骼点向量对应的第一关节角度向量以及所述第一躯干骨骼点向量对应的第一关节角度向量。

另外地，针对任意一个标准骨骼点坐标向量均执行如下步骤：基于第二左手骨骼点向量中的各个骨骼点坐标、所述第二右手骨骼点向量中的各个骨骼点坐标和所述第二躯干骨骼点向量中的各个骨骼点坐标，计算得到第二左手骨骼点向量对应的第二关节角度向量、第二右手骨骼点向量对应的第二关节角度向量以及第二躯干骨骼点向量对应的第二关节角度向量，计算过程与第一关节角度向量计算的过程基本相同，在此不再赘述。需要说明的是，关节角度数值与相机尺度无关，并且与学习者面对相机的距离无关，从而使得基于关节角度计算得到的相似度更为精准，提高序列对齐的准确性。

步骤S1313，基于各所述第一关节角度向量以及各所述第二关节角度向量，计算得到所述目标相似度。

具体地，针对任意一个骨骼点坐标向量以及任意一个标准骨骼点坐标向量均执行以下步骤：

基于所述骨骼点坐标向量对应的第一左手骨骼点向量的第一关节角度向量与所述标准骨骼点坐标向量对应的第二左手骨骼点向量的第二关节角度向量，计算得到第一距离，计算所述第一右手骨骼点向量对应的第一关节角度向量与所述第二右手骨骼点向量对应的第二关节角度向量之间的第二距离；以及计算所述第一躯干骨骼点向量对应的第一关节角度向量与所述第二躯干骨骼点向量对应的第二关节角度向量之间的第三距离，进一步地，基于所述第一距离、所述第二距离以及所述第三距离，按照预先设置的分组权重系数计算得到所述目标相似度，需要说明的是，第一距离、第二距离以及第三距离可以是欧式距离，也可以是马氏距离，分组权重系数表示第一躯干骨骼点向量对应的权重系数、第一左手骨骼点向量对应的权重系数以第一右手骨骼点向量对应的权重系数，各个权重系数可按照实际情况设置，例如：设置第一左手骨骼点向量对应的权重系数设置为0.4，第一右手骨骼点向量对应的权重系数设置为0.4，第一躯干骨骼点向量对应的权重系数设置为0.3。下面以欧式距离为例，目标相似度的计算公式如下：

d(i,j)＝w_pose*||v_pose_i-v_pose_j||^2+w_lh*||v_lh_i-v_lh_j||^2+

w_rh*||v_rh_i-v_rh_j||^2

其中，d(i,j)表示目标相似度，v_pose_i表示第一躯干骨骼点向量对应的第一关节角度向量，v_pose_j表示第二躯干骨骼点向量对应的第二关节角度向量，v_lh_i表示第一左手骨骼点向量对应的第一关节角度向量，v_lh_j表示第二左手骨骼点向量对应的第二关节角度向量，v_rh_i表示第一右手骨骼点向量对应的第一关节角度向量，v_rh_j表示第二右手骨骼点向量对应的第二关节角度向量，w_pose表示第一躯干骨骼点向量对应的权重系数，w_lh表示第一左手骨骼点向量对应的权重系数，w_rh表示第一右手骨骼点向量对应的权重系数。

本发明实施例通过上述方案，也即，将任一骨骼点坐标向量中的各个骨骼点坐标进行划分，得到多组第一划分骨骼点向量；以及将任一标准骨骼点坐标向量中的各个标准骨骼点坐标进行划分，得到多组第二划分骨骼点向量；计算各所述第一划分骨骼点向量分别对应的第一关节角度向量，以及计算各所述第二划分骨骼点向量分别对应的第二关节角度向量；基于各所述第一关节角度向量以及各所述第二关节角度向量，计算得到所述目标相似度。实现了通过将像素坐标向量转换为关节角度向量，而关节角度的数值与相机尺度无关，也与学习者面对相机的距离无关，从而使得基于关节角度计算得到的相似度更为精准，提高后续序列对齐的准确性。

图3是本发明提供的手语教学方法的流程示意图之三。如图3所示，在本发明的一个实施例中，上述步骤S12：述对所述手语视频序列帧进行姿态检测，得到骨骼点坐标序列，包括：

步骤121，将所述手语视频序列帧中的每一帧手语图像输入至姿态估计模型，得到所述姿态估计模型输出的每一帧手语图像的骨骼点坐标向量；

步骤122，将各所述骨骼点坐标向量进行排序，得到所述骨骼点坐标序列。

具体地，按照所述手语视频序列帧中手语图像的时间，依次将手语图像输入至所述姿态估计模型，以根据所述姿态估计模型的输出，确定每一帧手语图像中目标人物的骨骼点坐标向量，可选地，每一骨骼关节点均配置有骨骼点标签，骨骼点坐标向量包括各个骨骼点标签对应的像素坐标。例如：手腕的骨骼点标签表示是n1，手肘的骨骼点标签表示是n2，在一具体示例中，骨骼点坐标向量si＝{“n1”：(x1，y1)，“n2”:(x2，y2)，…，“nk”:(xk，yk)}，其中，n1、n2和nk表示某个骨骼点的骨骼点标签，k表示骨骼点的个数，(xk，yk)表示骨骼点对应的像素坐标。进一步地，为了后续能够进行对齐处理流程，需要将各个每一帧手语图像对应的骨骼点坐标向量处理形成时间序列，具体地，按照手语图像对应的时间，将各个手语图像对应的骨骼点坐标向量进行排序，得到所述骨骼点坐标序列。

本发明通过上述方案，也即，将所述手语视频序列帧中的每一帧手语图像输入至姿态估计模型，得到所述姿态估计模型输出的每一帧手语图像的骨骼点坐标向量；将各所述骨骼点坐标向量进行排序，得到所述骨骼点坐标序列利用姿态估计模型对手语视频序列帧中的每一帧进行姿态检测，从而精准检测得到每一帧的骨骼点坐标特征，进而基于每一帧的骨骼点坐标特征，形成骨骼点坐标序列，为将学习者手语视频对应的骨骼点坐标序列与标准模板的骨骼点序列进行最优对齐奠定基础。

在本发明的一个实施例中，所述姿态估计模型是基于如下步骤训练得到：

获取若干张待训练图像样本，其中，所述待训练图像样本配置有骨骼点标签；对于任意一张待训练图像样本，将所述待训练图像样本输入至初始模型，得到所述初始模型输出的骨骼点预测值；基于所述待训练图像样本对应的骨骼点预测值以及骨骼点标签，计算得到模型损失值；基于每一次迭代得到的模型损失值，对所述初始模型的模型参数进行更新，得到所述姿态估计模型。

具体地，获取若干张待训练图像样本，可选地，所述待训练图像样本可通过拍摄学习者在学习手语过程中的手语图像得到，也可在网络上查找得到相关的手语图像，进而对各个待训练图像样本进行标注，得到各所述待训练图像样本对应的骨骼点标签，所述骨骼点标签表示带训练图像中人物对应的各个骨骼关节点的位置标识。

进一步地，针对任意一张待训练图像样本：将所述待训练图像样本输入至初始模型，得到所述初始模型输出的骨骼点预测值，可选地，所述骨骼点预测值包括各个骨骼关节点对应的像素坐标，进而基于所述骨骼点标签以及所述骨骼点预测值，利用目标损失函数计算得到模型损失值，目标损失函数包括等L1损失函数和dice损失函数等，此处不做具体限定。在计算获得模型损失值之后，再利用误差反向传播算法更新初始模型中的模型参数，本次训练过程结束，之后再进行下一次训练。在训练的过程中，判断更新后的初始模型是否均满足预设训练结束条件，若满足，则将更新后的初始模型作为姿态估计模型，若不满足，则继续训练模型，其中，所述预设训练结束条件包括损失收敛和达到最大迭代次数阈值等。

本发明通过上述方案，实现了通过对姿态估计模型进行训练，有利于将姿态估计模型的损失值控制在预设的范围内，从而有利于提高姿态估计模型进行姿态检测的精度。

下面对本发明提供的手语教学装置进行描述，下文描述的手语教学装置与上文描述的手语教学方法可相互对应参照。

图4是本发明提供的手语教学装置的结构示意图，如图4所示，本发明实施例的一种手语教学装置，该装置包括：

获取模块41，用于获取学习者模仿的手语视频序列帧；

姿态检测模块，用于基于姿态估计模型，对所述手语视频序列帧进行姿态检测42，得到骨骼点坐标序列；

对齐模块43，用于将模板骨骼点序列与所述骨骼点坐标序列进行对齐处理，得到目标对齐骨骼点序列；

比较模块44，用于将所述骨骼点坐标序列和所述目标对齐骨骼点序列进行比较，得到手语评测结果。

所述对齐模块43还用于：

所述多组第一划分骨骼点向量包括第一左手骨骼点向量、第一右手骨骼点向量以及第一躯干骨骼点向量；所述多组第二划分骨骼点向量包括第二左手骨骼点向量、第二右手骨骼点向量以及第二躯干骨骼点向量；

所述姿态检测模块42还用于：

所述手语教学装置还包括：

所述比较模块44还用于：

在此需要说明的是，本发明实施例提供的上述装置，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同技术效果，在此不再对本实施例中与方法实施例相同部分及有益效果进行具体赘述。

图5是本发明提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、存储器(memory)520、通信接口(Communications Interface)530和通信总线540，其中，处理器510，存储器520，通信接口530通过通信总线540完成相互间的通信。处理器510可以调用存储器520中的逻辑指令，以执行手语教学方法，该方法包括：获取学习者模仿的手语视频序列帧；对所述手语视频序列帧进行姿态检测，得到骨骼点坐标序列；将模板骨骼点序列与所述骨骼点坐标序列进行对齐处理，得到目标对齐骨骼点序列；将所述骨骼点坐标序列和所述目标对齐骨骼点序列进行比较，得到手语评测结果。

此外，上述的存储器520中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的手语教学方法，该方法包括：获取学习者模仿的手语视频序列帧；对所述手语视频序列帧进行姿态检测，得到骨骼点坐标序列；将模板骨骼点序列与所述骨骼点坐标序列进行对齐处理，得到目标对齐骨骼点序列；将所述骨骼点坐标序列和所述目标对齐骨骼点序列进行比较，得到手语评测结果。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的手语教学方法，该方法包括：获取学习者模仿的手语视频序列帧；对所述手语视频序列帧进行姿态检测，得到骨骼点坐标序列；将模板骨骼点序列与所述骨骼点坐标序列进行对齐处理，得到目标对齐骨骼点序列；将所述骨骼点坐标序列和所述目标对齐骨骼点序列进行比较，得到手语评测结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种手语教学方法，其特征在于，包括：

获取学习者模仿的手语视频序列帧；

2.根据权利要求1所述的手语教学方法，其特征在于，所述将模板骨骼点序列与所述骨骼点坐标序列进行对齐处理，得到目标对齐骨骼点序列，包括：

3.根据权利要求2所述的手语教学方法，其特征在于，所述分别计算所述骨骼点坐标序列中任一骨骼点坐标向量与所述模板骨骼点序列中任一标准骨骼点坐标向量之间的目标相似度，包括：

将所述任一骨骼点坐标向量中的各个骨骼点坐标进行划分，得到多组第一划分骨骼点向量；以及将任一标准骨骼点坐标向量中的各个标准骨骼点坐标进行划分，得到多组第二划分骨骼点向量；

4.根据权利要求3所述的手语教学方法，其特征在于，所述多组第一划分骨骼点向量包括第一左手骨骼点向量、第一右手骨骼点向量以及第一躯干骨骼点向量；所述多组第二划分骨骼点向量包括第二左手骨骼点向量、第二右手骨骼点向量以及第二躯干骨骼点向量；

5.根据权利要求1所述的手语教学方法，其特征在于，所述对所述手语视频序列帧进行姿态检测，得到骨骼点坐标序列，包括：

6.根据权利要求5所述的手语教学方法，其特征在于，所述姿态估计模型是基于如下步骤训练得到：

7.根据权利要求1所述的手语教学方法，其特征在于，所述将所述将所述骨骼点坐标序列和所述目标对齐骨骼点序列进行比较，得到手语评测结果，包括：

8.一种手语教学装置，其特征在于，包括：

获取模块，用于获取学习者模仿的手语视频序列帧；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述手语教学方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述手语教学方法。