CN114842712A

CN114842712A - 一种基于手势识别的手语教学系统

Info

Publication number: CN114842712A
Application number: CN202210378035.3A
Authority: CN
Inventors: 吴坤泽; 张梓浩; 张家铭; 郑大港; 陈子怡; 蔡泽民
Original assignee: Shantou University
Current assignee: Shantou University
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-08-02
Anticipated expiration: 2042-04-12
Also published as: CN114842712B

Abstract

本发明公开了一种基于手势识别的手语教学系统，包括：触摸屏模块、摄像头模块、树莓派模块和手语动作执行机器人，树莓派模块根据教学动作名称控制手语动作执行机器人输出手语动作；摄像头模块用于获取学习者的手语动作图像，树莓派模块用于通过手语动作图像得到学习动作名称，将所述学习动作名称和教学动作名称进行匹配，得到匹配结果。通过树莓派模块作为总控，控制手语动作执行机器人执行学习者想要的手语动作。然后利用摄像头模块对学习者的动作进行采集，实现对学习者动作的正确性进行判断。从而实现对手语动作的教学，提高教学效率。本发明主要用于教学工具领域。

Description

一种基于手势识别的手语教学系统

技术领域

本发明涉及教学用具技术领域，具体是一种基于手势识别的手语教学系统。

背景技术

聋人群体具有一定的特殊性，聋人群体的沟通方式一般采用手语沟通。现有的手语学习机制一般都是采用视频教学的方式。这种视频教学方式由于是影像形式，整体以二维形式进行呈现。而且，对于学习者所模仿的手语动作，没有一个及时的评价机制，从而学习者无法得知当前手语的动作是正确性。因此，对于很多学习者来讲，这种方式，学习接受效果不好，从而使得整体的教学效果不佳。

发明内容

本发明提供一种基于手势识别的手语教学系统，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。

提供一种基于手势识别的手语教学系统，包括：触摸屏模块、摄像头模块、树莓派模块和手语动作执行机器人，所述树莓派模块分别与触摸屏模块、摄像头模块和手语动作执行机器人连接，所述触摸屏模块用于响应学习者触发得到触发指令，所述树莓派模块根据所述触发指令得到学习者需要学习的手语动作名称，所述手语动作名称记为教学动作名称，所述树莓派模块根据所述教学动作名称控制手语动作执行机器人输出手语动作，以完成所述教学动作名称所对应的手语动作；

所述摄像头模块用于获取学习者的手语动作图像，并将所述手语动作图像传递给树莓派模块，所述树莓派模块用于：通过集成在所述树莓派模块中的手语识别模型对所述手语动作图像进行识别，得到所述手语动作图像所对应的手语动作名称，所述手语动作名称记为学习动作名称，将所述学习动作名称和教学动作名称进行匹配，得到匹配结果。

进一步，所述树莓派模块用于：通过所述手语识别模型对所述手语动作图像进行识别，得到所述手语动作图像所对应的手语动作名称，所述手语动作名称记为学习动作名称，将所述学习动作名称和教学动作名称进行匹配，得到匹配结果具体包括：

所述手语识别模型集成骨架检测算法MediaPipe Pose和目标检测算法 Yolo X，利用骨架检测算法MediaPipe Pose算法中的脸部检测器detector对所述手语动作图像进行处理，tracker候选出人体可能出现的候选区域，从候选区域中计算得到人体动作关节点坐标，设置标准的手臂姿态模板，对所得到人体动作关节点坐标进行归一化处理后，对所述手臂姿态模板的每一个节点坐标设置阈值范围，判断归一化的关节点坐标是否落入在所述阈值范围内，输出第一判断结果；

构建手语词向量，通过目标检测算法Yolo X从手语动作图像中检测出手掌图像，对所述手掌图像进行基于所述手语词向量中对应的标准手掌图像进行识别和判断，得到学习动作名称和第二判断结果；

根据所述第一判断结果和第二判断结果得到匹配结果。

进一步，所述人体动作关节点坐标包括第11关节点坐标至第32关节点坐标。

进一步，本基于手势识别的手语教学系统还包括存储模块，所述存储模块与所述树莓派模块连接。

进一步，所述树莓派模块用于执行正常学习模式，所述正常学习模式包括：触摸屏模块显示进入正常学习模式的第一UI接口，触摸屏模块检测到学习者触摸所述第一UI接口，

所述触摸屏模块生成并显示记录有教学动作名称信息的第二UI接口，触摸屏模块检测到学习者触摸所述第二UI接口，形成所述触发指令，所述教学动作名称加载在触发指令中；

当所述第一判断结果为正确，并且所述第二判断结果为正确，则认为匹配成功，在存储模块中划出用于存储错题集的存储单元，将当前的学习动作名称存储在所述存储单元中。

进一步，本基于手势识别的手语教学系统还包括历史挑战模式，所述历史挑战模式包括：触摸屏模式显示进入历史挑战模式的第三UI接口，触摸屏模块检测到学习者触摸所述第三UI接口，访问存储单元，并从存储单元中获取记录在错题集中的学习动作名称，将所述学习错题名称作为教学动作名称加载在触发指令，当所述第一判断结果为正确，且所述第二判断结果为正确时，则认为匹配成功，获取当前的学习动作名称，根据所述学习动作名称在所述存储单元中查询是否存在与之相同的学习动作名称，如果有，则将所述学习动作名称在存储单元中删除。

进一步，本基于手势识别的手语教学系统还包括语音输出模块；所述语音输出模块与树莓派模块连接，在匹配成功后，所述树莓派模块控制语音输出模块发出表示“动作正确”的提示语音，并控制触摸屏模块显示第一动画图像, 控制手语动作执行机器人输出设定的第一手语动作。

进一步，在匹配失败后，所述树莓派模块控制语音输出模块发出表示“动作错误”的提示语音，并控制触摸屏模块显示第二动画图像,控制手语动作执行机器人输出设定的第二手语动作。

本发明至少具有以下有益效果：通过设置触摸屏模块、摄像头模块、树莓派模块和手语动作执行机器人。通过树莓派模块作为总控，控制手语动作执行机器人执行学习者想要的手语动作。然后利用摄像头模块对学习者的动作进行采集，实现对学习者动作的正确性进行判断。从而实现对手语动作的教学，提高教学效率。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是基于手势识别的手语教学系统的结构示意图；

图2是骨架检测算法MediaPipe Pose得到33个人体动作关节点坐标示意图；

图3是目标检测算法Yolo X的模型结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在系统示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于系统中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

参考图1，提供一种基于手势识别的手语教学系统，包括：触摸屏模块、摄像头模块、树莓派模块和手语动作执行机器人，所述树莓派模块分别与触摸屏模块、摄像头模块和手语动作执行机器人连接，所述触摸屏模块用于响应学习者触发得到触发指令，所述树莓派模块根据所述触发指令得到学习者需要学习的手语动作名称，所述手语动作名称记为教学动作名称，所述树莓派模块根据所述教学动作名称控制手语动作执行机器人输出手语动作，以完成所述教学动作名称所对应的手语动作；

所述摄像头模块用于获取学习者的手语动作图像，并将所述手语动作图像传递给树莓派模块。所述树莓派模块用于：通过集成在所述树莓派模块中的手语识别模型对所述手语动作图像进行识别，得到所述手语动作图像所对应的手语动作名称，所述手语动作名称记为学习动作名称，将所述学习动作名称和教学动作名称进行匹配，得到匹配结果。

本基于手势识别的手语教学系统的目的是实现学习者的有效教学，为此，通过设置触摸屏模块、摄像头模块、树莓派模块和手语动作执行机器人。通过树莓派模块作为总控，控制手语动作执行机器人执行学习者想要的手语动作。然后利用摄像头模块对学习者的动作进行采集，实现对学习者动作的正确性进行判断。从而实现对手语动作的教学，提高教学效率。

当本基于手势识别的手语教学系统工作时，学习者可以通过触摸屏模块选择需要学习的手语动作科目，当然，在触摸屏模块中也会出现体现对应手语动作科目的对应触发按键。学习者触摸了对应的触发按键后，触摸屏模块响应学习者的触发，从而生成触发指令。其中，触发指令加载有表示学习者选择的需要学习的手语动作科目所对应的手语动作名称。所述树莓派模块可以对触发指令进行解析，从所述触发指令中得到所述手语动作名称。

根据所述触发指令得到手语动作名称，为了方便区分，所述手语动作名称被记为教学动作名称。

所述树莓派模块集成有预先设置的手语动作名称所对应的控制手语动作执行机器人执行对应手语动作的控制程序。所述树莓派模块可以根据所述教学动作名称找到对应的控制程序。通过所述控制程序来控制手语动作执行机器人输出手语动作，以完成所述教学动作名称所对应的手语动作。

学习者可以通过手语执行机器人直观的观察到具体的手语动作。此时，学习者可以对手语动作进行学习。学习者在对手语动作进行学习的时候，所述摄像头模块实时的获取学习者的手语动作图像，并将所述手语动作图像传递给树莓派模块。

所述树莓派模块集成有对手语动作进行识别的手语识别模型，通过所述手语识别模型对手语动作图像进行识别，从而识别出所述手语动作图像所对应的手语动作名称。为了方便区分，将所述手语动作名称记为学习动作名称。为了判断学习者的手语动作是否标准，因此，将识别出来的学习动作名称与教学动作名称进行匹配，得到匹配结果。当学习动作名称与教学动作名称相同时，则认为学习者的手语动作是标准的，正确的。当学习动作名称与教学动作名称不相同时，则认为学习者的手语动作不标准，不正确。

其中，通过所述手语识别模型对所述手语动作图像进行识别，得到所述手语动作图像所对应的手语动作名称，所述手语动作名称记为学习动作名称，将所述学习动作名称和教学动作名称进行匹配，得到匹配结果具体包括：

根据所述第一判断结果和第二判断结果得到匹配结果。

MediaPipe是谷歌开发并开源的多媒体机器学习应用框架。骨架检测算法MediaPipe Pose中的姿态估计模型是基于一个轻量化的，可用于移动设备等边缘设别上的人体姿态估计网络——Blaze Pose实现的。骨架检测算法 MediaPipe Pose的推理过程用一个detector-tracker来表示，在模型运行的过程中，当第一帧图像被输入到模型中，使用脸部检测器detector对输入图像进行处理，tracker候选出人体可能出现的候选区域，同时计算出来人体的姿态坐标信息，同时回归出人体姿态33个关节节点(骨架、躯干、手臂)的坐标，如图2所示。

当第二帧图像被输入到模型中，假设当前人体仍然出现在原来的区域，不再运行脸部检测detector部分，而是基于上一帧图片用tracker计算得到姿态信息与人体可能出现的候选区域来计算当前帧的人体姿态信息，同时输出当前第二帧的人体姿态关节节点坐标；只有在图像中没有检测到人体的时候，才再次运行人脸检测解码器，直到图像中再次出现人体，并被检测到得以重复上述流程。通过这种方法可以极大的减小模型的参数数量与计算量，从而使这个模型能够适应边缘端的识别任务。

在实际的操作当中我们实际上不需要人体的33个关节点，对于手语识别任务，我们只需要得到手臂部分与躯干部分，即第11关节点坐标至第32关节点坐标，便可以，通过对较少的关节点坐标进行运算，可以减少运算过程，提高运算效率。

参考图3，对于学习者的手部动作的检测，我们采用经典的目标检测算法 Yolo X。它是目前目标检测任务中性能最优的人工智能算法，其损失函数有三个部分组成，分别是中心坐标误差、宽高坐标误差以及置信度误差。Yolo X算法将图片划分成网格，网格一共是S*S个，每个网格产生B个候选框anchor box，对每个候选框，经过网络得到相应的bounding box。最终会得到S*S*B 个bounding box，根据这些bounding box计算损失。损失函数由三部分组成，分别是中心坐标部分、宽高坐标误差以及置信度误差。其中，

表示第i个网格的第j个anchor box是否负责这个object，如果负责那么其值为1，否则为0。

表示参数置信度，在训练过程中，

表示真实值，其取值由grid cell的 bounding box有没有负责预测某个object决定，如果有其值为1，否则为0。

目标检测算法Yolo X的核心机制：

(1)设计的一种端到端的损失函数，预测物体的长、宽、中心点的x和 y坐标、以及识别物体的置信度。

(2)“分而治之”的预测策略，将输入的图片划分为单元格，对每个单元格预测其所属的分类的置信度。并且使用anchor boxes机制来适应多个目标不同大小，长宽比的情况下，训练和预测多个目标的置信度，帮助快速收敛。

(3)灵活的、可更换的、更强的提取特征的骨干网络，在Yolo v3中作者自行设计了骨干网络Dark net53。并且在网络结构中去掉了池化层和全连接层以保证更多特征能被提取，前向传播中的张量尺寸通过改变卷积核的步长实现。

(4)多尺度的训练，设计了3种尺度的物体边框，分别是13*13、26*26、 52*52，三种分辨率，预测大、种、小的物体。

目标检测算法Yolo X的改进了训练阶段的数据增强策略，同时免去了传统Yolo算法的anchor box操作，同时检测头改为Decoupled Head。采用自制数据集训练，词库包含14个类，4个句子，每个类图片超过1000张，训练周期为150个epoch，准确率为90.6％，达到人的识别效果。

联合骨架检测算法MediaPipe Pose和目标检测算法Yolo X的手语判别方法：

对于骨架检测算法MediaPipe Pose，设置标准的手语模板，对所得到33 个节点坐标进行归一化处理后，对相应的手语动作按照标准的手语动作模板设置一定的阈值，归一化的节点坐标在阈值范围内认为学习者做出的手语动作为特定的一类手语动作，在手语词表中设置该手语动作为1。构建关节点词表 x_t＝{x_t,m|m＝1,2,3,...,N}，如果当前第t帧的手语关节点在第m个手语动作的阈值范围[a_m,b_m]内，其中对第m个动作，a_m和b_m是一个二元组，分别为坐标的最大范围，其中a表示横坐标，b表示y坐标，对应的第m个元素x_t,m置为1，其他为0。

对于目标检测算法Yolo X，对于当前第t帧的识别结果，构建手语词向量 y_t＝{y_t,m|m＝1,2,...,N}，总共含有N个手语动作，当识别结果是N个手语动作的第m个时，相应的元素置为1。

综合两个模型，输入关节节点词向量和手势节点词向量，给出判断第m 个手语动作判断正确与否的依据为：

当输出为1时，表明手臂和手掌的动作都正确，当输出为0时，表明手臂错误，而手掌的动作正确，当输出为-1时，表明学习者的手臂的动作错误，手掌的动作也错误。

本具体实施例通过骨架检测算法MediaPipe Pose对手臂姿态进行第一次判断，得到第一判断结果。同时，通过目标检测算法Yolo X对手掌图像进行第二次判断，得到第二判断结果，然后利用第一判断结果和第二判断结果得到匹配结果。当第一判断结果和第二判断结果均为正确的时候，则认为学习者的手语动作是正确的。当第一判断结果或者第二判断结果存在任意一项是错误的时候，则认为学习者的手语动作是错误的。

在一些优选的具体实施例中，本基于手势识别的手语教学系统还包括存储模块，所述存储模块与所述树莓派模块连接。

在一些优选的具体实施例中，所述基于手势识别的手语教学系统具有多种模式，其中，具有正常学习模式。正常学习模式指的是：学习者通过选择手语库中含有的学习动作，自行选择并规划进行学习计划，进行手语动作的学习 (单个动作，多个动作)，同时对学生的错误动作生成“错题集”。

为了实现这个功能，触摸屏模块显示进入正常学习模式的第一UI接口，触摸屏模块检测到学习者触摸所述第一UI接口，所述触摸屏模块生成并显示记录有教学动作名称信息的第二UI接口，其中，所述第二UI接口连接手语库，所述第二UI接口可以显示学习者需要学习的手语动作名称。为了方便区分，所述手语动作名称记为教学动作名称。触摸屏模块检测到学习者触摸所述第二 UI接口，形成所述触发指令，所述教学动作名称加载在触发指令中。当所述第一判断结果为正确，并且所述第二判断结果为正确，则认为匹配成功，在存储模块中划出用于存储错题集的存储单元，将当前的学习动作名称存储在所述存储单元中。

在一些优选的具体实施例中，本基于手势识别的手语教学系统还具有历史挑战模式。所述历史挑战模式的功能为：对历史的学习情况(错题集)进行复习，再次纠正学习过程中错误的动作，再次做对动作则在“错题集”中删除对应“错题”。为了实现这个功能，

触摸屏模式显示进入历史挑战模式的第三UI接口，触摸屏模块检测到学习者触摸所述第三UI接口，访问存储单元，并从存储单元中获取记录在错题集中的学习动作名称，将所述学习错题名称作为教学动作名称加载在触发指令，当所述第一判断结果为正确，且所述第二判断结果为正确时，则认为匹配成功，获取当前的学习动作名称，根据所述学习动作名称在所述存储单元中查询是否存在与之相同的学习动作名称，如果有，则将所述学习动作名称在存储单元中删除。

通过在基于手势识别的手语教学系统中设置正常学习模式和历史挑战模式，丰富了本基于手势识别的手语教学系统的趣味性，提升了学习者的学习兴趣。

在一些优选的具体实施例中，本基于手势识别的手语教学系统还包括语音输出模块；所述语音输出模块与树莓派模块连接，在匹配成功后，所述树莓派模块控制语音输出模块发出表示“动作正确”的提示语音，并控制触摸屏模块显示第一动画图像，控制手语动作执行机器人输出设定的第一手语动作。其中，第一手语动作设定为“竖起大拇指”动作。通过设置语音输出模块，然后利用语音和动画的方式，使得整个基于手势识别的手语教学系统更加具有趣味性。

在一些优选的具体实施例中，在匹配失败后，所述树莓派模块控制语音输出模块发出表示“动作错误”的提示语音，并控制触摸屏模块显示第二动画图像,控制手语动作执行机器人输出设定的第二手语动作。其中，第二手语动作设定为“双手交叉”动作。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种基于手势识别的手语教学系统，其特征在于，包括：触摸屏模块、摄像头模块、树莓派模块和手语动作执行机器人，所述树莓派模块分别与触摸屏模块、摄像头模块和手语动作执行机器人连接，所述触摸屏模块用于响应学习者触发得到触发指令，所述树莓派模块根据所述触发指令得到学习者需要学习的手语动作名称，所述手语动作名称记为教学动作名称，所述树莓派模块根据所述教学动作名称控制手语动作执行机器人输出手语动作，以完成所述教学动作名称所对应的手语动作；

2.根据权利要求1所述的一种基于手势识别的手语教学系统，其特征在于，所述树莓派模块用于：通过所述手语识别模型对所述手语动作图像进行识别，得到所述手语动作图像所对应的手语动作名称，所述手语动作名称记为学习动作名称，将所述学习动作名称和教学动作名称进行匹配，得到匹配结果具体包括：

所述手语识别模型集成骨架检测算法MediaPipe Pose和目标检测算法Yolo X，利用骨架检测算法MediaPipe Pose算法中的脸部检测器detector对所述手语动作图像进行处理，tracker候选出人体可能出现的候选区域，从候选区域中计算得到人体动作关节点坐标，设置标准的手臂姿态模板，对所得到人体动作关节点坐标进行归一化处理后，对所述手臂姿态模板的每一个节点坐标设置阈值范围，判断归一化的关节点坐标是否落入在所述阈值范围内，输出第一判断结果；

根据所述第一判断结果和第二判断结果得到匹配结果。

3.根据权利要求2所述的一种基于手势识别的手语教学系统，其特征在于，所述人体动作关节点坐标包括第11关节点坐标至第32关节点坐标。

4.根据权利要求2所述的一种基于手势识别的手语教学系统，其特征在于，还包括存储模块，所述存储模块与所述树莓派模块连接。

5.根据权利要求4所述的一种基于手势识别的手语教学系统，其特征在于，所述树莓派模块用于执行正常学习模式，所述正常学习模式包括：触摸屏模块显示进入正常学习模式的第一UI接口，触摸屏模块检测到学习者触摸所述第一UI接口，所述触摸屏模块生成并显示记录有教学动作名称信息的第二UI接口，触摸屏模块检测到学习者触摸所述第二UI接口，形成所述触发指令，所述教学动作名称加载在触发指令中；当所述第一判断结果为正确，并且所述第二判断结果为正确，则认为匹配成功，在存储模块中划出用于存储错题集的存储单元，将当前的学习动作名称存储在所述存储单元中。

6.根据权利要求5所述的一种基于手势识别的手语教学系统，其特征在于，还包括历史挑战模式，所述历史挑战模式包括：触摸屏模式显示进入历史挑战模式的第三UI接口，触摸屏模块检测到学习者触摸所述第三UI接口，访问存储单元，并从存储单元中获取记录在错题集中的学习动作名称，将所述学习错题名称作为教学动作名称加载在触发指令，当所述第一判断结果为正确，且所述第二判断结果为正确时，则认为匹配成功，获取当前的学习动作名称，根据所述学习动作名称在所述存储单元中查询是否存在与之相同的学习动作名称，如果有，则将所述学习动作名称在存储单元中删除。

7.根据权利要求6所述的一种基于手势识别的手语教学系统，其特征在于，还包括语音输出模块；所述语音输出模块与树莓派模块连接，在匹配成功后，所述树莓派模块控制语音输出模块发出表示“动作正确”的提示语音，控制触摸屏模块显示第一动画图像,控制手语动作执行机器人输出设定的第一手语动作。

8.根据权利要求7所述的一种基于手势识别的手语教学系统，其特征在于，在匹配失败后，所述树莓派模块控制语音输出模块发出表示“动作错误”的提示语音，并控制触摸屏模块显示第二动画图像,控制手语动作执行机器人输出设定的第二手语动作。