CN112462941A

CN112462941A - 基于手势识别的教学互动方法、装置、系统及介质

Info

Publication number: CN112462941A
Application number: CN202011367408.4A
Authority: CN
Inventors: 李天驰; 孙悦; 乔伟
Original assignee: Shenzhen Dianmao Technology Co Ltd
Current assignee: Shenzhen Dianmao Technology Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-09

Abstract

本发明公开了基于手势识别的教学互动方法、装置、系统及介质，方法包括：捕捉直播教学视频中的手势图像；将所述手势图像输入至预设的手势检测模型，检测所述手势图像中的手势类型；根据所述手势图像中的手势类型触发相应的直播特效。本发明实施例通过捕捉并检测直播教学过程中的手势动作进而触发相应的直播特效，使得老师在直播过程中可随时根据教学进程摆出相应的手势开启相应的特效功能，在不影响教学流畅性的前提下增强了教学互动性和趣味性。

Description

基于手势识别的教学互动方法、装置、系统及介质

技术领域

本发明涉及在线教学技术领域，尤其涉及基于手势识别的教学互动方法、装置、系统及介质。

背景技术

当前的在线直播教学场景中，通常老师只负责口述教学内容，学生只能看到老师端摄像头拍到的老师头像画面和/或课件画面，整体内容较为枯燥，虽然在一些教学场景中已经支持了一些特效功能，但是在教学过程中需要老师用鼠标去点选功能来实现，会打断教学过程影响教学的流畅性。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供基于手势识别的教学互动方法、装置、系统及介质，旨在解决现有技术中的鼠标点选特效功能影响直播教学流畅性的问题。

本发明的技术方案如下：

一种基于手势识别的教学互动方法，其包括如下步骤：

捕捉直播教学视频中的手势图像；

将所述手势图像输入至预设的手势检测模型，检测所述手势图像中的手势类型；

根据所述手势图像中的手势类型触发相应的直播特效。

所述的基于手势识别的教学互动方法中，所述捕捉直播教学视频中的手势图像之前，还包括：

判断当前教师用户是否抬起手臂，若是，则控制手势识别功能开启，否则控制手势识别功能保持休眠状态。

所述的基于手势识别的教学互动方法中，所述将所述手势图像输入至预设的手势检测模型，检测所述手势图像中的手势类型之前，还包括：

构建深度学习模型，根据预先采集的手势训练样本对所述深度学习模型进行训练，其中所述手势训练样本包括已标注各手指关节点位置的多种预设手势；

当所述深度学习模型训练至收敛后生成所述手势检测模型。

所述的基于手势识别的教学互动方法中，所述将所述手势图像输入至预设的手势检测模型，检测所述手势图像中的手势类型，包括：

将所述手势图像输入至预设的手势检测模型，检测所述手势图像中各手指关节点的位置；

根据所述手势图像中各手指关节点的位置计算当前手势与多种预设手势的匹配概率，输出匹配概率最高的预设手势作为当前手势的手势类型。

所述的基于手势识别的教学互动方法中，所述检测所述手势图像中各手指关节点的位置，包括：

检测所述手势图像中的手部区域并判断所述手部区域是否有效；

当所述手部区域有效时检测所述手部区域内各手指关节点的位置信息。

所述的基于手势识别的教学互动方法中，所述检测所述手势图像中的手部区域并判断所述手部区域是否有效，包括：

对所述手势图像进行手部定位处理，标记所述手势图像中的手部区域；

计算所述手部区域的像素大小，当所述手部区域的像素大小与所述手势图像的总像素之间的比例大于预设比例时，判断所述手部区域有效。

所述的基于手势识别的教学互动方法中，所述根据所述手势图像中的手势类型触发相应的直播特效，包括：

根据所述手势图像中的手势类型获取对应的特效指令；

根据所述特效指令将相应的特效帧图像合成至直播教学视频的当前帧图像的目标位置上。

本发明又一实施例还提供了一种基于手势识别的教学互动装置，所述装置包括：

图像捕捉模块，用于捕捉直播教学视频中的手势图像；

检测模块，用于将所述手势图像输入至预设的手势检测模型，检测所述手势图像中的手势类型；

特效触发模块，用于根据所述手势图像中的手势类型触发相应的直播特效。

本发明又一实施例还提供了一种基于手势识别的教学互动系统，所述系统包括至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述基于手势识别的教学互动方法。

本发明的另一实施例还提供了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行上述的基于手势识别的教学互动方法。

有益效果：本发明公开了基于手势识别的教学互动方法、装置、系统及介质，相比于现有技术，本发明实施例通过捕捉并检测直播教学过程中的手势动作进而触发相应的直播特效，使得老师在直播过程中可随时根据教学进程摆出相应的手势开启相应的特效功能，在不影响教学流畅性的前提下增强了教学互动性和趣味性。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明提供的基于手势识别的教学互动方法较佳实施例的流程图；

图2为本发明提供的基于手势识别的教学互动装置较佳实施例的功能模块示意图；

图3为本发明提供的基于手势识别的教学互动系统较佳实施例的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。以下结合附图对本发明实施例进行介绍。

请参阅图1，图1为本发明提供的基于手势识别的教学互动方法较佳实施例的流程图。如图1所示，其包括如下步骤：

S100、捕捉直播教学视频中的手势图像；

S200、将所述手势图像输入至预设的手势检测模型，检测所述手势图像中的手势类型；

S300、根据所述手势图像中的手势类型触发相应的直播特效。

本实施例中，当老师在直播教学过程中需要通过直播特效与学生互动时可摆出特定手势，通过在直播时逐帧捕捉直播教学视频中的手势图像，将捕捉到的单帧二维手势图像输入至预设的手势检测模型中进行手势检测，识别所述手势图像中的手势类型，通过检测识别到的手势类型来触发相应的直播特效，老师无需额外通过鼠标去寻找和点选特效功能影响上课进程，学生在观看直播时也不会感受到任何的由于老师寻找点选造成的教学卡顿，因此在丰富了教学趣味性和互动性的同时也保证了教学流畅。

进一步地，所述捕捉直播教学视频中的手势图像之前，还包括：

本实施例中，在进行手势图像的捕捉与识别之前，先判断当前教师用户是否抬起手臂，具体可根据手臂最高点的位置进行判断，例如当直播帧图像中手臂最高点的像素坐标大于预设值时判断当前已抬起手臂，具体的预设值可根据直播帧图像的像素大小灵活设置，由于教师在直播时除了摆出特定手势触发直播特效外可能手部会有其他动作，但是这些动作并没有触发直播特效的意图，若此时将捕捉到的图像输入至手势检测模型进行检测识别不仅不会得到可靠的识别结果也浪费了大量的计算时间，而教师用户在通过摆出手势触发直播特效时，手臂会自然抬起至一定高度，因此在进行手势识别之前先进行手臂动作的判断，有利于节约运算资源提高识别效率。

进一步地，所述将所述手势图像输入至预设的手势检测模型，检测所述手势图像中的手势类型之前，还包括：

当所述深度学习模型训练至收敛后生成所述手势检测模型。

本实施例中，预先构建并训练得到手势检测模型，具体实施时可构建基础的卷积神经网络或者基于mobilenet的卷积神经网络作为深度学习模型的基础网络，其中mobilenet作为专注于在移动设备和嵌入式设备上的轻量级卷积神经网络，相比于传统的卷积神经网络，在准确率小幅降低的前提下，大大减小模型参数和运算量，具体可根据对模型精度和效率的要求选择合适的深度学习模型，通过预先采集的大量手势训练样本对所述深度学习模型进行训练，其中所述手势训练样本包括了多种标准的预设手势，每一种预设手势均提供多个样本图像，且每个样本图像中的预设手势上均标注了各手指关节点的位置，将这些具有确定的手指关节点位置的手势训练样本输入至深度学习模型中，根据深度学习模型的检测输出值与手势训练样本中的手指关节点位置反向调节深度学习模型的参数直到模型收敛，即深度学习模型的手指关节点检测值与手势训练样本中确定的关节点位置之间的差值小于预设阈值，将此时深度学习模型的权重参数作为最终手势关节点检测模型的权重参数，实现准确的手指关节点定位，进而根据手指关节点定位结果进行手势类型匹配实现手势识别。

进一步地，所述将所述手势图像输入至预设的手势检测模型，检测所述手势图像中的手势类型，包括：

本实施例中，在将所述手势图像输入至预设的手势检测模型进行手势检测识别时，先检测所述手势图像中各手指关节点的位置，由于每种预设手势的各关节点位置具有明显差异，因此可根据当前手势下各手指关节点的位置分类输出与多种预设手势的匹配概率，将匹配概率最高的预设手势作为当前手势的手势类型进而得到准确的手势类型识别，具体实施时，所述预设手势可包括例如“OK”手势、“点赞”手势、“双手比心”手势、“单手比心”手势、“握拳”手势、“五指张开”手势以及“V型”手势等等，当教师用户摆出的手势经过手势检测模型后无法与任意一个预设手势识别时，输出识别错误提醒，教师用户可在非教学时间录入自定义手势和对应的直播特效，以便在下次直播教学时通过其自定义手势来触发相应的直播特效，更加符合每个教师的手势习惯，提高手势教学互动的灵活性。

进一步地，所述检测所述手势图像中各手指关节点的位置，包括：

本实施例中，在检测手势图像中各手指关节点的位置时，需要先判断所述手势图像中的手部区域是否有效，即由于教师用户在直播过中手部除了摆出特定手势进行教学互动外必然会有其他动作，或者在直播过程中可能会偶尔出现旁人的手等等情况，此时可能会捕捉到部分手部的图像但不足以进行手势识别，因此在进行手势检测识别时先根据检测到的手部区域进行有效性判断，在判断为有效时再进一步检测各手指关节点的位置信息，否则不继续进行手势检测识别，避免不必要的运算造成资源和功耗的浪费。

进一步地，所述检测所述手势图像中的手部区域并判断所述手部区域是否有效，包括：

本实施例中，在进行手部区域的有效性判断时，先对所述手势图像进行手部定位处理，在所述手势图像中标记出手部区域，例如根据手势图上定位的手部位置标记相应的矩形框或者不规则多边形作为手部区域，根据所述手部区域在当前直播画面中的占比来判断其是否有效，具体通过手部区域的像素大小与所述手势图像的总像素之间的比例进行判断，例如手势图像的总像素为M*N，当手部区域为矩形框时，其像素大小S可表示为A*B，而当手部区域为不规则多边形时则直接统计手部区域像素点的总和作为其像素大小S，计算S/(M*N)这一比例，若大于预设比例则判断所述手部区域有效，说明此时获取的手势图像中具有完整的手部区域可用于手势识别，而不是偶然出现在直播画面中的手部边角区域，有效提高了手势识别的效率，同时也确保教师在直播互动时不会由于无效手势的错误识别导致直播特效的误触发，保证教学互动效果。

进一步地，所述根据所述手势图像中的手势类型触发相应的直播特效，包括：

根据所述手势图像中的手势类型获取对应的特效指令；

本实施例中，通过捕捉手势图像并经手势检测模型进行手势检测识别后，根据识别得到的手势类型获取对应的特效指令，每种预设手势均预先与不同的特效指令进行一一对应，例如“OK”手势触发笑脸特效、“点赞”手势触发鼓掌鲜花特效、“五指张开”手势触发切换抠像背景特效等等，本发明对此不作限定，具体可根据实际应用需要灵活设置和更改，获取了当前手势类型对应的特效指令后根据所述特效指令将相应的特效帧图像合成至直播教学视频的当前帧图像的目标位置上，即所述特效指令中包括了该直播特效对应的特效帧图像，以及特效帧图像在直播画面中的位置，因此根据所述特效指令在直播教学视频的当前帧图像的目标位置上，显示相应的特效帧图像实现直播特效的输出展示，达到直播教学过程中趣味交互的效果。

由以上方法实施例可知，本发明提供的基于手势识别的教学互动方法通过捕捉并检测直播教学过程中的手势动作进而触发相应的直播特效，使得老师在直播过程中可随时根据教学进程摆出相应的手势开启相应的特效功能，在不影响教学流畅性的前提下增强了教学互动性和趣味性。

需要说明的是，上述各步骤之间并不必然存在一定的先后顺序，本领域普通技术人员，根据本发明实施例的描述可以理解，不同实施例中，上述各步骤可以有不同的执行顺序，即亦可以并行执行，亦可以交换执行等等。

本发明另一实施例提供一种基于手势识别的教学互动装置，如图2所示，装置1包括：

图像捕捉模块11，用于捕捉直播教学视频中的手势图像；

检测模块12，用于将所述手势图像输入至预设的手势检测模型，检测所述手势图像中的手势类型；

特效触发模块13，用于根据所述手势图像中的手势类型触发相应的直播特效。

所述图像捕捉模块11、检测模块12和特效触发模块13依次连接，具体实施方式请参考上述对应的方法实施例，此处不再赘述。

本发明另一实施例提供一种基于手势识别的教学互动系统，如图3所示，系统10包括：

一个或多个处理器110以及存储器120，图3中以一个处理器110为例进行介绍，处理器110和存储器120可以通过总线或者其他方式连接，图3中以通过总线连接为例。

处理器110用于完成系统10的各种控制逻辑，其可以为通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、单片机、ARM(Acorn RISCMachine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。还有，处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。

存储器120作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的基于手势识别的教学互动方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元，从而执行系统10的各种功能应用以及数据处理，即实现上述方法实施例中的基于手势识别的教学互动方法。

存储器120可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据系统10使用所创建的数据等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器120可选包括相对于处理器110远程设置的存储器，这些远程存储器可以通过网络连接至系统10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个单元存储在存储器120中，当被一个或者多个处理器110执行时，执行上述任意方法实施例中的基于手势识别的教学互动方法，例如，执行以上描述的图1中的方法步骤S100至步骤S300。

本发明实施例提供了一种非易失性计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如，执行以上描述的图1中的方法步骤S100至步骤S300。

作为示例，非易失性存储介质能够包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦ROM(EEPROM)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(RAM)。通过说明丽非限制，RAM可以以诸如同步RAM(SRAM)、动态RAM、(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)以及直接Rambus(兰巴斯)RAM(DRRAM)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器组件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。

本发明的另一种实施例提供了一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被处理器执行时，使所述处理器执行上述方法实施例的基于手势识别的教学互动方法。例如，执行以上描述的图1中的方法步骤S100至步骤S300。

综上所述，本发明公开的基于手势识别的教学互动方法、装置、系统及介质中，方法包括：捕捉直播教学视频中的手势图像；将所述手势图像输入至预设的手势检测模型，检测所述手势图像中的手势类型；根据所述手势图像中的手势类型触发相应的直播特效。本发明实施例通过捕捉并检测直播教学过程中的手势动作进而触发相应的直播特效，使得老师在直播过程中可随时根据教学进程摆出相应的手势开启相应的特效功能，在不影响教学流畅性的前提下增强了教学互动性和趣味性。

以上所描述的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施例的描述，本领域的技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存在于计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机电子设备(可以是个人计算机，服务器，或者网络电子设备等)执行各个实施例或者实施例的某些部分的方法。

除了其他之外，诸如"能够'、"能"、"可能"或"可以"之类的条件语言除非另外具体地陈述或者在如所使用的上下文内以其他方式理解，否则一般地旨在传达特定实施方式能包括(然而其他实施方式不包括)特定特征、元件和/或操作。因此，这样的条件语言一般地还旨在暗示特征、元件和/或操作对于一个或多个实施方式无论如何都是需要的或者一个或多个实施方式必须包括用于在有或没有输入或提示的情况下判定这些特征、元件和/或操作是否被包括或者将在任何特定实施方式中被执行的逻辑。

已经在本文中在本说明书和附图中描述的内容包括能够提供基于手势识别的教学互动方法、装置、系统及介质的示例。当然，不能够出于描述本公开的各种特征的目的来描述元件和/或方法的每个可以想象的组合，但是可以认识到，所公开的特征的许多另外的组合和置换是可能的。因此，显而易见的是，在不脱离本公开的范围或精神的情况下能够对本公开做出各种修改。此外，或在替代方案中，本公开的其他实施例从对本说明书和附图的考虑以及如本文中所呈现的本公开的实践中可能是显而易见的。意图是，本说明书和附图中所提出的示例在所有方面被认为是说明性的而非限制性的。尽管在本文中采用了特定术语，但是它们在通用和描述性意义上被使用并且不用于限制的目的。

Claims

1.一种基于手势识别的教学互动方法，其特征在于，包括如下步骤：

捕捉直播教学视频中的手势图像；

根据所述手势图像中的手势类型触发相应的直播特效。

2.根据权利要求1所述的基于手势识别的教学互动方法，其特征在于，所述捕捉直播教学视频中的手势图像之前，还包括：

3.根据权利要求1所述的基于手势识别的教学互动方法，其特征在于，所述将所述手势图像输入至预设的手势检测模型，检测所述手势图像中的手势类型之前，还包括：

当所述深度学习模型训练至收敛后生成所述手势检测模型。

4.根据权利要求3所述的基于手势识别的教学互动方法，其特征在于，所述将所述手势图像输入至预设的手势检测模型，检测所述手势图像中的手势类型，包括：

5.根据权利要求4所述的基于手势识别的教学互动方法，其特征在于，所述检测所述手势图像中各手指关节点的位置，包括：

6.根据权利要求5所述的基于手势识别的教学互动方法，其特征在于，所述检测所述手势图像中的手部区域并判断所述手部区域是否有效，包括：

7.根据权利要求1所述的基于手势识别的教学互动方法，其特征在于，所述根据所述手势图像中的手势类型触发相应的直播特效，包括：

根据所述手势图像中的手势类型获取对应的特效指令；

8.一种基于手势识别的教学互动装置，其特征在于，所述装置包括：

图像捕捉模块，用于捕捉直播教学视频中的手势图像；

9.一种基于手势识别的教学互动系统，其特征在于，所述系统包括至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7任一项所述的基于手势识别的教学互动方法。

10.一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行权利要求1-7任一项所述的基于手势识别的教学互动方法。