CN114779922A

CN114779922A - 教学设备的控制方法、控制设备、教学系统和存储介质

Info

Publication number: CN114779922A
Application number: CN202210238460.2A
Authority: CN
Inventors: 于俊; 丁德成; 李雅洁; 程知远; 郑英帅; 程礼磊; 连顺; 谭昶; 陈涛
Original assignee: Nanjing Qiancui Intelligent Technology Service Co ltd; iFlytek Co Ltd
Current assignee: Nanjing Qiancui Intelligent Technology Service Co ltd; iFlytek Co Ltd
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-07-22

Abstract

本申请公开了一种教学设备的控制方法、控制设备、教学系统和存储介质。其中，教学设备的控制方法包括：对教学空间中的目标进行图像和音频采集，得到目标的图像数据和音频数据，其中，教学空间中包括教学设备；利用目标的图像数据提取目标的视觉信息，以及利用目标的音频数据提取目标的听觉信息；基于目标的视觉信息和听觉信息，对教学设备进行控制。通过上述方式，本申请能够提升教学设备控制的便利性，同时准确性较高。

Description

教学设备的控制方法、控制设备、教学系统和存储介质

技术领域

本申请涉及智能教学技术领域，特别是涉及一种教学设备的控制方法、控制设备、教学系统和存储介质。

背景技术

随着智慧课堂的兴起，教育正朝着智能化的方向发展。借助人工智能的手段，智慧教室的教学设备越来越多，教学设备智能化带来了教学的便利。

但是，目前对于教学设备主要使用接触式的控制方式，例如通过接触式控制面板、计算机显示器、无线遥控等设备对单个教学设备进行操作，这种控制方式需要用户单独和设备进行接触，限制了用户双手的活动空间，难以满足日益繁多的教学设备控制便利性需求。

发明内容

本申请主要解决的技术问题是提供一种教学设备的控制方法、控制设备、教学系统和存储介质，能够提升教学设备控制的便利性，同时准确性较高。

为解决上述技术问题，本申请第一方面提供了一种教学设备的控制方法，包括：对教学空间中的目标进行图像和音频采集，得到目标的图像数据和音频数据，其中，教学空间中包括教学设备；利用目标的图像数据提取目标的视觉信息，以及利用目标的音频数据提取目标的听觉信息；基于目标的视觉信息和听觉信息，对教学设备进行控制。

为解决上述技术问题，本申请第二方面提供了一种控制设备，包括：采集模块，用于对教学空间中的目标进行图像和音频采集，得到目标的图像数据和音频数据，其中，教学空间中包括教学设备；提取模块，用于利用目标的图像数据提取目标的视觉信息，以及利用目标的音频数据提取目标的听觉信息；控制模块，用于基于目标的视觉信息和听觉信息，对教学设备进行控制。

为解决上述技术问题，本申请第三方面提供了一种控制设备，该控制设备包括相互耦接的存储器和处理器，存储器用于存储程序数据，处理器用于执行程序数据以实现前述的方法。

为解决上述技术问题，本申请第四方面提供了一种教学系统，该教学系统包括前述的控制设备，以及教学设备，控制设备与教学设备通信连接，用于控制教学设备。

为解决上述技术问题，本申请第五方面提供了一种计算机可读存储介质，该计算机可读存储介质中存储有程序数据，程序数据在被处理器执行时，用以实现前述的方法。

本申请的有益效果是：区别于现有技术的情况，本申请通过对教学空间中的目标进行图像和音频采集，得到目标的图像数据和音频数据，其中，教学空间中包括教学设备，然后利用目标的图像数据提取目标的视觉信息，以及利用目标的音频数据提取目标的听觉信息，最后基于目标的视觉信息和听觉信息，对教学设备进行控制，由于综合视觉和听觉，从多维度对目标的意图进行识别，能够准确识别目标意图，从而能够快速、准确对教学设备进行控制，另外，不同于接触控制方式，通过视觉和听觉的意图识别能够及时切换对不同教学设备的控制，用户操作简单，提升了教学设备控制的便利性。

附图说明

为了更清楚地说明本申请中的技术方案，下面将对实施例描述中所需要的附图作简单的介绍，显而易见地，下面描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请教学设备的控制方法一实施例的流程示意图；

图2是本申请教学空间的一示意图；

图3是本申请教学设备的控制方法另一实施方式的流程示意图；

图4是目标三维点云的一示意图；

图5是图3中步骤S24中提取姿态信息的流程示意图；

图6是图3中步骤S24中提取视觉信息的流程示意图；

图7是图像进行人脸检测后的示意图；

图8是目标的人脸关键点的一示意图；

图9是目标的眼动向量的一示意图；

图10是头部姿态估计的场景示意图；

图11是头部姿态估计中头部欧拉角计算的坐标系示意图；

图12是图3中步骤S24中提取手势信息的流程示意图；

图13是图3中步骤S24中提取听觉信息的流程示意图；

图14是图3中步骤S25的另一实施方式的流程示意图；

图15是目标看向控制设备各边缘的视线偏转角度；

图16是教学空间的一平面示意图；

图17是本申请教学设备的控制方法又一实施例的流程示意图；

图18为本申请控制设备一实施例的结构示意框图；

图19是本申请控制设备另一实施例的结构示意框图；

图20是本申请教学系统一实施例的结构示意框图；

图21是本申请计算机可读存储介质一实施例的结构示意框图。

具体实施方式

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请中的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

传统地，由于教学空间中采用接触式的控制方式，对单个控制设备进行操作，使得操作复杂，控制便利性较差，另外，经常会发生遥控器找不到或者电池没电情形，导致无法对教学设备进行及时控制。由此，本申请提供了一种综合视觉和听觉信息精准理解用户意图，通过控制设备对教学空间中的硬件进行唤醒及操作控制的方法，能够提升教学设备控制的便利性，同时准确性较高，用户体验更好。

请参阅图1至图2，图1是本申请教学设备的控制方法一实施例的流程示意图，图2是本申请教学空间的一示意图。其中，本申请的执行主体为控制设备。

该方法可以包括以下步骤：

步骤S11：对教学空间中的目标进行图像和音频采集，得到目标的图像数据和音频数据，其中，教学空间中包括教学设备。

其中，教学空间即用于教学的空间，例如为教室、实验室等。教学设备可以包括但不限于：摄像设备、显示设备、音频设备、照明设备、遮光设备。摄像设备可以包括录播主机、4K摄像机、云台摄像机、板书相机。显示设备可以包括纳米黑板、智慧屏、互联黑板、投影仪等。音频设备可以包括音频主机、降噪拾音器、吊麦、无线麦、音频一体机、无线麦克风等。照明设备可以包括智能电灯、智能台灯等。遮光设备可以包括智能窗帘。上述教学设备都可以与控制设备通信连接(有线或无线)，由控制设备进行控制。

如图2所示，为一教学空间的示意图，其中包括的教学设备有：智能门禁10、电子班牌11、摄像头12、电子白板13、幕布14、空调15、一体机16、投影仪17、智能窗帘18、智能点灯19。除此之外，还可以包括一些未示出的无线Ap、麦克风等，此处不作限定。

图像数据和音频数据为同步采集的数据。控制设备位于教学空间中，可以通过图像传感器对教学空间中的目标进行图像采集，同时，通过麦克风对目标进行音频采集。图像数据可以包括多帧图像，目标可以是人。具体地，控制设备可以通过图像传感器实时捕捉并接收视频流，然后基于视频流提取图像帧，同时，通过麦克风采集目标的音频数据。教学空间中可以包括一个或多个图像传感器，其中，每个图像传感器的类型和位置等参数可以根据实际情况进行配置。在一示例中，教学空间中包括6个图像传感器，设置于教学空间中的不同位置，以能够返回整个教学空间的图像。

在一些实施方式中，控制设备可以对采集得到的图像数据进行增强处理，以改善图像的质量和可辨识度，有利于进一步利用图像进行分析处理。例如，在图像传感器的曝光率不能自动调节，且教学空间中的光照发生变化时，图像会处于欠曝光状态，所以需要对图像进行增强图像增强算法例如为直方图均衡化、拉普拉斯算子、Log函数、伽马变换等。另外，当图像由于烟雾、灰尘等干扰出现模糊的情况时，可以使用去雾算法对图像数据进行增强处理，以获得清晰的图像。

步骤S12：利用目标的图像数据提取目标的视觉信息，以及利用目标的音频数据提取目标的听觉信息。

具体地，对目标的图像数据进行图像处理，以得到目标的视觉信息。视觉信息可以包括但不限于：姿态信息、视线信息、手势信息、唇部信息中的至少一种。姿态信息用于记录目标的姿态类别，视线信息用于记录目标的视线方向，手势信息用于记录目标的手势类别，唇部信息用于记录目标的唇部运动状态。其中，利用不同的图像处理算法或方式可以获得不同的视觉信息，具体实施方式请参见后面的实施例。

具体地，提取听觉信息包括：利用目标的音频数据提取目标的声学特征，然后利用提取到的声学特征进行语音识别，从而得到目标的听觉信息。听觉信息可以是语音信息，例如一段音频。

步骤S13：基于目标的视觉信息和听觉信息，对教学设备进行控制。

在一实施方式中，可以在目标的视觉信息和听觉信息都满足预设要求时，对教学设备进行控制，以使得对教学设备的控制准确率更高。或者，可以在目标的视觉信息或听觉信息满足预设要求时，对教学设备进行控制，以使得对教学设备的控制准确率更快。

上述方案，通过对教学空间中的目标进行图像和音频采集，得到目标的图像数据和音频数据，其中，教学空间中包括教学设备，然后利用目标的图像数据提取目标的视觉信息，以及利用目标的音频数据提取目标的听觉信息，最后基于目标的视觉信息和听觉信息，对教学设备进行控制，由于综合视觉和听觉，从多维度对目标的意图进行识别，能够准确识别目标意图，从而能够快速、准确对教学设备进行控制，另外，不同于接触控制方式，通过视觉和听觉的意图识别能够及时切换对不同教学设备的控制，用户操作简单，提升了教学设备控制的便利性。

请参阅图3至图4，图3是本申请教学设备的控制方法另一实施方式的流程示意图，图4是目标三维点云的一示意图。

步骤S21：对教学空间中的目标进行图像和音频采集，得到目标的图像数据和音频数据，其中，教学空间中包括教学设备。

步骤S22：对图像数据中的目标进行识别与跟踪，得到目标的初始轨迹。

在一实施方式中，可以利用目标的图像数据进行目标检测，得到至少一个目标的目标框，然后利用目标的图像数据进行三维点云重建，得到至少一个主体的点云，然后对至少一个主体的点云进行目标识别，确定至少一个目标对应的点云；以及利用目标的点云和目标框对目标进行跟踪，得到目标的初始轨迹。如图4所示，当目标为人体时对应的三维点云的示意图。

其中，可以利用目标检测算法对图像数据进行处理，以得到至少一个目标的目标框，其中，每个目标框内仅包含一个目标。

其中，可以基于SFM算法构建目标的三维点云，准确率更高。由于传统的SLAM算法假设图像传感器位于目标位置，而本申请中图像传感器和目标的位置不同，故不符合本申请的需求。具体地，可以在通过图像传感器拍摄目标在教学空间中多个角度的图像，并通过图像特征点匹配来实现目标的三维点云重建。其中，当图像传感器为深度摄像机时，可以更为精准的得出点云在空间上的位置差异，使得点云的相对位置更为精准。主体可以包括目标(例如人)和非目标(例如物体，包括桌子、椅子等)。

其中，关于点云世界坐标系的计算，首先需要依据教学空间建立坐标系，例如以教室黑板上沿中心点为坐标原点，以原点水平向右的方向为X轴正方向，以垂直原点方向为Y轴正方向，以垂直XY平面指向目标的方向为Z轴的正方向。经过三维点云重建后，目标身体上的每个点位可以用坐标表示。由于多个图像传感器在教学空间中的空间位置不同，故需要将其转换至世界坐标系下。由此，需要对图像传感器的相关参数(例如内参)进行采集，然后基于图像传感器的内参和坐标进行转换，就可以得到点云的世界坐标。

其中，在得到至少一个主体的点云之后，可以利用训练完成的三维目标识别模型对至少一个主体的点云进行目标识别，从而可以将至少一个主体中的目标识别出来。三维目标识别模型是一种深度学习模型，故在实际应用前，需要对深度学习模型进行训练，以得到三维目标识别模型。具体地，可以采集所需类别(本实施例中为人体)的数据并进行预处理和标签化，训练用于分类的深度学习模型。除此之外，所采集数据的类别还可以包括其他物体，例如桌、椅等，以使训练得到的三维识别模型同时具备识别场景中其他物体的能力，能够有效的提供可拓展性。

以上，当利用图像数据得到目标的初始点云和目标框之后，可以根据点云的位置变化和每帧图像中目标框的位置变化实现对目标的跟踪，从而不需要单独对教学空间进行重新建模。其中，同时基于点云和目标框对目标进行跟踪，适用于在整个教学空间对目标进行远距离跟踪，从而在后续帧图像数据中对目标进行快速、准确定位。

步骤S23：基于目标的初始轨迹，将图像数据中的目标进行关联。

经过对目标进行识别与跟踪，可以得到目标的初始轨迹，而基于目标的初始轨迹可以将图像数据的每帧图像中的目标进行关联，而且后续还可以基于目标的初始轨迹，确定后续帧图像中的目标位置，以及将后续帧图像中的目标与初始轨迹进行关联，更新目标的轨迹。

步骤S24：利用目标的图像数据提取目标的视觉信息，以及利用目标的音频数据提取目标的听觉信息。

请参阅图5，图5是图3中步骤S24中提取姿态信息的流程示意图。

如图5所示，当视觉信息包括姿态信息时，利用目标的图像数据提取目标的视觉信息包括步骤S2411～S2415：

步骤S2411：为图像数据中的目标建立对应的跟踪序列。

步骤S2412：在跟踪序列对应的每帧图像中更新和记录目标的目标框。

具体地，可以利用目标跟踪算法为图像数据中的目标建立对应的跟踪序列。

在一些实施方式中，当图像数据中包含多个目标时，可以利用多目标跟踪算法为图像数据中的每一个目标建立一个跟踪序列，然后在跟踪序列对应的每帧图像中更新和记录目标的目标框。

步骤S2413：对每帧图像中的目标框对应区域进行裁剪，得到目标的至少一个目标框区域图像。

步骤S2414：利用每个目标框区域图像进行姿态估计，得到目标的至少一个关键点图像。

具体地，可以利用姿态估计算法对目标框区域图像进行姿态估计，输出目标的关键点图像，并保存。其中常用的姿态估计算法一般采用两种思路top-down和bottom-up，top-down对应的算法有CPM、Hourglass等，bottom-up对应的算法有openpose、HigherHRNet等。

步骤S2415：利用预设数量帧关键点图像进行行为识别，得到目标的姿态信息。

具体地，可以使用每个跟踪序列保存的当前时间点的前预设数量帧关键点图像进行行为识别，得到目标的姿态信息。其中，预设数量可以根据实际情况进行设置，例如10帧、20帧。

在一些实施方式中，可以将预设数量帧关键点图像输入基于骨骼的行为识别算法(例如GCN、PoTion等)进行行为识别，以输出目标所发生行为的类别，作为姿态信息。姿态信息可以包括但不限于：坐、立、行走、下蹲等。

请参阅图6至图9，图6是图3中步骤S24中提取视线信息的流程示意图，图7是图像进行人脸检测后的示意图，图8是目标的人脸关键点的一示意图，图9是目标的眼动向量的一示意图。

如图6所示，当视觉信息包括视线信息时，利用目标的图像数据提取目标的视觉信息包括子步骤S2421～S2424：

步骤S2421：对目标的图像数据中的每帧图像进行人脸检测，得到目标的人脸图像和人脸关键点。

如图7所示，为对一帧图像进行人脸检测后的示意图，通过人脸检测可以将图像中的有效人脸检测出来，而被遮挡的无效人脸则不会被检测到。

具体地，可以利用人脸检测算法(例如RetinaFace_R50.whole)对每帧图像进行人脸检测，然后得到目标的人脸框和人脸关键点(如图8所示)，其中，人脸框包含4个特征点的(分别为人脸框的四个顶点)和人脸置信度评分(即4position+1score)，人脸关键点可以包括5个定位(例如脸型、五官、眼头、眼角、瞳孔等关键点)，其中包含虹膜中心和内眼角定位。在识别出人脸框之后，通过对人脸框区域内图像进行裁剪，即可得到人脸图像。

步骤S2422：利用目标的人脸图像和人脸关键点进行人脸对齐，得到对齐的人脸图像。

在一些实施方式中，可以将目标的人脸图像和人脸关键点作为人脸对齐算法(例如ArcFace_R50.backbone)的输入，从而输出对准到标准人脸关键点上的人脸图像。人脸对齐算法中可以采用相似变换。可选地，人脸对齐算法可以包括但不限于：ASM(Active ShapeModel，主动形状模型)、AAM(Active Appearance Model，主动外观模型)、CLM(ConstrainedLocal Model，有约束的局部模型)以及SDM(Supervised Descent Method，监督下降方法)等。

步骤S2423：将对齐的人脸图像进行特征嵌入，得到目标的人脸特征向量。

其中，特征嵌入的目的是将数据转换(降维)为固定大小的特征表示(矢量)，以便于处理和计算(如求距离)。对齐的人脸图像经过特征嵌入，可以转换为固定维度的特征向量。

步骤S2424：利用目标的人脸特征向量进行特征匹配，并将得到的目标的眼动向量作为视线信息。

其中，可以将目标的人脸特征向量作为特征匹配算法的输入，以输出目标的眼动向量。如图9所示，眼动向量的方向为目标的内眼角(x₀，y₀)指向虹膜中心(x₁，y₁)。

此外，在获得人脸五官(包括唇部)关键点之后，从而可以利用相关的唇部识别模型进行识别，从而得到目标的唇部信息。其中，唇部识别模型以采用神经网络(例如3D卷积和残差网络结构)。在训练阶段通过截取以唇形为中心的RGB图像区域，并根据唇形关键点生成关键点掩膜图(mask)用于提取唇形运动特征，并收集各种不同类型的噪声数据，用于模型训练时对音频数据添加噪声。

请参阅图10至图11，图10是头部姿态估计的场景示意图，图11是头部姿态估计中头部欧拉角计算的坐标系示意图。

在一些实施方式中，可以基于头部姿态估计与视觉注视估计的内在联系，即头部姿态可以大概提供目标凝视的方向，当观察不到人的眼睛的情况下(比如低分辨率图片，或者存在类似太阳镜遮挡物挡住眼睛，或者检测不到人脸情况下(戴口罩等))可以作为视线方向。经过实现证明，头部方向对整个视线方向的平均贡献度为68.9％，因此可以结合头部姿态估计来确定目标的视线信息。具体步骤可以包括：对目标的图像数据中的图像进行头部姿态估计，得到目标的头部偏转角度，然后结合目标的眼动向量和头部偏转角度，得到目标的视线信息。其中，可以将目标的图像数据中的图像作为头部姿态欧拉角预测模型的输入，以输出头部偏转角度，即欧拉角。头部姿态欧拉角预测模型的结构为一个multi-loss的卷积神经网络。

在一些实施方式中，当无法检测到人眼睛的情况下，则难以准确获得目标的眼动向量，此时，可以直接将目标的头部偏转角度作为目标的视线信息，以补偿检测不到人脸特征的情况。

头部姿态估计：通过一幅包含面部的图像来获得头部的偏转角度。如图10所示，为通过图像数据中的一帧图像进行头部姿态估计后的真实场景示意图，可以看到，通过头部姿态估计基本可以识别出每个人的头部偏转角度，从而补偿检测不到人脸特征的情况，将其作为目标的视线方向。如图11所示，在3D空间中，表示物体的旋转可以由三个欧拉角(Euler Angle)来表示：分别计算Pitch(围绕y轴旋转)，Yaw(围绕z轴旋转)和Roll(围绕x轴旋转)，学名分别为俯仰角、偏航角和滚转角，通俗讲就是抬头和点头，摇头(或左右偏头)和转头。下面提供了一种头部姿态欧拉角预测模型训练方法，通过结合分类和回归损失来预测欧拉角：

首先，对欧拉角按照角度区间进行分类，角度区间例如为3度，那么Yaw的范围为：-180～+180，分成360/3＝120个类别，Pitch和Roll的范围均为-99～+99，可以分为66个类别。由此，可以进行分类任务。具体地，对于每种类别的欧拉角，可以将预测的分类结果与实际的分类结果计算分类损失，从而可以得到Pitch、Yaw、Roll各自的分类损失。其中，可以采用交叉熵损失函数计算每种欧拉角的分类损失。

然后，可以对分类的结果恢复成实际的角度(例如类别*3-90)，再和实际的角度计算回归损失，由此可以得到Pitch、Yaw、Roll各自的回归损失。其中，可以采用MSE(均方误差)函数计算每种欧拉角的回归损失。

最后，将回归损失和分类损失进行合并来得到总损失，当每种欧拉角对应的总损失小于预设损失阈值或训练次数大于预设训练次数时，停止对头部姿态欧拉角预测模型的训练。预设损失阈值和预设训练次数可以根据实际情况进行设置，例如分别为0.1和1000。以上，使用分类和回归的范式进行约束，可以提升头部姿态估计的准确率。

请参阅图12，图12是图3中步骤S24中提取手势信息的流程示意图。

如图12所示，当视觉信息包括手势信息时，利用目标的图像数据提取目标的视觉信息包括子步骤S2431～S2433：

步骤S2431：对图像数据的每帧图像进行识别，得到目标的手部区域。

具体地，可以预先构建手部及人体检测算法，然后进行训练，得到手部及人体检测模型。将图像数据的每帧图像作为手部及人体检测模型的输入，以输出每帧图像中目标的手部区域。手部及人体检测模型可以一种深度学习模型。

步骤S2432：对目标的手部区域图像进行处理，得到目标的手势动作特征向量。

步骤S2433：基于目标的手势动作特征向量进行识别，得到目标的手势信息。

具体地，可以预先构建手势动作识别算法，然后进行训练，得到手势动作识别模型。将目标的手部区域图像作为手势动作识别模型的输入，以输出目标的手势动作特征向量，最后通过一个分类器对手势动作特征向量进行手势动作识别，以得到目标的手势类别，即手势信息。由此，基于训练好的手势动作识别模型，可以同时对目标的手势和动作进行识别。

其中，在对手势动作识别模型进行训练前，可以先确定手势与动作类别，然后采集所需类别的数据并进行预处理和标签化，以训练用于分类的深度学习模型。

在提取到目标一段时间的所有视觉信息(姿态信息、视线信息、手势信息等)之后，需要将它们集成在一起。由此，需要对行为识别统计的每个跟踪序列对应的目标进行验证，首先，将同一帧图像上跟踪序列记录的目标框与人脸识别中记录的人脸框使用匈牙利算法进行匹配，由此每个跟踪序列合并了人脸序列中记录的正向人脸，使用正向人脸进行验证，得到每个跟踪序列的身份，将属于同一个身份的跟踪序列依据时间顺序进行合并。由此便可将每个目标的姿态信息、视线信息等视觉信息合并在一起。

请参阅图13，图13是图3中步骤S24中提取听觉信息的流程示意图。

在本实施例中，利用目标的音频数据提取目标的听觉信息可以包括步骤S2441～S2443：

步骤S2441：利用目标的音频数据提取目标的声学特征。

声学特征可以但不限于包括：能量、基频、声音质量、频谱等相关的特征。本实施例中，可以利用目标的音频数据提取目标的语音频谱特征，例如梅尔倒谱系数特征(Mel-frequency cepstral coefficients，MFCC)。

步骤S2442：利用语言模型对音频数据进行处理得到音频数据中语句的概率。

具体地，语言模型(language model，LM)在自然语言处理中占有重要的地位，它的任务是预测一个句子在语言中出现的概率，从而了利用语言模型对音频数据进行处理可以得到音频数据中语句的概率。其中，语言模型采用循环神经网络与注意力机制。

步骤S2443：基于目标的声学特征和音频数据中语句的概率进行语音识别，得到目标的听觉信息。

对于语音识别，首先需要对声学特征进行分析，得到有序的特征向量，然后特征向量便可作为语音识别模型的输入，而语音识别模型则按序读取特征并输出对应的文字。其中，语音识别模型是一种深度学习模型。

步骤S25：基于目标的视觉信息和听觉信息，对教学设备进行控制。

请参阅图14至图16，图14是图3中步骤S25的另一实施方式的流程示意图，图15是目标看向控制设备各边缘的视线偏转角度，图16是教学空间的一平面示意图。

当视觉信息包括手势信息和视线信息时，步骤S25可以包括子步骤S251～S252：

步骤S251：基于手势信息确定目标的手势是否满足第一要求，基于视线信息确定目标的视线是否满足第二要求，以及基于听觉信息确定目标的语音是否满足第三要求。

其中，基于手势信息确定目标的手势是否满足第一要求可以是基于手势信息判断目标的手势类别是否与预设手势相同，若相同，则确定目标的手势满足第一要求，否则，则确定目标的手势不满足第一要求。预设手势例如为食指伸直，其余四指弯曲的手势，若目标的手势为该预设手势，说明目标的手指正有意指向某一物体，即有意图对该物体进行控制。

其中，基于视线信息确定目标的视线是否满足第二要求，包括：确定目标的视线阈值范围，然后基于视线信息，判断目标的视线是否位于视线阈值范围内，若是，则确定目标的视线满足第二要求，否则，则确定目标的视线不满足第二要求。为了避免目标手指误指到控制设备而进行操作，这时需要对视线阈值范围进行确认。

其中，基于听觉信息确定目标的语音是否满足第三要求可以是基于听觉信息判断目标的语音中是否包含关键字或关键词，若包含，则确定目标的语音满足第三要求，否则，则确定目标的语音不满足第三要求。或者，还可以对听觉信息进行语义识别，并通过语义分析判断目标是否有对教学设备进行控制的意图，若是，则确定目标的语音满足第三要求，否则，则确定目标的语音不满足第三要求。

在一些实施方式中，确定目标的视线阈值范围，包括：基于目标距离教学设备的水平距离和教学设备的长度，确定目标在水平方向的第一视线阈值范围；基于目标距离教学设备的水平距离、目标的视线高度和教学设备的宽度，确定目标在竖直方向的第二视线阈值范围。

在一具体示例中，如图15所示，首先依据教学空间建立的坐标系，例如以教室黑板(或电子白板)上沿中心点为坐标原点，以原点水平向右的方向为X轴正方向，以垂直原点方向为Y轴正方向，以垂直XY平面指向目标的方向为Z轴的正方向。设控制设备的长度为h，宽度为d，目标头部中心点坐标为F(x，y，z)，则视线阈值范围计算公式如下：

其中，α1、α2、β1、β2分别作为视线偏转异常的角度阈值，(α1，α2)即为目标在θYaw方向的视线阈值范围，(β1，β2)为目标θPitch方向的视线阈值范围。当头部旋转范围超出阈值时，即可认为目标的视线在控制设备之外，则判定为眼动无效。

如图16所示，A点为控制设备的中轴线上的点，B、C、D点分别位于教学空间第一排的最左侧、最中间、最右侧。当目标分别在教学空间的第一排的B和D点向控制设备左右边缘注视时，即为θYaw方向的头部最大旋转范围(即在θYaw的视线阈值范围)，记为公式(1)。当目标在C点向控制设备的上下边缘注视时，即为目标在θPitch方向的头部最大旋转范围(即θPitch方向的视线阈值范围)，记为公式(2)。通过反三角函数的计算，即可得到视线阈值范围。

步骤S252：当满足第三要求，且满足第一要求和/或第二要求时，对教学设备进行控制。

其中，当满足第三要求和第一要求时，对教学设备进行控制，或者，当满足第三要求和第二要求时，对教学设备进行控制，或者当三者同时满足时，才对教学设备进行控制。

在一实施方式中，在对教学设备进行控制是可以是根据听觉信息确定的控制指令对教学设备进行控制，例如目标直接说“关闭投影仪”，也可以根据视觉信息确定的控制指令对教学设备进行控制，例如“抬手-关闭/开启窗帘”等等，此处不做限制。

请参阅图17，图17是本申请教学设备的控制方法又一实施例的流程示意图。

在一些实施例中，在得到目标的音频数据之后还可以包括以下步骤：

步骤S26：将目标的音频数据转化为文本信息。

具体地，输入的音频数据一方面用于提取声学特征，另一方面，可以转化为文本用于语义韵律分析。

在步骤S27之前，还可以对得到的文本信息进行预处理，例如对语义的理解，以最大程度上消除歧义，之后按照语义韵律分析对文本信息进行断句和韵律生成。

步骤S27：对文本信息进行语义韵律分析，得到音频数据的韵律信息。

其中，韵律信息用于记录目标的音频数据中的韵律。

具体地，可以利用韵律处理模型对文本信息进行处理，以得到音频数据的韵律信息。对于语义与韵律分析，需要结合上下文甚至长篇文本对句子中的多音字、停顿、升降调、重读、语气、符号等内容与韵律进行充分的识别与定位，同时，需要对语气、重读等韵律进行夸张的处理，所以实际使用的韵律处理模型也需要进行对应的调校，以实现对语义和韵律进行准确的定位。

步骤S28：基于文本信息和韵律信息，得到合成语音。

具体地，可以使用深度学习模型按照文本信息和韵律信息生成波形，从而得到合成语音。其中，关于语音合成的具体步骤可以参见其他相关技术。

步骤S29：播放合成语音。

具体地，可以通过教学设备中的扬声器或蓝牙设备播放合成语音，通过播放合成语音，可以让目标确认语音识别是否准确。

在一应用场景中，通过控制设备对教学空间的硬件进行唤醒及操作控制。其中，控制设备是指对智慧教室的声、光、电等各种设备进行集中管理和控制的设备。教学系统包括智能中控设备、音视频矩阵、交换机、无线投屏、流媒体处理单元等。下面例举了几种对教学设备进行控制的方式：

(1)利用智能麦克风与教师端个人电脑(PC)，语音控制打开智慧教室教学平台管理系统，实现对教学过程进行课程录播、课堂直播；

(2)使用语音结合眼神、嘴型，结合手势动作，进一步明确操作对象，如操控黑板的展开与收缩、打开或关闭电子白板、打开或关闭投影仪或板书提取的小屏幕、调整摄像头的焦距等。

(3)使用语音或者接触式操作界面进行智慧课堂或考试巡检模式进行切换，智慧课堂实时分析学生课堂行为[睡觉、玩手机等]，针对异常行为进行提醒与记录，其中，考试巡检模式可以对疑似作弊进行“无死角”实时自动分析。

另外，本申请在教学空间中采用多模态交互可以有效消除歧义，并且对于需要一个描述准确的完整语句“我想打开录播软件进行录制”、“我想要进行无感考勤”的人机交互情况，多模态只需要手指向交互对象云桌面，再通过眼动追踪叠加语音便可准确地实现上述交互目的。对于人们口头经常说的“那、这”等代词在语义上容易产生多义性，使用手势就不会产生此类问题。例如假设教师站在教室中间，想通过教室前方位置上的摄像头，进行AI考场模式切换，他需要指向控制设备，然后眼睛转向控制设备，然后输出“开启考场模式”，就可以准确、快速切换至考场模式。

以上，本申请通过摄像头实时捕捉并接收视频流，进行目标检测与跟踪、人脸识别确认目标并建模，融合姿态、手势、眼神、嘴型及语音等多模态信息，通过多源信息的相互关联，实现进一步理解用户的真实意图，实现对智能教学设备进行唤醒及精准、快速的操作控制。

请参阅图18，图18为本申请控制设备一实施例的结构示意框图。

控制设备100包括采集模块110、提取模块120和控制模块130。其中，采集模块110用于对教学空间中的目标进行图像和音频采集，得到目标的图像数据和音频数据，其中，教学空间中包括教学设备。提取模块120用于利用目标的图像数据提取目标的视觉信息，以及利用目标的音频数据提取目标的听觉信息。控制模块130用于基于目标的视觉信息和听觉信息，对教学设备进行控制。

在一些实施方式中，视觉信息包括姿态信息、视线信息、手势信息、唇部信息中的至少一种。

在一些实施方式中，图像数据包括多帧图像，利用目标的图像数据提取目标的视觉信息之前，提取模块120还用于对图像数据中的目标进行识别与跟踪，得到目标的初始轨迹；基于目标的初始轨迹，将图像数据中的目标进行关联。

在一些实施方式中，对图像数据中的目标进行识别与跟踪，得到目标的初始轨迹，包括：利用目标的图像数据进行目标检测，得到至少一个目标的目标框；利用目标的图像数据进行三维点云重建，得到至少一个主体的点云；对至少一个主体的点云进行目标识别，确定至少一个目标对应的点云；以及利用目标的点云和目标框对目标进行跟踪，得到目标的初始轨迹。

在一些实施方式中，当视觉信息包括姿态信息时，提取模块120还用于为图像数据中的目标建立对应的跟踪序列；在跟踪序列对应的每帧图像中更新和记录目标的目标框；对每帧图像的目标框对应区域进行裁剪，得到目标的至少一个目标框区域图像；利用每个目标框区域图像进行姿态估计，得到目标的至少一个关键点图像；利用预设数量帧关键点图像进行行为识别，得到目标的姿态信息。

在一些实施方式中，当视觉信息包括视线信息时，提取模块120还用于对目标的图像数据中的每帧图像进行人脸检测，得到目标的人脸图像和人脸关键点；利用目标的人脸图像和人脸关键点进行人脸对齐，得到对齐的人脸图像；将对齐的人脸图像进行特征嵌入，得到目标的人脸特征向量；利用目标的人脸特征向量进行特征匹配，并将得到的目标的眼动向量作为视线信息。

在一些实施方式中，利用目标的人脸特征向量进行特征匹配，得到目标的眼动向量作为视线信息，包括：对目标的图像数据中的图像进行头部姿态估计，得到目标的头部偏转角度；结合目标的眼动向量和头部偏转角度，得到目标的视线信息。

在一些实施方式中，当视觉信息包括手势信息时，提取模块120还用于对图像数据的每帧图像进行识别，得到目标的手部区域；对目标的手部区域图像进行处理，得到目标的手势动作特征向量；基于目标的手势动作特征向量进行手势识别，得到目标的手势信息。

在一些实施方式中，利用目标的音频数据提取目标的听觉信息，包括：利用目标的音频数据提取目标的声学特征；利用语言模型对音频数据进行处理得到音频数据中语句的概率；基于目标的声学特征和音频数据中语句的概率进行语音识别，得到目标的听觉信息。

在一些实施方式中，当视觉信息包括手势信息和视线信息时，控制模块130还用于基于手势信息确定目标的手势是否满足第一要求，基于视线信息确定目标的视线是否满足第二要求，以及基于听觉信息确定目标的语音是否满足第三要求；当满足第三要求，且满足第一要求和/或第二要求时，对教学设备进行控制。

在一些实施方式中，基于视线信息确定目标的视线是否满足第二要求，包括：确定目标的视线阈值范围；基于视线信息，判断目标的视线是否位于视线阈值范围内；若是，则确定目标的视线满足第二要求。

关于上述步骤的阐述请参见前面方法实施例中的对应位置，此处不再赘述。

请参阅图19，图19是本申请控制设备另一实施例的结构示意框图。

控制设备200可以包括相互耦接的存储器210和处理器220，存储器210用于存储程序数据，处理器220用于执行程序数据以实现上述任一方法实施例中的步骤。控制设备200可以包括但不限于：个人电脑(例如，台式机、笔记本电脑、平板电脑、掌上电脑等)、手机、服务器、可穿戴设备，以及增强现实(augmented reality，简称：AR)、虚拟现实(virtualreality，简称：VR)设备、电视机等，在此不做限定。

具体而言，处理器220用于控制其自身以及存储器210以实现上述任一方法实施例中的步骤。处理器220还可以称为CPU(Central Processing Unit，中央处理单元)。处理器220可能是一种集成电路芯片，具有信号的处理能力。处理器220还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器220可以由多个集成电路芯片共同实现。

请参阅图20，图20是本申请教学系统一实施例的结构示意框图。

教学系统300可以包括上述任一实施例中的控制设备310，以及教学设备320，控制设备310与教学设备320通信连接，用于控制教学设备320。

其中，教学设备320包括以下至少一种：摄像设备、显示设备、音频设备、照明设备、遮光设备。摄像设备可以包括录播主机、4K摄像机、云台摄像机、板书相机。显示设备可以包括纳米黑板、智慧屏、互联黑板、投影仪等。音频设备可以包括音频主机、降噪拾音器、吊麦、无线麦、音频一体机、无线麦克风等。照明设备例如智能电灯、智能台灯等。遮光设备可以包括智能窗帘。控制设备310与教学设备320可以通过无线Ap进行连接。

请参阅图21，图21是本申请计算机可读存储介质一实施例的结构示意框图。

计算机可读存储介质400存储有程序数据410，程序数据410被处理器执行时，用以实现上述任一方法实施例中的步骤。

计算机可读存储介质400可以为U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等可以存储计算机程序的介质，也可以为存储有该计算机程序的服务器，该服务器可将存储的计算机程序发送给其他设备运行，或者也可以自运行该存储的计算机程序。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种教学设备的控制方法，其特征在于，包括：

对教学空间中的目标进行图像和音频采集，得到所述目标的图像数据和音频数据，其中，所述教学空间中包括教学设备；

利用所述目标的图像数据提取所述目标的视觉信息，以及利用所述目标的音频数据提取所述目标的听觉信息；

基于所述目标的视觉信息和听觉信息，对所述教学设备进行控制。

2.根据权利要求1中所述的方法，其特征在于，所述视觉信息包括姿态信息、视线信息、手势信息、唇部信息中的至少一种。

3.根据权利要求1中所述的方法，其特征在于，所述图像数据包括多帧图像，所述利用所述目标的图像数据提取所述目标的视觉信息之前，还包括：

对所述图像数据中的所述目标进行识别与跟踪，得到所述目标的初始轨迹；

基于所述目标的初始轨迹，将所述图像数据中的所述目标进行关联。

4.根据权利要求3中所述的方法，其特征在于，所述对所述图像数据中的所述目标进行识别与跟踪，得到所述目标的初始轨迹，包括：

利用所述目标的图像数据进行目标检测，得到至少一个目标的目标框；

利用所述目标的图像数据进行三维点云重建，得到至少一个主体的点云；

对至少一个所述主体的点云进行目标识别，确定至少一个所述目标对应的点云；以及

利用所述目标的点云和目标框对所述目标进行跟踪，得到所述目标的初始轨迹。

5.根据权利要求2中所述的方法，其特征在于，当所述视觉信息包括姿态信息时，

所述利用所述目标的图像数据提取所述目标的视觉信息，包括：

为所述图像数据中的所述目标建立对应的跟踪序列；

在所述跟踪序列对应的每帧图像中更新和记录所述目标的目标框；

对每帧图像的目标框对应区域进行裁剪，得到所述目标的至少一个目标框区域图像；

利用每个所述目标框区域图像进行姿态估计，得到所述目标的至少一个关键点图像；

利用预设数量帧关键点图像进行行为识别，得到所述目标的姿态信息。

6.根据权利要求2中所述的方法，其特征在于，当所述视觉信息包括视线信息时，

对所述目标的图像数据中的每帧图像进行人脸检测，得到所述目标的人脸图像和人脸关键点；

利用所述目标的人脸图像和人脸关键点进行人脸对齐，得到对齐的人脸图像；

将所述对齐的人脸图像进行特征嵌入，得到所述目标的人脸特征向量；

利用所述目标的人脸特征向量进行特征匹配，并将得到的所述目标的眼动向量作为视线信息。

7.根据权利要求6中所述的方法，其特征在于，

所述利用所述目标的人脸特征向量进行特征匹配，并将得到的所述目标的眼动向量作为视线信息，包括：

对所述目标的图像数据中的图像进行头部姿态估计，得到所述目标的头部偏转角度；

结合所述目标的眼动向量和头部偏转角度，得到所述目标的视线信息。

8.根据权利要求2中所述的方法，其特征在于，当所述视觉信息包括手势信息时，

对所述图像数据的每帧图像进行识别，得到所述目标的手部区域；

对所述目标的手部区域图像进行处理，得到所述目标的手势动作特征向量；

基于所述目标的手势动作特征向量进行手势识别，得到所述目标的手势信息。

9.根据权利要求1中所述的方法，其特征在于，

所述利用所述目标的音频数据提取所述目标的听觉信息，包括：

利用所述目标的音频数据提取所述目标的声学特征；

利用语言模型对所述音频数据进行处理得到所述音频数据中语句的概率；

基于所述目标的声学特征和所述音频数据中语句的概率进行语音识别，得到所述目标的听觉信息。

10.根据权利要求2中所述的方法，其特征在于，当所述视觉信息包括手势信息和视线信息时，

所述基于所述目标的视觉信息和听觉信息，对所述教学设备进行控制，包括：

基于所述手势信息确定所述目标的手势是否满足第一要求，基于所述视线信息确定所述目标的视线是否满足第二要求，以及基于所述听觉信息确定所述目标的语音是否满足第三要求；

当满足所述第三要求，且满足所述第一要求和/或所述第二要求时，对教学设备进行控制。

11.根据权利要求10中所述的方法，其特征在于，所述基于所述视线信息确定所述目标的视线是否满足第二要求，包括：

确定所述目标的视线阈值范围；

基于所述视线信息，判断所述目标的视线是否位于所述视线阈值范围内；

若是，则确定所述目标的视线满足所述第二要求。

12.根据权利要求11中所述的方法，其特征在于，

所述确定所述目标的视线阈值范围，包括：

基于所述目标距离所述教学设备的水平距离和所述教学设备的长度，确定所述目标在水平方向的第一视线阈值范围；

基于所述目标距离所述教学设备的水平距离、所述目标的视线高度和所述教学设备的宽度，确定所述目标在竖直方向的第二视线阈值范围。

13.一种控制设备，其特征在于，包括：

采集模块，用于对教学空间中的目标进行图像和音频采集，得到所述目标的图像数据和音频数据，其中，所述教学空间中包括教学设备；

提取模块，用于利用所述目标的图像数据提取所述目标的视觉信息，以及利用所述目标的音频数据提取所述目标的听觉信息；

控制模块，用于基于所述目标的视觉信息和听觉信息，对所述教学设备进行控制。

14.一种控制设备，其特征在于，所述控制设备包括相互耦接的存储器和处理器，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现如权利要求1-12任一项所述的方法。

15.一种教学系统，其特征在于，包括如权利要求14所述的控制设备，以及教学设备，所述控制设备与所述教学设备通信连接，用于控制所述教学设备。

16.根据权利要求15中所述的教学系统，其特征在于，所述教学设备包括以下至少一种：摄像设备、显示设备、音频设备、照明设备、遮光设备。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序数据，所述程序数据在被处理器执行时，用以实现如权利要求1-12任一项所述的方法。