CN114255426A

CN114255426A - 一种基于视频识别和语音分离技术的学生专注度评估系统

Info

Publication number: CN114255426A
Application number: CN202111565940.1A
Authority: CN
Inventors: 高延增; 郭俊云
Original assignee: Guangzhou Qianhui Information Technology Co ltd; Jiaying University
Current assignee: Guangzhou Qianhui Information Technology Co ltd; Jiaying University
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-03-29

Abstract

本发明公开了一种基于视频识别和语音分离技术的学生专注度评估系统，包括网络服务器以及通过互联网同时与该网络服务器连接的视频监控器、拾音器和显示终端，网络服务器由本地服务器和云平台组成，本地服务器对采集的姿态、表情图像信息和语音数据分别进行预处理和模式识别，而且根据每个学生的姿态、表情图像信息和语音数据处理结果相结合给出专注度评估结果。可以在线下教室中使用视频识别手段检测每个学生的肢体动作、通过语音分离与识别手段检测每个学生在课上是否在讲话以及讲话内容是否和课堂主题相关，借助姿态和语音检测的结果对整个教室中的每个学生进行学习专注度评估并实时展示给任课老师。

Description

一种基于视频识别和语音分离技术的学生专注度评估系统

技术领域

本发明涉及智能教室用设备技术领域，具体为一种基于视频识别和语音分离技术的学生专注度评估系统。

背景技术

目前，公知的智慧教室系统以对教室的空调、门禁、黑板、音视频等设备的智能控制为主，少有学生专注度评估功能；而公知的专注度评估解决方案，以单个学生的评估为主，多需要头戴式设备的配合，仅适用于在线学习，而不利于线下教室中使用。但是，当今学生“双减”的迫切需求与社会知识累积变多、变难相矛盾，所以必须提高学习效率；而学生在学习过程中提高专注度是提高学习效率的必要前提，因此专注度评估是智慧教室不可缺少的组成部分。

发明内容

为了克服现有技术方案的不足，本发明提供一种基于视频识别和语音分离技术的学生专注度评估系统，能有效地解决背景技术提出的问题。

本发明解决其技术问题所采用的技术方案是：

一种基于视频识别和语音分离技术的学生专注度评估系统，包括网络服务器以及通过互联网同时与该网络服务器连接的视频监控器、拾音器和显示终端，所述网络服务器由本地服务器和云平台组成，所述视频监控器的数量至少为两个且用于多角度采集学生上课的姿态、表情图像信息，所述拾音器的数量至少为两个且用于采集学生上课时说话的语音数据，所述本地服务器对采集的姿态、表情图像信息和语音数据分别进行预处理和模型识别，而且根据每个学生的姿态、表情图像信息和语音数据处理结果相结合给出专注度评估结果并存放于云平台内，所述云平台内设有与显示终端连接的开放接口。

进一步地，所述显示终端包括有PC电脑、移动端以及置于教室后端的数据看板，所述移动端配置了与用户连接的权限模块。

进一步地，所述本地服务器预处理接收学生的姿态图像信息并进行头像切割，同时接收该学生的语音数据并进行语音分离。

进一步地，所述本地服务器模型识别是一种基于深度神经网络的算法模型，该算法模型包括表情识别模型、姿态识别模型和语音识别模型。

与现有技术相比，本发明的有益效果是：

（1）本发明的系统能通过图像视频手段自动辨识每位学生，并能自动识别每个学生的面部动作、肢体动作等行为特征，还能通过语音分离与识别技术判断学生在课堂上是否讲话、讲话内容是否和课堂相关，并根据学生辨识结果和行为识别结果自动评估每位学生上课的专注程度，并能实时展示并储存评分并将评分实时展示给任课老师，整个评估过程由智能算法模型自动给出结果，人工干预少，结果更客观可靠，能有效提升教学效果。

（2）本发明可以在线下教室中使用视频识别手段检测每个学生的肢体动作、通过语音分离与识别手段检测每个学生在课上是否在讲话以及讲话内容是否和课堂主题相关，借助姿态和语音检测的结果对整个教室中的每个学生进行学习专注度评估并实时展示给任课老师，系统的硬件组成简单、易于安装使用。

附图说明

图1为本发明硬件设备安装示意图；

图2为本发明总体框架示意图；

图3为本发明内部流程示意图。

图中标示：

1-教室，2-讲台，3-视频监控器，4-拾音器，5-本地服务器，6-数据看板。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于视频识别和语音分离技术的学生专注度评估系统，包括网络服务器以及通过互联网同时与该网络服务器连接的视频监控器3、拾音器4和显示终端，所述网络服务器由本地服务器5和云平台组成，所述视频监控器3的数量至少为两个且用于多角度采集学生上课的姿态、表情图像信息，所述拾音器4的数量至少为两个且用于采集学生上课时说话的语音数据，所述本地服务器5对采集的姿态、表情图像信息和语音数据分别进行预处理和模型识别，而且根据每个学生的姿态、表情图像信息和语音数据处理结果相结合给出专注度评估结果并存放于云平台内，所述云平台内设有与显示终端连接的开放接口，该发明的技术方案主要用于基于视频识别和语音分离技术的智能教室用学生专注度评估，如图1所示，在硬件安装时，两个高清的视频监控器3分别安装在讲台上方两侧，内部设有与云平台配合的云台，能够左右移动将整个教室1中所有学生都摄入监控画面中，拾音器4一般采用麦克风构成麦克风阵列，可以安装在教室1四周墙壁或者天花板上，本地服务器5内部安装了路由器或者交换机，同时还配有弱电箱，可以将教室1内部的设备连入互联网。

本发明所述系统的顺利实施，由本地服务器5和云平台配合使用，本地服务器5负责当前教室1的视频、语音信号的识别，识别结果在本地数据看板6上显示的同时通过网络推送到云平台存储；终端用户可以通过网络浏览器、移动端等设备进行远程访问；云平台除了负责评估数据的存储、显示、统计分析等任务外，还负责各种识别模型的升级包推送。

如图2所示，本发明从左至右为专注度评估系统中数据的一般处理流程。首先，学生上课姿态、表情的视频图像数据通过视频监控器3被采集到，说话的语音数据通过拾音器4被采集到；然后，图像视频数据中的每个学生被切割出来单独处理、进行姿态和表情识别，每个学生的语音数据也被分离出来进行语音内容识别；再然后，将每个学生的姿态、表情识别结果和语音识别结果相结合给出该学生的专注度评估结果；最后，将学生专注度评估结果存入数据库中，根据权限管理模块的配置要求有筛选的通过各种终端提供给最终用户使用，显示终端包括有PC电脑、移动端以及置于教室后端的数据看板6，移动端配置了与用户连接的权限模块。其中，所示的本地服务器5可以由云平台使用虚拟主机来替代，或以学校为单位的网络中心机房中使用本地服务器集群为多个教室提供模型识别服务。

如图3所示，学生专注度评估的核心算法的处理流程图，大体上分为数据预处理、模型识别两个阶段。而“模型识别”阶段所使用的识别模型，是事先已经训练好的基于深度神经网络的算法模型。

所述本地服务器5预处理接收学生的姿态图像信息并进行头像切割，同时接收该学生的语音数据并进行语音分离。预处理阶段的任务包括视频监控信号的预处理、拾音器信号的预处理两类。视频信号的预处理任务，先是将整个教室监控视频中的单个学生图像切割出来，然后进行学生身份辨识，然后将每个学生的头像切分出来为后续表情识别准备。语音预处理的主要任务是语音分离，首先由多个拾音器构成的麦克风阵列语音信号进行声源定位，结合视频图像处理的身份辨识和口型识别结果对语音进行分离，识别出语音由哪个学生发出。

模式识别阶段，是将预处理阶段的视频结果和语音结果进行识别，根据识别结果进行学生专注度的综合评估。本地服务器5模式识别是一种基于深度神经网络的算法模型，该算法模型包括表情识别模型、姿态识别模型和语音识别模型。视频图像的识别模型（表情识别模型、姿态识别模型）是基于卷积神经网络技术构建的、语音识别模型是基于长短时记忆网络构建的，而模型的训练运算量巨大可以在系统供应商的GPU集群中进行，训练好的模型可以由云平台进行升级推送。

本发明创造构建一套专用于智慧教室的学生上课专注度评估系统，系统由教室中安装的硬件设施、网络云平台、深度学习模型训练用的GPU集群组成。教室中安装的硬件至少应包括：高清视频监控、麦克风阵列、数据看板。

专注度评估系统的工作流程包括以几个步聚：

（1）模型训练：首先需要海量的数据集对基于深度学习的识别模型进行训练，通过测试的模型才能部署于学生专注度评估的生产环境中，而训练集（测试集）准备的首要工作是对视频和语音信号的标注；

（2）模型部署：为节约网络流量和提升响应速度，识别模型需要被部署到本地服务器中，本地服务器可以在教室中安装也可以安装在学校机房中；

（3）数据采集：使用高清视频监控设备、拾音设备获取学生上课过程的视频和语音信号并上传到本地服务器；

（4）数据预处理：视频和语音信号的预处理，主要是图像分割和语音分离的实现，图像和语音辨识；

（5）数据识别：学生姿态、表情识别，学生语音内容识别，根据姿态、表情、语音内容的识别结果给出学生专注度的综合评估结果；

（6）结果存储与使用：结果存储，学生专注度评估的结果存储于本地服务器，智慧教室的管理员可以根据实际情况将配置数据结果是否推送到云服务器；结果展示，在教室的数据看板上实时展示教室学生的统计结果和需要重点关注的个别学生的信息供正在上课的教师使用，家长、教务人员、学生等可以通过手机、电脑等终端设备查看历史记录。

与传统技术相比，本发明的系统能通过图像视频手段自动辨识每位学生，并能自动识别每个学生的面部动作、肢体动作等行为特征，还能通过语音分离与识别技术判断学生在课堂上是否讲话、讲话内容是否和课堂相关，并根据学生辨识结果和行为识别结果自动评估每位学生上课的专注程度，并能实时展示并储存评分并将评分实时展示给任课老师，整个评估过程由智能算法模型自动给出结果，人工干预少，结果更客观可靠，能有效提升教学效果。

本发明也可以在线下教室中使用视频识别手段检测每个学生的肢体动作、通过语音分离与识别手段检测每个学生在课上是否在讲话以及讲话内容是否和课堂主题相关，借助姿态和语音检测的结果对整个教室中的每个学生进行学习专注度评估并实时展示给任课老师，系统的硬件组成简单、易于安装使用。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于视频识别和语音分离技术的学生专注度评估系统，其特征在于：包括网络服务器以及通过互联网同时与该网络服务器连接的视频监控器、拾音器和显示终端，所述网络服务器由本地服务器和云平台组成，所述视频监控器的数量至少为两个且用于多角度采集学生上课的姿态、表情图像信息，所述拾音器的数量至少为两个且用于采集学生上课时说话的语音数据，所述本地服务器对采集的姿态、表情图像信息和语音数据分别进行预处理和模型识别，而且根据每个学生的姿态、表情图像信息和语音数据处理结果相结合给出专注度评估结果并存放于云平台内，所述云平台内设有与显示终端连接的开放接口。

2.根据权利要求1所述的一种基于视频识别和语音分离技术的学生专注度评估系统，其特征在于：所述显示终端包括有PC电脑、移动端以及置于教室后端的数据看板，所述移动端配置了与用户连接的权限模块。

3.根据权利要求1所述的一种基于视频识别和语音分离技术的学生专注度评估系统，其特征在于：所述本地服务器预处理接收学生的姿态图像信息并进行头像切割，同时接收该学生的语音数据并进行语音分离。

4.根据权利要求1所述的一种基于视频识别和语音分离技术的学生专注度评估系统，其特征在于：所述本地服务器模型识别是一种基于深度神经网络的算法模型，该算法模型包括表情识别模型、姿态识别模型和语音识别模型。