CN112270277A

CN112270277A - 基于人工智能技术的网课在线学生学习行为识别系统

Info

Publication number: CN112270277A
Application number: CN202011203539.9A
Authority: CN
Inventors: 涂宏斌; 高晓飞; 李�杰; 聂芳华; 张航; 罗琨; 丁莉; 杜变霞
Original assignee: Hunan Great Wall Science And Technology Information Co ltd
Current assignee: Hunan Great Wall Science And Technology Information Co ltd
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-01-26

Abstract

本发明提供了一种基于人工智能技术的网课在线学生学习行为识别系统。所述基于人工智能技术的网课在线学生学习行为识别系统包括人体表情识别系统或/和人体行为识别系统，所述人体表情识别系统识别学生包括厌倦、疲惫的微表情，所述人体行为识别系统识别学生包括打瞌睡、视线不专注、开小差的行为，所述人体表情识别系统或/和人体行为识别系统通过深度学习神经网络识别学生学习状态，输出学生学习状态效果。本发明能够实现对上网络课学生学习状体的自动识别，对教师授课效果评估提供数据支持。

Description

基于人工智能技术的网课在线学生学习行为识别系统

技术领域

本发明涉及网络教学技术领域，特别涉及一种基于人工智能技术的网课在线学生学习行为识别系统。

背景技术

上网课评估教学效果中，学生的学习状态是重要的评判指标。以往都是通过教师目测人为评估学生的上课状态，缺乏定量分析依据，教师授课效果评估无数据支持。再进行网课学习时，难以对网课学习中的学生表情和行为(举手、打瞌睡和开小差等)进行识别。对于学生厌倦、疲惫的微表情、打瞌睡、看课件不专注和趴在桌上睡觉等行为难以识别统计，不能评估出学生上课状态，难以了解教师的授课效果。

发明内容

本发明提供了一种基于人工智能技术的网课在线学生学习行为识别系统，其目的是为了解决背景技术中学生举手、打瞌睡和开小差等表情和行为难以进行识别，教师授课效果评估无数据支持的技术问题。

为了达到上述目的，本发明的实施例提供的基于人工智能技术的网课在线学生学习行为识别系统，包括人体表情识别系统或/和人体行为识别系统，所述人体表情识别系统识别学生包括厌倦、疲惫的微表情，所述人体行为识别系统识别学生包括打瞌睡、视线不专注、开小差的行为，所述人体表情识别系统或/和人体行为识别系统通过深度学习神经网络识别学生学习状态，输出学生学习状态效果。

优选地，所述人体表情识别系统包括如下步骤：

步骤S1、人脸检测及人脸规范化：采用多任务级联卷积神经网络实现人脸框及人脸关键点的回归；

步骤S2、人脸信息修复：通过生成对抗网络拟合出学生人脸完整信息，如果步骤S1中人脸信息完整，则跳过此步骤；

步骤S3、人脸表情识别：将完整人脸图像输入至人脸表情识别模块，输出为确认的人脸表情信息的网络架构。

优选地，所述人体行为识别系统具体包括如下步骤：

步骤S4、学生定位检测：从环境中定位学生的位置；

步骤S5、学生局部信息修复：通过生成对抗网络拟合出学生人脸局部完整信息，以获取学生局部完整信息；

步骤S6、学生行为识别：通过学生行为识别模块，输出为确认的学生上课行为。

优选地，所述步骤S5中进行学生局部信息修复与所述步骤S2中人脸信息修复均采用生成对抗网络的方式进行局部信息修复，所述步骤S6中的学生行为识别与所述步骤S3中的人脸表情识别均采用深度学习神经网络的方法进行识别。

优选地，所述步骤S1包括如下步骤：

步骤S11、获得多尺寸的人脸目标图像：通过多任务级联卷积神经网络构建图像金字塔，再通过图像金字塔的缩放公式将图像压缩成不同尺寸的人脸目标图像金字塔；

步骤S12、将特定尺寸的图像金字塔输入P-Net卷积神经网络进行校准，给出人脸框的回归和人脸关键点；

步骤S13、将特定尺寸的图像金字塔输入R-Net卷积神经网络，去除大量的非人脸框；

步骤S14、将特定尺寸的图像金字塔输入O-Net卷积神经网络，给出人脸关键点的回归；

步骤S15、将通过多任务级联卷积神经网络得到的对齐人脸图像最终校准，调整得到大小统一的图像。

优选地，所述步骤S11中，图像金字塔的缩放公式如下：

n取任意自然数；

上式中12代表经过高斯金字塔得到图片的最小尺寸，n是指图像金字塔能够缩放出的图片数量，dst：destination目标图尺寸大小，src:source原图尺寸大小，factor为缩放比例，minisize为最小人脸尺寸；

所述步骤S12具体为：P-Net为人脸区域的候选网络，向网络输入一个X*Y*Z尺寸的金字塔图像，通过Z层的卷积之后，判断这个X*Y的图像中是否存在人脸，并利用非极大化抑制算法校准边框，给出人脸框的回归和人脸关键点；

所述步骤S13中，将得到的人脸框大小变更到2X*2Y*Z，并输入到R-Net中，R-Net多了一个全连接层，进行抑制取伪；

所述步骤S14中，将得到的人脸框大小变更到4X*4Y*Z，并输入到O-Net中，O-Net比R-Net层多一层卷积层，负责人脸关键点回归，最终得到人脸关键位置和关键点。

优选地，所述步骤S4、学生定位检测具体为采用基于方向梯度直方图的图像特征融合方法进行定位检测，具体为采用视觉激活度来选择具有显著方向性的局部梯度统计值，构成融合的方向梯度直方图，把这些融合特征输入线性支持向量机，训练得到人体、背景二元分类器，用于人体检测。

优选地，所述步骤S2、人脸信息修复包括如下步骤：

步骤S21、选择keras作为深度学习的框架搭建平台，并使用卷积神经网络作为遮挡局部信息的复原网络模型，创建用于遮挡图像修复的深度卷积神经网络模型；

步骤S22、搭建学生局部信息图像修复模型；

步骤S23、编译模型，使用交叉熵损失函数，优化函数为Adam算法函数；

步骤S24、使用真实遮挡识别数据集训练模型：开始训练，首先训练生成器得到一个模糊的填补内容，接着加入判别器对抗训练，使得生成对抗网络模型达到平衡；

步骤S25、使用测试集对模型进行验证；

步骤S26、保存训练结果的网络模拟文件；

步骤S27、模型训练完成后，进入遮挡图像修复阶段：将特定尺寸M*N的对齐遮挡图像输入模型中，通过模型拟合出被遮挡的部分，得到一张完整图像。

优选地，所述步骤S27中遮挡图像修复中的生成模型搭建具体包括如下步骤：

步骤S2701、将遮挡图像输入第一层卷积层，该层包含64个卷积核，每个卷积核的大小为3*3，步长为1，对遮挡图像进行卷积操作并获得特征图；

步骤S2702、第一层输出层后面紧接着一个归一化层和激活层，激活函数是Relu；

步骤S2703、将步骤S2701、步骤S2702操作重复一次；

步骤S2704、将卷积层输出的特征图连接至最大池化层，竖直和水平方向上的下采样因子分别取(2，2)，获得池化后特征图；

步骤S2705、将池化后特征图连接至第三个卷积层，该层包含128个卷积核，每个卷积核的大小为3*3，步长为1，对遮挡图像进行卷积操作并获得特征图；

步骤S2706、输出层后面紧接着一个归一化层和激活层，激活函数是Relu；

步骤S2707、将步骤S2705、步骤S2706操作重复一次；

步骤S2708、将卷积层输出的特征图连接至最大池化层，竖直和水平方向上的下采样因子分别取(2，2)，获得池化后特征图；

步骤S2709、将池化后特征图连接至第五个卷积层，该层包含256个卷积核，每个卷积核的大小为3*3，步长为1，对遮挡图像进行卷积操作并获得特征图；

步骤S2710、输出层后面紧接着一个归一化层和激活层，激活函数是Relu；

步骤S2711、将步骤S2709、步骤S2710操作重复三次；

步骤S2712、将卷积层输出的特征图连接至最大池化层，竖直和水平方向上的下采样因子分别取(2，2)，获得池化后特征图；

步骤S2713、将池化后特征图连接至第九个卷积层，该层包含512个卷积核，每个卷积核的大小为3*3，步长为1，对遮挡图像进行卷积操作并获得特征图；

步骤S2714、输出层后面紧接着一个归一化层和激活层，激活函数是Relu；

步骤S2715、将步骤S2713、步骤S2714操作重复一次；

步骤S2716、将卷积层输出的特征图连接至最大池化层，竖直和水平方向上的下采样因子分别取(2，2)，获得池化后特征图；

步骤S2717、将池化特征图经过扁平层，将多维输入转换为一维特征向量。

步骤S2718、然后连接全连接层，输出节点为1024个；

步骤S2719、解码器的过程，解码器与编码器互为逆过程，编码器中是下采样，解码器是上采样。

优选地，所述步骤S3、人脸表情识别具体包括如下步骤：

步骤S31、选择keras作为深度学习的框架搭建平台，并使用深度卷积神经网络作为人脸身份识别，创建用于人脸身份识别的分类器模型；

步骤S32、搭建人脸表情识别的分类器模型；

步骤S33、开始训练，将生成器，判别器与分类器一起训练：起初使用修复图像和无遮挡图像各一半训练判别器，只使用无遮挡图像训练分类器，经过50次迭代后，将修复图像也加入分类器进行训练；

步骤S34、使用测试集对模型进行验证；

步骤S35、保存训练结果的网络模拟文件；

步骤S36、将遮挡图像输入模型中与数据库中的人脸表情信息比对；

步骤S37、获取人脸表情信息并输出。

采用本发明能达到的技术效果有：提供了一种基于人工智能技术的网课在线学生学习行为识别系统，在进行的网课学习时，对网课学习中的学生表情和行为(举手、打瞌睡和开小差等)进行识别。首先通过上网课的手机或者笔记本电脑摄像头实时拍摄上课学生的视频图像；然后设计软件模块，分为学生表情识别，用来识别学生厌倦、疲惫的微表情；同时设计学生打瞌睡、看课件不专注和趴在桌上睡觉等行为识别系统。最后，设计深度学习网络，将学生表情、上课常见行为特征组合，最终识别出学生上课状态，为教师授课效果评估提供数据依据。

附图说明

图1为本发明的基于人工智能技术的网课在线学生学习行为识别系统的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的问题，提供了一种基于人工智能技术的网课在线学生学习行为识别系统，如图1所示，包括人体表情识别系统或/和人体行为识别系统，所述人体表情识别系统识别学生包括厌倦、疲惫的微表情，所述人体行为识别系统识别学生包括打瞌睡、视线不专注、开小差的行为，所述人体表情识别系统或/和人体行为识别系统通过深度学习神经网络识别学生学习状态，输出学生学习状态效果。

所述人体表情识别系统包括如下步骤：

所述人体行为识别系统具体包括如下步骤：

步骤S4、学生定位检测：从环境中定位学生的位置；具体为采用基于方向梯度直方图的图像特征融合方法进行定位检测，具体为采用视觉激活度来选择具有显著方向性的局部梯度统计值，构成融合的方向梯度直方图，把这些融合特征输入线性支持向量机，训练得到人体、背景二元分类器，用于人体检测；

所述步骤S1包括如下步骤：

图像金字塔的缩放公式如下：

n取任意自然数；

步骤S12、将特定尺寸的图像金字塔输入P-Net卷积神经网络进行校准，给出人脸框的回归和人脸关键点；具体为：P-Net为人脸区域的候选网络，向网络输入一个X*Y*Z尺寸的金字塔图像，通过Z层的卷积之后，判断这个X*Y的图像中是否存在人脸，并利用非极大化抑制算法校准边框，给出人脸框的回归和人脸关键点；

步骤S13、将特定尺寸的图像金字塔输入R-Net卷积神经网络，去除大量的非人脸框；将得到的人脸框大小变更到2X*2Y*Z，并输入到R-Net中，R-Net多了一个全连接层，进行抑制取伪；

步骤S14、将特定尺寸的图像金字塔输入O-Net卷积神经网络，给出人脸关键点的回归；将得到的人脸框大小变更到4X*4Y*Z，并输入到O-Net中，O-Net比R-Net层多一层卷积层，负责人脸关键点回归，最终得到人脸关键位置和关键点；

在本发明的一较佳实施例中，所述步骤S1、人脸检测及人脸规范化具体为：

1.首先多任务级联卷积神经网络MTCNN网络构建图像金字塔，将同一张图像通过下采样进行压缩成不同的尺度生成图像金字塔来解决人脸目标的多尺度问题。图像金字塔的缩放公式如下：

n取任意自然数；

2.将金字塔图像送入P-Net，P-Net是一个人脸区域的候选网络，该网络的输入一个12*12*3的图像，通过3层的卷积之后，判断这个12*12的图像中是否存在人脸，并利用非极大化抑制算法(non-maximum suppression)NMS校准边框，给出人脸框的回归和人脸关键点。

P-Net的模型输入为12*12*3大小的图片，通过10个3*3*3的卷积核，2*2的MaxPoolin最大池化层(stride＝2)操作，生成10个5*5的特征图。接着通过16个3*3*10的卷积核，生成16个3*3的特征图。接着通过32个3*3*16的卷积核，生成32个1*1的特征图。最后针对32个1*1的特征图，可以通过2个1*1*32的卷积核，生成2个1*1的特征图用于分类；4个1*1*32的卷积核，生成4个1*1的特征图用于回归框判断；10个1*1*32的卷积核，生成10个1*1的特征图用于人脸轮廓点的判断。

3.在输入R-Net之前，将得到的人脸框大小resize到24*24*3，由于R-Net多了一个全连接层，所以会取得更好的抑制false-positive(取伪)的作用。R-Net的输出与P-Net是相同的，R-Net的目的是为了去除大量的非人脸框。

R-Net模型输入为24*24*3大小的图片，通过28个3*3*3的卷积核和3*3(stride＝2)的max pooling后生成28个11*11的特征图；通过48个3*3*28的卷积核和3*3(stride＝2)的max pooling后生成48个4*4的特征图；通过64个2*2*48的卷积核后，生成64个3*3的特征图；把3*3*64的特征图转换为128大小的全连接层；对回归框分类问题转换为大小为2的全连接层；对bounding box(边界框)的位置回归问题，转换为大小为4的全连接层；对人脸轮廓关键点转换为大小为10的全连接层。

4.在输入O-Net之前，将得到的人脸框大小resize到48*48*3，由于O-Net比R-Net层有多了一层卷积层，所以处理的结果会更加精细。O-Net负责人脸关键点回归，最终得到人脸关键位置和关键点。

O-Net模型输入是一个48*48*3大小的图片，通过32个3*3*3的卷积核和3*3(stride＝2)的max pooling后转换为32个23*23的特征图；通过64个3*3*32的卷积核和3*3(stride＝2)的max pooling后转换为64个10*10的特征图；通过64个3*3*64的卷积核和3*3(stride＝2)的max pooling后转换为64个4*4的特征图；通过128个2*2*64的卷积核转换为128个3*3的特征图；通过全链接操作转换为256大小的全链接层；最好生成大小为2的回归框分类特征；大小为4的回归框位置的回归特征；大小为10的人脸轮廓位置回归特征。

5.将通过多任务级联卷积神经网络(Multi-task convolutional neuralnetwork,MTCNN)得到的对齐人脸图像最终校准后统一将图像的大小调整为128*128。

所述步骤S2、人脸信息修复包括如下步骤：

步骤S22、搭建学生局部信息图像修复模型；

步骤S24、使用真实遮挡识别数据集(RMFRD)训练模型：开始训练，首先训练生成器得到一个模糊的填补内容，接着加入判别器对抗训练，使得生成对抗网络模型达到平衡；

步骤S25、使用测试集对模型进行验证；

步骤S26、保存训练结果的网络模拟文件；

所述步骤S27中遮挡图像修复中的生成模型(由编码器和解码器组成)搭建具体包括如下步骤：

步骤S2703、将步骤S2701、步骤S2702操作重复一次；

步骤S2707、将步骤S2705、步骤S2706操作重复一次；

步骤S2711、将步骤S2709、步骤S2710操作重复三次；

步骤S2715、将步骤S2713、步骤S2714操作重复一次；

步骤S2718、然后连接全连接层，输出节点为1024个；

步骤S2719、以上步骤S2701-步骤S2718是编码器的全过程，接下来是是解码器的过程，解码器与编码器互为逆过程，只是编码器中是下采样，解码器是上采样。

另外遮挡图像修复中的判别模型需要将特征提取部分和后续的人脸表情识别的特征提取部分整合起来，需要一个网络更深，结构更好的深度卷积神经网络。因此本技术基于VGG16构建判别器。

所述步骤S5中进行学生局部信息修复与所述步骤S2中人脸信息修复均采用生成对抗网络的方式进行局部信息修复。

所述步骤S5中，对在复杂的教室环境中，需要快速获取学生局部完整信息来判断学生的学习状态。由于教室空间有限，大部分学生存在被遮挡的情况出现，因此通过生成对抗网络拟合出学生人脸局部完整信息用于学生行为识别来判断学生的学习状态。

所述步骤S5具体为：

步骤S51、选择keras作为深度学习的框架搭建平台，并使用卷积神经网络作为遮挡学生局部信息的复原网络模型，创建用于遮挡图像修复的深度卷积神经网络模型。

步骤S52、搭建学生局部遮挡图像修复模型。

步骤S53、编译模型，使用交叉熵损失函数，优化函数为Adam。

步骤S54、使用上述方案中已经训练好的网络模型进行训练。开始训练，首先训练生成器得到一个模糊的填补内容，接着加入判别器对抗训练，使得GAN模型达到平衡。其中训练的迭代次数设为50次，每个batch包含的样本数为100。

步骤S55、使用测试集对模型进行验证。

步骤S56、保存训练结果的网络模拟文件。

步骤S57、模型训练完成后，进入学生局部遮挡图像修复阶段。将的学生局部遮挡图像输入模型中，通过模型拟合出被遮挡的部分，得到一张完整图像。

其中生成器与判别器的具体搭建步骤与上述所述步骤S27中方案一致。

所述步骤S3、人脸表情识别具体包括如下步骤：

步骤S32、搭建人脸表情识别的分类器模型；

步骤S34、使用测试集对模型进行验证；

步骤S35、保存训练结果的网络模拟文件；

步骤S37、获取人脸表情信息并输出。

其中由于判别器在不断训练中加强了人脸的特征提取能力，所以分类器共享了判别器的部分卷积层和池化层来提取特征。总体上分类器由特征提取层，两层全连接层和softmax(深度学习输出层的激励函数)分类层构成。

所述步骤S6中的学生行为识别与所述步骤S3中的人脸表情识别均采用深度学习网络神经网络的方法进行识别。

由进行图像修复得到的学生图像进入学生行为识别模块，输出为确认的学生上课行为。所述步骤S6主要包含以下步骤：

步骤S61、选择keras作为深度学习的框架搭建平台，并使用深度卷积神经网络作为学生行为识别的网络架构，创建用于学生行为识别的分类器模型。

步骤S62、搭建学生行为识别的分类器模型。

步骤S63、开始训练，将生成器，判别器与分类器一起训练。起初使用修复图像和无遮挡图像各一半训练判别器，只使用无遮挡图像训练分类器，经过50次迭代后，将修复图像也加入分类器进行训练。

步骤S64、使用测试集对模型进行验证。

步骤S65、保存训练结果的网络模拟文件。

步骤S66、将学生局部遮挡图像输入模型中与数据库中的行为信息比对，获取学生行为来判断学生的学习状态。

步骤S67、获取学生的学习状态。

最后，将两种方式结合起来，利用学生表情、上课常见行为特征组合，最终识别出学生上课状态，为教师授课效果评估提供数据依据。

采用本发明所提供的基于人工智能技术的网课在线学生学习行为识别系统，其技术优点体现如下：

提供了一种进行的网课学习时，对网课学习中的学生表情和行为(举手、打瞌睡和开小差等)进行识别。首先通过上网课的手机或者笔记本电脑摄像头实时拍摄上课学生的视频图像；然后设计软件模块，分为学生表情识别，用来识别学生厌倦、疲惫的微表情；同时设计学生打瞌睡、看课件不专注和趴在桌上睡觉等行为识别系统。最后，设计深度学习网络，将学生表情、上课常见行为特征组合，最终识别出学生上课状态，为教师授课效果评估提供数据依据。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于人工智能技术的网课在线学生学习行为识别系统，其特征在于，包括人体表情识别系统或/和人体行为识别系统，所述人体表情识别系统识别学生包括厌倦、疲惫的微表情，所述人体行为识别系统识别学生包括打瞌睡、视线不专注、开小差的行为，所述人体表情识别系统或/和人体行为识别系统通过深度学习神经网络识别学生学习状态，输出学生学习状态效果。

2.根据权利要求1所述的基于人工智能技术的网课在线学生学习行为识别系统，其特征在于，所述人体表情识别系统包括如下步骤：

3.根据权利要求2所述的基于人工智能技术的网课在线学生学习行为识别系统，其特征在于，所述人体行为识别系统具体包括如下步骤：

步骤S4、学生定位检测：从环境中定位学生的位置；

4.根据权利要求3所述的基于人工智能技术的网课在线学生学习行为识别系统，其特征在于，所述步骤S5中进行学生局部信息修复与所述步骤S2中人脸信息修复均采用生成对抗网络的方式进行局部信息修复，所述步骤S6中的学生行为识别与所述步骤S3中的人脸表情识别均采用深度学习神经网络的方法进行识别。

5.根据权利要求2所述的基于人工智能技术的网课在线学生学习行为识别系统，其特征在于，所述步骤S1包括如下步骤：

6.根据权利要求5所述的基于人工智能技术的网课在线学生学习行为识别系统，其特征在于，所述步骤S11中，图像金字塔的缩放公式如下：

n取任意自然数；

7.根据权利要求3所述的基于人工智能技术的网课在线学生学习行为识别系统，其特征在于，所述步骤S4、学生定位检测具体为采用基于方向梯度直方图的图像特征融合方法进行定位检测，具体为采用视觉激活度来选择具有显著方向性的局部梯度统计值，构成融合的方向梯度直方图，把这些融合特征输入线性支持向量机，训练得到人体、背景二元分类器，用于人体检测。

8.根据权利要求2所述的基于人工智能技术的网课在线学生学习行为识别系统，其特征在于，所述步骤S2、人脸信息修复包括如下步骤：

步骤S22、搭建学生局部信息图像修复模型；

步骤S25、使用测试集对模型进行验证；

步骤S26、保存训练结果的网络模拟文件；

9.根据权利要求8所述的基于人工智能技术的网课在线学生学习行为识别系统，其特征在于，所述步骤S27中遮挡图像修复中的生成模型搭建具体包括如下步骤：

步骤S2703、将步骤S2701、步骤S2702操作重复一次；

步骤S2707、将步骤S2705、步骤S2706操作重复一次；

步骤S2711、将步骤S2709、步骤S2710操作重复三次；

步骤S2715、将步骤S2713、步骤S2714操作重复一次；

步骤S2718、然后连接全连接层，输出节点为1024个；

10.根据权利要求2所述的基于人工智能技术的网课在线学生学习行为识别系统，其特征在于，所述步骤S3、人脸表情识别具体包括如下步骤：

步骤S32、搭建人脸表情识别的分类器模型；

步骤S34、使用测试集对模型进行验证；

步骤S35、保存训练结果的网络模拟文件；

步骤S37、获取人脸表情信息并输出。