CN112287777A

CN112287777A - 基于边缘智能的学生状态课堂监测方法

Info

Publication number: CN112287777A
Application number: CN202011102414.7A
Authority: CN
Inventors: 刘凡; 崔闰杰; 王瑞琳; 许峰
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-01-29
Anticipated expiration: 2040-10-15
Also published as: CN112287777B

Abstract

本发明公开了一种基于边缘智能的学生状态课堂监测方法，其中图像数据采集模块采集M个课堂照片，人脸信息检测模块在集M个课堂照片中检测到人脸图像时，提取得到每个人脸中的检测人脸特征，将检测人脸特征与预设的人脸特征库中该课堂对应的参考人脸信息进行对比匹配，得到该课堂的到课信息，人体姿态检测模块采样预先训练的检测网络检测M个课堂照片中各个人体骨骼关节的置信图，并预测中各个人体骨骼关节的连接程度，根据各个置信图和各个连接程度确定各个人体姿态骨架，根据各个人体姿态骨架计算各个学生的课堂状态信息，综合状态评估模块根据到课信息和课堂状态信息监测课堂状态，以实现对相应课堂中各个学生状态的全面监测。

Description

基于边缘智能的学生状态课堂监测方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于边缘智能的学生状态课堂监测方法。

背景技术

近年来，人体姿态估计在计算机视觉领域成为了一个热门的研究方向。它被定义为是对基于图像定位人体关键点并构建人体骨骼架构的人体姿态算法和系统的研究，人体关键点检测需要在具有一定难度的条件下，比如面对遮挡和复杂多人的环境时可以准确定位人体关键点。它可以解决许多人体姿态识别，行为识别，人体跟踪等领域的任务,同时也在康复医疗、视频监控、高级人机交互等领域有很广阔的发展前景。对于它的研究，从单人到多人，从2D转向3D，应用场景逐步现实化，准确率也在逐渐提升。

现阶段对关键点的定位始终是该领域关注的重点，对于不同图片中人体的不同姿态，图片边缘肢体的关键点，过于细小难以识别的关节点和遮蔽的关节点等都是该领域在面临的难题。此前的人体姿态估计由于使用的是局部探测器，所以都是在局部针对关节建模，这种方式的只能是为身体关节点之间所有关系的部分子集建立模型，表示能力是很有局限性的。

发明内容

针对以上问题，本发明提出一种基于边缘智能的学生状态课堂监测方法。

为实现本发明的目的，提供一种基于边缘智能的学生状态课堂监测方法，包括如下步骤：

S10，图像数据采集模块采集M个课堂照片，将集M个课堂照片分别发送到人脸信息检测模块和人体姿态检测模块；

S20，人脸信息检测模块在集M个课堂照片中检测到人脸图像时，进行人脸信息提取，得到每个人脸中的检测人脸特征，将检测人脸特征与预设的人脸特征库中该课堂对应的参考人脸信息进行对比匹配，得到该课堂的到课信息，将到课信息发送给综合评价模块；

S30，人体姿态检测模块采样预先训练的检测网络检测M个课堂照片中各个人体骨骼关节的置信图，并预测中各个人体骨骼关节的连接程度，根据各个置信图和各个连接程度确定各个人体姿态骨架，根据各个人体姿态骨架计算各个学生的课堂状态信息，将各个学生的课堂状态信息送给综合状态评估模块；

S40，综合状态评估模块接收人脸信息检测模块发送的到课信息和人体姿态检测模块返回的课堂状态信息，根据各个学生的到课信息和课堂状态信息监测该课堂中各个学生的课堂状态。

在一个实施例中，图像数据采集模块采集M个课堂照片，将集M个课堂照片分别发送到人脸信息检测模块和人体姿态检测模块包括：

S12，解析布置在教室内的摄像头提供的控制工具，通过脚本命令直接控制控制摄像头；

S13，通过抓包工具获取摄像头网页端的控制请求头，利用python的requests模块对摄像头进行控制；

S14，采用树莓派向摄像头发送http请求；

S15，树莓派以随机间隔向摄像头发送图像采集请求，一节课内重复该操作M次，摄像头接收请求后拍摄课堂照片并将课堂照片回传给树莓派，通过树莓派发送到人脸信息检测模块和人体姿态检测模块。

具体地，人脸信息检测模块在集M个课堂照片中检测到人脸图像时，进行人脸信息提取，得到每个人脸中的检测人脸特征，将检测人脸特征与预设的人脸特征库中该课堂对应的参考人脸信息进行对比匹配，得到该课堂的到课信息，将到课信息发送给综合评价模块包括：

S21，对于M个课堂照片，首先判断其中是否存在人脸，如果存在人脸，则执行步骤S22；

S22，人脸检测模块分析出每个人脸的人脸信息，并依据人脸信息进一步提取每个人脸中所蕴含的人脸特征，得到检测人脸特征；所述人脸信息包括相应人脸所在的位置、大小和面部器官的位置信息；

S23，将检测人脸特征与提前下载到树莓派的人脸特征库中该课堂的参考人脸信息进行对比匹配，若匹配度大于0.7，表示相应的学生签到成功，得到各个学生的的到课信息，将到课信息发送给综合评价模块。

在一个实施例中，检测网络的训练过程包括：

首先训练图像先经过微调过的VGG-19的前十层得到一组图像特征集F，在VGG预训练网络骨架的基础上，分别对L(p)和S(p)在不同的分支进行回归，计算出每一个阶段的损失函数，然后将L(p)和S(p)与原始输入F进行连接，然后训练下一个阶段，随着迭代次数的增加，S(p)能够区分结构的左右，每个阶段的loss使用的是L2范数，L(p)和S(p)的标注数据从标注的关键点生成，如果某个关键点未被标注则不计算该点，该网络分为两个分支，每个分支分化为越来越精细的t个阶段，每个阶段融合置信图；其中在检测网络的主体网络结构中，用L(p)表示像素点在人体骨架的走势，用S(p)表示关键点的响应；

将VGG-19的前十层分为两个分支，分别用来预测每个关键点的置信度和亲和度向量，使每一个分支成为一个迭代预测架构；在第一阶段，两个分支的VGG-19网络首先生成特征F、检测置信度图S¹＝ρ¹(F)和亲和度向量L¹＝φ¹(F)各一组,其中ρ¹和φ¹为第一阶段的CNN结构，之后每一个阶段的输入都是从前一阶段的预测结果和原始图像特征F得出的，以产生更为精确的预测结果。ρ^t和φ^t代表第t阶段的CNN结构，输出为：

在前期身体的左右部分和四肢之间的预测结果会比较混乱，通过后期各个阶段的迭代使预测结果越精确。

具体地，所述检测网络为OpenPose网络；

人体姿态检测模块采样预先训练的检测网络检测M个课堂照片中各个人体骨骼关节的置信图，并预测中各个人体骨骼关节的连接程度，根据各个置信图和各个连接程度确定各个人体姿态骨架，根据各个人体姿态骨架计算各个学生的课堂状态信息，将各个学生的课堂状态信息送给综合状态评估模块包括：

S31，OpenPose网络对M张课堂照片中提取照片特征；

S32，将照片特征分别传送至两个并行的卷积层分支。

S33，其中一个分支对18个代表人体骨骼中的关节关键点的置信图进行预测，得到各个人体骨骼关节的置信图；

S34，另一个分支用于预测各个关节关键点间的连接程度；

S35，OpenPose在使用第一分支时，在每个关节对之间形成二分图，同时在使用第二分支时删除了二分图里较弱的连接，联合使用上述步骤来优化每个分支的预测，使课堂照片中每个人的人体姿态骨架均被检测出，并匹配给对应的学生；

S37，通过计算头部到肩部的距离为低头参数，判断是否小于低头阈值来判断学生是否抬头或低头；头部到手臂的距离为睡觉参数，判断是否小于睡觉阈值来判断是否在睡觉；两只手的距离为玩手机参数，如果学生为低头姿势且玩手机参数小于玩手机阈值，则判定学生在玩手机；如果学生被检测到腰部骨架且学生为抬头姿势，则学生在发言，以此得到各个学生的课堂状态信息，将各个学生的课堂状态信息送给综合状态评估模块。

在一个实施例中，综合状态评估模块接收人脸信息检测模块发送的到课信息和人体姿态检测模块返回的课堂状态信息，根据各个学生的到课信息和课堂状态信息监测该课堂中各个学生的课堂状态包括：

S41，综合状态评估模块在每节课前，从云服务器下载该门课程的学生评估表；

S42，综合状态评估模块接收经过人脸检测模块检测后的到课信息，设置对应的到课情况；

S43，接收人体姿态检测模块返回的课堂状态信息，设置学生当次监测的相应状态；其中学生状态包括四种：正常抬头、发言、睡觉、玩手机；一节课摄像头采集M个课堂照片对应的检测结果，均由综合状态评估模块保存；

S45，综合状态评估模块在下课时综合计算课堂上保存的M次人脸检测的到课情况和姿势状态结果，计算各个学生的综合评分，根据各个学生的综合评分确定该课堂中各个学生的课堂状态。

具体地，综合评分的计算过程包括：

以到课记为D加6分，正常抬头记为T加3分，发言记为F加1分，睡觉记为S，站立或者玩手机记为W没有评分加成，但会返回和服务器记录，计算公式如下：

其中，Score表示综合评分，D_n学生在第n次检测中是否到课，T_n表示学生在第n次检测中是否抬头，F_n表示学生在第n次检测中是否发言，如果有则其值为1，没有则为0，得到每个学生该节课学习状态的综合评分Score，Score的范围为0至10，评分越高表示学生课堂学习越认真。

上述基于边缘智能的学生状态课堂监测方法中，图像数据采集模块采集M个课堂照片，将集M个课堂照片分别发送到人脸信息检测模块和人体姿态检测模块，人脸信息检测模块在集M个课堂照片中检测到人脸图像时，进行人脸信息提取，得到每个人脸中的检测人脸特征，将检测人脸特征与预设的人脸特征库中该课堂对应的参考人脸信息进行对比匹配，得到该课堂的到课信息，将到课信息发送给综合评价模块，人体姿态检测模块采样预先训练的检测网络检测M个课堂照片中各个人体骨骼关节的置信图，并预测中各个人体骨骼关节的连接程度，根据各个置信图和各个连接程度确定各个人体姿态骨架，根据各个人体姿态骨架计算各个学生的课堂状态信息，将各个学生的课堂状态信息送给综合状态评估模块，综合状态评估模块接收人脸信息检测模块发送的到课信息和人体姿态检测模块返回的课堂状态信息，根据各个学生的到课信息和课堂状态信息监测该课堂中各个学生的课堂状态，能够实现对相应课堂中各个学生状态的全面监测。

附图说明

图1是一个实施例的基于边缘智能的学生状态课堂监测方法流程图；

图2是一个实施例的系统结构框图；

图3是一个实施例的图像数据采集模块示意图；

图4是一个实施例的人脸检测模块工作流程图；

图5是一个实施例的学生姿态估计流程图；

图6是一个实施例的学生综合状态评估模块工作过程示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参考图1所示，图1为一个实施例的基于边缘智能的学生状态课堂监测方法流程图，包括如下步骤：

上述人脸信息检测模块、人体姿态检测模块、综合状态评估模块等功能模块可以预设在进行学生状态课堂监测的服务器中。

在一个示例中，运行上述基于边缘智能的学生状态课堂监测方法的系统包括了图像数据采集模块、人脸信息检测模块、人体姿态检测模块、综合状态评估模块，此外该系统还可以设置数据库模块以及管理模块等功能模块；所述图像数据采集模块包括边缘端教室的电脑或树莓派和网络摄像头，用于采集课堂照片；人脸信息检测模块用于快速检测学生的到课情况；人体姿态检测模块包含训练阶段和检测阶段，在训练阶段我们采用了基于OpenPose的多人人体姿态估计方法并引入了关键点标签矫正，在检测阶段我们根据训练好的模型识别照片中每一个学生的状态；状态评估模块会对当前课程获取的数次学生状态进行统计；数据库模块中包括学生数据库、人脸特征库和学生状态信息库；管理模块用于对数据的综合维护。本发明利用了课堂信息，高效地实现了课堂状态监测，显著地提高教学效果。

S14，采用树莓派向摄像头发送http请求；上述http请求中可以包含不同的报文内容，对应着对摄像头不同的控制；

上述图像数据采集模块可以包括在教室内部署的海康威视高清可变焦网络球机等摄像头。

在实际应用过程中，上述树莓派通过人脸检测模块进行人脸信息提取，提取出照片(课堂照片)中存在的所有人脸的信息并与人脸库中的人脸信息进行人脸匹配，将其中匹配度大于0.7的学生信息回传给服务器保存，未被匹配到的学生记为未到课，课程结束后作为当前课堂状态评估的参数之一。然后再通过人体姿态检测模块进行躯干和身体关节关键点检测，然后将检测出的关节关键点分为不同组别或者相互连接来将图像中每个关节关键点正确的归于关节所属的学生，进行四种姿势的预测(抬头、睡觉、发言、玩手机)，将学生相应的姿势信息回传给服务器保存作为当前课堂状态评估的参数之一。

S23，将检测人脸特征与提前下载到树莓派的人脸特征库中该课堂的参考人脸信息进行对比匹配，若匹配度大于0.7，表示相应的学生签到成功，得到各个学生的的到课信息，将到课信息发送给综合评价模块，并在相应的服务器中保存，以便最终计算该次课程学生的整体课堂状态。

在一个示例中，上述步骤S23中，人脸特征的相似性值在[0,1]范围内，当相似性值大于0.7时，则匹配成功，两个人脸特征属于同一学生，且当相似性值在[0.7，0.9]范围内时，更新该学生的人脸特征，防止因时间变化而误判。

在一个实施例中，检测网络的训练过程包括：

本实施例中，在主体网络结构中，一般用L(p)表示PAFs(Part Affinity Fields，用于编码肢体关节关键点在图像域的位置和方向的2D向量)，即像素点在人体骨架的走势，用S(p)表示关键点的响应。首先图像先经过微调过的VGG19的前十层得到一组图像特征集F，在VGG预训练网络骨架的基础上，分别对L(p)和S(p)在不同的分支进行回归。计算出每一个阶段的loss(损失)，然后将L(p)和S(p)与原始输入F进行连接，然后训练下一个阶段。随着迭代次数的增加，在某种程度上，S(p)能够区分结构的左右。每个阶段的loss使用的是L2范数，L(p)和S(p)的ground truth(标注数据)需要从我们标注的关键点生成，如果某个关键点未被标注则不计算该点。该网络分为两个分支，每个分支逐渐分化为越来越精细的t个阶段，每个阶段都会融合置信图。

网络结构中的主体F为VGG-19的前10层，然后再将网络分为两个分支，分别用来预测每个关键点的置信度和亲和度向量，每一个分支都是一个迭代预测架构。

在第一阶段，两个分支的VGG-19网络首先生成特征F、检测置信度图S¹＝ρ¹(F)和亲和度向量L¹＝φ¹(F)各一组,其中ρ¹和φ¹为第一阶段的CNN结构，之后每一个阶段的输入都是从前一阶段的预测结果和原始图像特征F得出的，以产生更为精确的预测结果。ρ^t和φ^t代表第t阶段的CNN结构，输出为：

在前期身体的左右部分和四肢之间的预测结果会比较混乱，但是通过后期各个阶段的迭代后，预测结果会越来越精确。每个阶段t对应两个损失函数：

两个损失函数分别代表预测值和GT(ground truth标记数据)值的L2损失，其中

代表真实的置信图，

代表真实的身体关节联接向量，损失函数为两个网络的GT值与预测值的平均平方和：

其中j代表关键点，c代表肢体，每一个肢体都对应两个关键点。

最后的整体流程为：

(301)输入图像

(302)预测关键点置信度与关键点亲和度向量

(303)关键点聚合

(304)骨架组装。

进一步地，步骤(301)-(304)的整体执行过程如下：

(401)输入一张w×h图像a，为图像中每一个人产生2D关键点定位e；

(402)然后模型同时得到人体部位位置的置信图集合S和一个用来说明关节关键点关联的PAFs集合L。

(403)集合S＝(S₁，S₂，…，S_J)有J个置信图，每个身体部分赋一置信图，其中S_j∈R^w ^×h,j∈{1…J}；

(404)集合L＝(L₁，L₂，…，L)，有C个向量场，每个肢体赋一向量场，其中L_c∈R^w×h,c∈{1…C}；

(405)图像位置L_C是一个经过编码后的2D向量，最后通过贪心推理解析出置信图和PAF，输出所有人的2D关键点。

具体地，所述检测网络为OpenPose网络；

S31，OpenPose网络对M张课堂照片中提取照片特征；

S32，将照片特征分别传送至两个并行的卷积层分支。

S34，另一个分支用于预测各个关节关键点间的连接程度；

上述步骤S35中，OpenPose在使用第一分支时，在每个关节对之间形成二分图，同时在使用第二分支时删除了二分图里较弱的连接，联合使用上述步骤来优化每个分支的预测，这样相应图中每个人的人体姿态骨架均可以被检测出，并将其匹配给对应的人。步骤S37中，通过计算头部到肩部的距离为低头参数，判断是否小于低头阈值(如5cm)来判断学生是否抬头或低头；头部到手臂的距离为睡觉参数，判断是否小于睡觉阈值(如5cm)来判断是否在睡觉；两只手的距离为玩手机参数，如果学生为低头姿势且玩手机参数小于玩手机阈值如(5cm)，则学生在玩手机；如果学生被检测到腰部骨架且学生为抬头姿势，则学生在发言，将学生的四种姿态检测结果发送给课堂综合状态评估模块。

具体地，在相应的训练过程中，假如此时得到了一只手臂c的两关键点，

表示手臂肘部关键点的GT(ground truth)位置，

表示手臂腕部关键点的GT位置，如果一个像素点p落在了这段手臂c上，用

表示j₁指向j₂的单位向量，不在手臂上的点对应的向量为零向量。

在训练阶段，为了评估f_L，定义PAF在p点的GT值为：

其中v代表肢体方向的单位向量，

区间内的点p被定义为在肢体上，其中σ_l代表肢体的宽度，

表示肢体的长度。点p的部分亲和力场GT值去图像中所有人对应PAF的平均值：

其中n_c(p)为图中非零向量的个数。

在预测阶段，我们用两关键点之间的PAF来衡量这对关键点是否属于同一个人，对于这对关键点

和

我们通过对线段采样预测得到的PAF来测量两部分之间的关联置信度：

其中p(u)表示身体部位两点之间的位置：

一般在求和时以均匀、间隔的方式采集样本，从而对区间u求出积分的近似值。对所预测的置信度图进行NMS操作后，我们从预测出的置信图得到一组离散的候选坐标。当面临多人图像或falsepositive时，关键点的候选位置可能不唯一，因此也就组成了含有很大数量的关键点对的集合。通过上面的积分公式，我们给每一个候选关键点对计算一个分数。从这些关键点对中找到最优结果。

假定模型得到的所有候选关键点构成集合的为：

其中代表关键点j的第m个候选坐标的位置。我们的匹配目标是要让同一个人的候选部位之间建立连接，定义变量

该变量表示两个候选部位之间是否应该连接，值为1表示候选部位属于同一个人,应该连线,反之值为0。

如果单独考虑肢体c，则其所对应的两个关键点为j₁和j₂，为了找到总亲和值最高的图匹配方式，将总亲和值定义为：

其中E_c表示躯干c对应的权值总和，Z_c是躯干c对应的z的子集，E_mn代表两关键点之间的亲和度，上述公式也限制了两相同类型的不同躯干不会共享关键点。故当问题拓展，考虑多人的全身姿态估计时，就可以简化为：

人体各躯干部份独立优化配对，然后将享有相同身体部分的连接组装成人体的全身姿态。

进一步地，创新性地引入关键点标签矫正解决OpenPose在训练的时候，如果两个关键点中有一个不存在，则无法生成PAF标签的情况：

在COCO训练集中我们根据关键点生成的PAF连接时，当人物的腕部节点存在，而肘关节明显存在却应遮挡未被标记。肘部关节的关键点的缺失导致在生成PAF连接时没有包含有肘部关键点的PAF连接生成，但这个关键点应该被标记出来。无论训练过程中预测出的PAF正确与否，严格来说缺少关键点的训练样本也属于错误样本，依旧会对模型的训练产生负面影响，而这样的问题在COCO训练集中还存在很多。

针对这种情况，在训练时对训练集中的标签进行了矫正。在训练模型的时候先使用已经训练好的CMU-POSE对现有的数据集生成一次标签，然后在训练的时候，将groundtruth(标注)与已经生成的标签融合在一起，将得到的新的标签作为当前训练的groundtruth。在进行标签融合时，对于关键点的标签，直接在对应的标签上取ground truth_label(标注标签)和generate_label(生成标签)中最大的那个，由于PAF的标签有正有负，PAF的标签要取ground truth_label和generate_label中模大的那个。

在对数据集标签进行矫正后，本发明的训练模型获得的PAF连接效果明显好于原数据集的训练结果，成功将难以识别或处于图片边缘的特征点连接起来形成正确的人体姿态架构。

具体地，综合评分的计算过程包括：

其中，Score表示综合评分，D_n学生在第n次检测中是否到课，T_n表示学生在第n次检测中是否抬头，F_n表示学生在第n次检测中是否发言，如果有则其值为1，没有则为0，得到每个学生该节课学习状态的综合评分Score，Score的范围为0至10，评分越高表示学生课堂学习越认真，并将综合评分结果发送给云服务器保存到相应数据库。

在一个实施例中，以树莓派作为边缘智能设备为例进行说明。如图2所示，基于边缘智能的学生状态课堂监测系统包括图像数据采集模块、人脸信息检测模块、人体姿态检测模块、综合状态评估模块、数据库模块以及管理模块。当课程开始后，树莓派下载云服务器数据库中的对应学生人脸特征库和状态表，并在随机间隔内多次向摄像头发送拍摄请求，在树莓派接收到回传图像后，调用人脸检测模块确定到课学生，然后利用训练好的基于OpenPose的人体姿态评估模型完成对学生课堂状态的预测，两者将检测结果发送给综合状态评估模块，最后由综合状态评估模块实现学生课堂综合状态评估并将结果发送到云服务器数据库保存，管理人员可以通过管理模块对系统数据库进行查询与维护。

具体地，执行基于边缘智能的学生状态课堂监测方法的系统可以包括如下结构：

1、数据库模块，包括学生信息数据库、人脸特征库、状态信息库。除此之外还有进行人体姿态评估模型训练用到的数据库。

1.1学生信息数据库：学生信息数据库包括学号(ID)、学生姓名、班级、选课信息、上课时间和地点。边缘端树莓派可以通过上课时间、地点以及选课信息获取当前课程的上课学生名单，用于状态评估。

1.2人脸特征库：人脸特征库以文件目录形式存储人脸，为了能快速请求人脸信息，以班级为目录，班级目录下存储班级所有选课学生的人脸特征信息。

1.3状态信息库：状态信息库包含各个学生对应每节课的数次上课状态数据以及综合评估情况。

2、图像数据采集模块，本系统中的图像数据采集设备是海康微视高清可变焦网络球机，摄像头部署于每间教室内，实时采集教室学生上课视频，出勤人数，学生姿势等数据信息，与树莓派服务层动态交互。图像数据采集模块如图3所示

2.1树莓派通过向摄像头发送http请求，来控制摄像头，一节课中，树莓派可以通过数次请求来确保采集的图像数据足够准确。

3、人脸检测模块，在树莓派接收到摄像头回传图片后，调用百度人脸检测模块，检测出包含的人脸信息，与当前班级目录下的人脸信息对比确定到课学生身份。具体流程图如图4所示。

3.1人脸检测模块在检测树莓派接收到的图像后对图像中的人脸进行划分并提取相应特征信息，然后与人脸库中的对应班级的人脸特征信息对比，当相似度超过0.7时，确认该同学已到课，当相似度低于0.7时，表示无法确认是否为本人，可返回再次拍照请求，让摄像头采集一张新的图像，如果对于同一位置的学生3次无法识别，将停止检测并返回所有到课学生信息。

4.人体姿态检测模块，分为两个阶段，检测阶段和训练阶段，

4.1检测阶段。

检测阶段我们利用训练好的模型，先将图像中每个关节全部检测出来，然后将检测出的关节分为不同组别或相连接，以此将图像中每个关节正确的归于关节所属的人。具体的姿态检测估计流程图如图5所示。

OpenPose网络首先使用网络层(VGG-19)从图像中提取特征，然后将特征分别传送至两个并行的卷积层分支。其中一个分支可以对18个代表人体骨骼中的关节的置信图进行预测。另一个分支则用于预测各个关节之间的连接程度，即包含了38个PAFs的集合。接下来，OpenPose在使用第一分支时，在每个关节对之间形成二分图，同时在使用第二分支时删除了二分图里较弱的连接，联合使用上述步骤来优化每个分支的预测。在完成上述步骤后，图中每个人的人体姿态骨架均可以被检测出，并将其匹配给对应的人。然后通过针对各个学生计算头部到肩部的距离为低头参数，判断是否小于低头阈值(5cm)来判断学生是否抬头或低头；头部到手臂的距离为睡觉参数，判断是否小于睡觉阈值(5cm)来判断是否在睡觉；两只手的距离为玩手机参数，如果学生为低头姿势且玩手机参数小于玩手机阈值(5cm)，则学生在玩手机；如果学生被检测到腰部骨架且学生为抬头姿势，则学生姿势为发言。

4.2训练阶段。

首先由VGG-19网络生成一组特征F,作为两个分支第一阶段的输入。第一阶段网络会产生检测置信度图S¹＝ρ¹(F)和亲和度向量L¹＝φ¹(F)各一组，其中ρ¹和φ¹为第一阶段的CNN结构，之后每一个阶段的输入都是从前一阶段的预测结果和原始图像特征F得出的，以产生更为精确的预测结果^[15-17]。ρ^t和φ^t代表第t阶段的CNN结构，输出为：

在前期身体的左右部分和四肢之间的预测结果会比较混乱，但是通过后期各个阶段的迭代后，预测结果会越来越精确。每个阶段t对应两个损失函数

和

代表预测值和GT(groundtruth)值的L2损失，两个损失函数分别代表预测值和GT(ground truth标记数据)值的L2损失，其中

代表真实的置信图，

其中j代表关键点，c代表肢体，每一个肢体都对应两个关键点。网络在位置P的预测值对应的GT值计算是取S(p)的最大值，在预测阶段的网络通过NMS(非极大值抑制)思想获取最终置信度。

在训练，假如我们此时得到了一只手臂c的两关键点，

表示手臂肘部关键点的GT位置，

在训练阶段，为了评估f_L，定义PAF在p点的GT值为：

其中v代表肢体方向的单位向量，

区间内的点p被定义为在肢体上，其中σ_l代表肢体的宽度，

其中n_c(p)为图中非零向量的个数。

和

其中p(u)表示身体部位两点之间的位置：

假定模型得到的所有候选关键点构成集合的为：

创新性地引入关键点标签矫正解决OpenPose在训练的时候，如果两个关键点中有一个不存在，则无法生成PAF标签的情况：

5、综合状态评估模块，该模块负责利用人脸检测和人体姿态检测模块的处理结果对学生的课堂综合状态进行评估。具体流程如图6所示。

(1)每节课前，评估模块从云服务器下载该门课程的学生评估表；

(2)评估模块接收经过人脸检测模块检测后的到课学生名单，设置对应的到课情况；

(3)接收人体姿态检测模块返回的状态信息，设置学生当次监测的相应的状态，我们将学生状态划分为四种：正常抬头、发言、睡觉、玩手机；

(4)一节课摄像头采集M次上课画面的检测结果，均由综合状态评估模块保存。

(5)下课时课堂综合状态评估模块将综合计算课堂上保存的M次人脸检测的到课情况和姿势状态结果，计算综合评分时以到课记为D加6分，正常抬头记为T加3分，发言记为F加1分，睡觉记为S占和玩手机记为W没有评分加成，但会返回和服务器记录，计算公式如下：

其中D_n，T_n，F_n表示这个学生在第n次检测中是否到课、抬头或发言，如果有则其值为1，没有则为0，我们得到每个学生该节课学习状态的综合评分Score，其范围为0至10，评分越高表示学生课堂学习越认真，并将综合评分结果发送给云服务器保存到数据库。

6、管理模块，管理模块负责对人脸特征库、状态信息库等数据进行管理维护和查询。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

需要说明的是，本申请实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换，以使这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本申请实施例的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于边缘智能的学生状态课堂监测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于边缘智能的学生状态课堂监测方法，其特征在于，图像数据采集模块采集M个课堂照片，将集M个课堂照片分别发送到人脸信息检测模块和人体姿态检测模块包括：

S14，采用树莓派向摄像头发送http请求；

3.根据权利要求2所述的基于边缘智能的学生状态课堂监测方法，其特征在于，人脸信息检测模块在集M个课堂照片中检测到人脸图像时，进行人脸信息提取，得到每个人脸中的检测人脸特征，将检测人脸特征与预设的人脸特征库中该课堂对应的参考人脸信息进行对比匹配，得到该课堂的到课信息，将到课信息发送给综合评价模块包括：

4.根据权利要求1所述的基于边缘智能的学生状态课堂监测方法，其特征在于，检测网络的训练过程包括：

将VGG-19的前十层分为两个分支，分别用来预测每个关键点的置信度和亲和度向量，使每一个分支成为一个迭代预测架构；在第一阶段，两个分支的VGG-19网络首先生成特征F、检测置信度图S¹＝ρ¹(F)和亲和度向量L¹＝φ¹(F)各一组,其中ρ¹和φ¹为第一阶段的CNN结构，之后每一个阶段的输入都是从前一阶段的预测结果和原始图像特征F得出的，以产生更为精确的预测结果，ρ^t和φ^t代表第t阶段的CNN结构，输出为：

5.根据权利要求4所述的基于边缘智能的学生状态课堂监测方法，其特征在于，所述检测网络为OpenPose网络；

S31，OpenPose网络对M张课堂照片中提取照片特征；

S32，将照片特征分别传送至两个并行的卷积层分支；

S34，另一个分支用于预测各个关节关键点间的连接程度；

6.根据权利要求1至5任一项所述的基于边缘智能的学生状态课堂监测方法，其特征在于，综合状态评估模块接收人脸信息检测模块发送的到课信息和人体姿态检测模块返回的课堂状态信息，根据各个学生的到课信息和课堂状态信息监测该课堂中各个学生的课堂状态包括：

7.根据权利要求6所述的基于边缘智能的学生状态课堂监测方法，其特征在于，综合评分的计算过程包括：