CN111582202A

CN111582202A - 一种智能网课系统

Info

Publication number: CN111582202A
Application number: CN202010400166.8A
Authority: CN
Inventors: 刘昱昊
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2020-05-13
Filing date: 2020-05-13
Publication date: 2020-08-25
Anticipated expiration: 2040-05-13
Also published as: CN111582202B

Abstract

本发明公开了一种智能网课系统，针对于传统网课系统无法有效监督学生们的上课行为和互动较少的问题进行改进，利用摄像头对监控区域进行识别，并判断当前监控区域内是否是学生本人；通过模式识别技术识别当前学生的表情，注意力方向；通过模式识别技术识别当前学生与教师交互的手势动作，提高学生们上课的参与度。本发明涉及到的功能不会改变原有网课系统的架构，能够以即插即用方式与现有网课系统对接，从而使本发明在实际应用中有着较高的通用性和灵活性。

Description

一种智能网课系统

技术领域

本发明涉及计算机视觉监控技术领域，目标检测和模式识别领域，具体涉及用于对网上上课学生的学习过程进行个体检测和动作识别的领域。

背景技术

随着在线教育的不断发展，大量课程采取网上教学方式。但是在实际使用中，现有网课系统存在着如下两个问题：1.现有网课系统无法有效监督学生们的上课行为，包括：如何监督学生们上课，如何确保当前视频下真的是学生本人，如何识别学生们的动作，这些监督措施的缺失导致网课效果下降；2.现有网课系统过多的依赖学生们对电脑操作完成师生互动，过多的电脑操作会导致学生们注意力下降。

本发明所提出的一种智能网课系统是利用摄像头(通常为笔记本摄像头)对监控区域进行识别，通过目标检测技术识别当前监控区域内是否有个体，该个体是否是真人，并且确定是否是学生本人；通过模式识别技术识别当前学生的表情，注意力方向；通过模式识别技术识别当前学生与教师交互的手势动作，提高学生们上课的参与度。本发明涉及到的功能不会改变原有网课系统的架构，能够以即插即用方式与现有网课系统对接，从而使本发明在实际应用中有着较高的通用性和灵活性。

发明内容

本发明所要解决的技术问题是为了克服传统网课模式无法有效监督学生们的上课行为问题和上课互动性差的问题，提出了一种智能网课系统。本系统通过使用目标检测和模式识别算法来识别学生的身份、注意力和手势动作，处理结果提交给教师，由教师根据实际情况酌情处理。

本发明解决其技术问题所采用的技术方案是：

一种智能网课系统，基于笔记本自带摄像头或电脑连接的摄像头所摄的视频图像作为输入，其中摄像头摆放在能够拍摄到人脸图像的位置，通常摆放在屏幕正前方，若不是正前方，可以在识别结果处理模块中更改人脸朝向的基准偏移角度值来补偿摄像头摆放位置。本系统包括：图像预处理模块，目标检测模块，人脸识别模块，头部方向检测模块，学生动作识别模块，识别结果处理模块。

所述的图像预处理模块对摄像头采集到的图像进行去噪和光照补偿，然后进行图像增强，最后将处理后的图像数据传递给目标检测模块；所述的目标检测模块，对接收到图像预处理模块传递来的图像数据进行目标检测，分别检测当前区域是否有个体，若有个体则提取其面部区域并传递给人脸识别模块和头部方向检测模块、提取上肢区域和手部区域图像传递给学生动作识别模块；所述的人脸识别模块，对接收到目标检测模块传递来的人脸区域图像数据进行人脸识别，并将识别结果分别传递给头部方向检测模块和识别结果处理模块；所述的头部方向检测模块，根据目标检测模块传递来的人脸区域图像数据，并结合人脸识别模块传递来的识别结果进行人脸朝向识别，并将结果传递给识别结果处理模块；所述的学生动作识别模块，根据目标检测模块传递来的上肢区域和手部区域图像数据，进行动作识别，判断当前学生手部动作和上肢动作，并将识别结果传递给识别结果处理模块；所述的识别结果处理模块对接收到的识别结果进行整合，根据人脸识别模块的识别结果判断摄像头前的个体是否为当前登录账户对应的个体，根据头部方向检测模块所识别的个体面部朝向来判断当前个体注意力朝向，根据学生动作识别模块来判断当前学生与教师的交互动作。

所述的图像预处理模块，其方法是：在初始化阶段该模块不工作；在检测过程中：第一步，对监控摄像头所摄的监控图像进行均值去噪，从而得到去噪后的监控图像；第二步，对去噪后的监控图像进行光照补偿，从而得到光照补偿后的图像；第三步，将光照补偿后的图像进行图像增强，将图像增强后的数据传递给目标检测模块。

所述的对监控摄像头所摄的监控图像进行均值去噪，其方法是：设监控摄像头所摄的监控图像为X_src，因为X_src为彩色RGB图像，因此存在X_src-R，X_src-G，X_src-B三个分量，对于每一个分量X_src′，分别进行如下操作：首先设置一个3×3维的窗口，考虑该图像X_src′的每个像素点X_src′(i，j)，以该点为中心点的3×3维矩阵所对应的像素值分别为[X_src′(i-1，j-1)，X_src′(i-1，j)，X_src′(i-1，j+1)，X_src′(i，j-1)，X_src′(i，j)，X_src′(i，j+1)，X_src′(i+1，j-1)，X_src′(i+1，j)，X_src′(j+1，j+1)]进行从大到小排列，取其排在中间的值为去噪后图像X_src″在像素(i，j)所对应滤波后值赋值给X_src″(i，j)；对于X_src′的边界点，会出现其3×3维的窗口所对应的某些像素点不存在的情况，那么只需计算落在窗口内存在的像素点的中间值即可，若窗口内为偶数个点，将排在中间两个像素值的平均值作为该像素点去噪后的像素值赋值给X_src″(i，j)，从而，新的图像矩阵X_src″即为X_src在当前RGB分量的去噪后的图像矩阵，对于X_src-R，X_src-G，X_src-B在三个分量分别进行去噪操作后，将得到的X_src-R″，X_src-G″，X_src-B″分量，将这三个新的分量整合成一张新的彩色图像X_Den即为去噪后所得的图像。

所述的对去噪后的监控图像进行光照补偿，设去噪后的监控图像X_Den，因为X_Den为彩色RGB图像，因此X_Den存在RGB三个分量，对于每一个分量X_Den′，分别进行光照补偿，然后将得到的X_cpst′整合得到彩色RBG图像X_cpst，X_cpst即为X_Den光照补偿后的图像，对每一个分量X_Den′分别进行光照补偿的步骤为：第一步，设X_Den′为m行n列，构造X_Den′^sum和Num_Den为同样m行n列的矩阵，初始值均为0，

步长

窗口大小为l，其中函数min(m，n)表示取m和n的最小值，

表示取整数部分，sqrt(l)表示l的平方根，若l＜1则l＝1；第二步，设X_Den左上角坐标为(1，1)，从坐标(1，1)开始，根据窗口大小为l和步长s确定每一个候选框，该候选框为[(a，b)，(a+l，b+l)]所围成的区域，对于X_Den′在候选框区域内所对应的图像矩阵进行直方图均衡化，得到候选区域[(a，b)，(a+l，b+l)]的均衡化后的图像矩阵X_Den″，然后X_Den′^sum对应的[(a，b)，(a+l，b+l)]区域的每一个元素计算X_Den′^sum(a+i_Xsum，b+j_Xsum)＝X_Den′^sum(a+i_Xsum，b+j_Xsum)+X_Den″(i_Xsum，j_Xsum)，其中(i_Xsum，j_Xsum)为整数且1≤i_Xsum≤l，1≤j_Xsum≤l，并将Nvm_Den对应的[(a，b)，(a+l，b+l)]区域内的每一个元素加1；最后，计算

其中(i_XsumNum，j_XsumNum)为X_Den对应的每一个点，从而得到X_cpst即为对当前分量XD_en′进行光照补偿。

所述的根据窗口大小为l和步长s确定每一个候选框，其步骤为：

设监控图像为m行n列，(a，b)为选定的区域的左上角坐标，(a+l，b+l)为选定区域的右下角坐标，该区域由[(a，b)，(a+l，b+l)]表示，(a，b)的初始值为(1，1)；

当a+l≤m时：

b＝1；

当b+l≤n时：

选定的区域为[(a，b)，(a+l，b+l)]；

b＝b+s；

内层循环结束；

a＝a+s；

外层循环结束；

上述过程中，每次选定的区域[(a，b)，(a+l，b+l)]均为候选框。

所述的对于X_Den′在候选框区域内所对应的图像矩阵进行直方图均衡化，设候选框区域为[(a，b)，(a+l，b+l)]所围成的区域，X_Den″即为X_Den′在[(a，b)，(a+l，b+l)]区域内的图像信息，其步骤为：第一步，构造向量I，I(i_I)为X_Den″中像素值等于i_I的个数，0≤i_I≤255；第二步，计算向量

第三步，对于X_Den″上的每一个点(i_XDen，j_XDen)，其像素值为X_Den″(i_XDen，j_XDen)，计算X″_Den(i_XDen，j_XDen)＝I′(X″_Den(i_XDen，j_XDen))。待X_Den″图像内的所有像素点值都计算并更改后直方图均衡化过程结束，X_Den″内保存的即为直方图均衡化的结果。

所述的将光照补偿后的图像进行图像增强，设光照补偿后的图像为X_cpst，其对应的RGB通道分别为X_cpstR，X_cpstG，X_cpstB，对X_cpst图像增强后得到的图像为X_enh。对其进行图像增强的步骤为：第一步，对于X_cpst的所有分量X_cpstR，X_cpstG，X_cpstB计算其按指定尺度进行模糊后的图像；第二步，构造矩阵LX_enhR，LX_enhG，LX_enhB为与X_cpstR相同维度的矩阵，对于图像X_cpst的RGB通道中的R通道，计算LX_enhR(i，j)＝log(X_cpstR(i，j))-LX_cpstR(i，j)，(i，j)的取值范围为图像矩阵中所有的点，对于图像X_cpst的RGB通道中的G通道和B通道采用与R通道同样的算法得到LX_enhG和LX_enhB；第三步，对于图像X_cpst的RGB通道中的R通道，计算LX_enhR中所有点取值的均值MeanR和均方差VarR(注意是均方差)，计算MinR＝MeanR-2×VarR和MaxR＝MeanR+2×VarR，然后计算X_enhR(i，j)＝Fix((LX_cpstR(i，j)-MinR)/(MaxR-MinR)×255)，其中Fix表示取整数部分，若取值＜0则赋值为0，取值＞255则赋值为255；对于RGB通道中的G通道和B通道采用与R通道同样的算法得到X_enhG和X_enhB，将分别属于RGB通道的X_enhR、X_enhG、X_enhB整合成一张彩色图像X_enh。

所述的对于X_cpst的所有分量X_cpstR，X_cpstG，X_cpstB计算其按指定尺度进行模糊后的图像，对于RGB通道中的R通道X_cpstR，其步骤为：第一步，定义高斯函数G(x，y，σ)＝k×exp(-(x²+y²)/σ²)，σ为尺度参数，k＝1/∫∫G(x，y)dxdy，则对于X_cpstR的每一个点X_cpstR(i，j)计算，

其中

表示卷积运算，对于距离边界低于尺度σ的点，只计算X_cpstR与G(x，y，σ)对应部分的卷积，Fix()表示取整数部分，若取值＜0则赋值为0，取值＞255则赋值为255。对于RGB通道中的G通道和B通道采用与R通道同样的算法更新X_cpstG和X_cpstG。

所述的目标检测模块，在初始化过程中，使用带有已标定人脸面部区域、手部区域和上肢区域的图像对目标检测算法进行参数初始化；在检测过程中，接收图像预处理模块所传递来的图像，然后对其进行处理，对每一帧图像使用目标检测算法进行目标检测，得到当前图像的人脸面部区域、手部区域和上肢区域，将提取到的人脸面部区域传递给人脸识别模块和头部方向检测模块、将上肢区域和手部区域图像传递给学生动作识别模块。

所述的使用带有已标定人脸面部区域、手部区域和上肢区域的图像对目标检测算法进行参数初始化，其步骤为：第一步，构造特征抽取深度网络；第二步，构造区域选择网络，第三步，根据所述的构造特征抽取深度网络中所使用的数据库中的每一张图像X和对应的人工标定的每个区域

然后通过ROI层，其输入为图像X和区域

输出

为7×7×512维度的；第三步，构建坐标精炼网络。

所述的构造特征抽取深度网络，该网络为深度学习网络结构，其网络结构为：第一层：卷积层，输入为768×1024×3，输出为768×1024×64，通道数channels＝64；第二层：卷积层，输入为768×1024×64，输出为768×1024×64，通道数channels＝64；第三层：池化层，输入第一层输出768×1024×64与第三层输出768×1024×64在第三个维度上相连接，输出为384×512×128；第四层：卷积层，输入为384×512×128，输出为384×512×128，通道数channels＝128；第五层：卷积层，输入为384×512×128，输出为384×512×128，通道数channels＝128；第六层：池化层，输入第四层输出384×512×128与第五层384×512×128在第三个维度上相连接，输出为192×256×256；第七层：卷积层，输入为192×256×256，输出为192×256×256，通道数channels＝256；第八层：卷积层，输入为192×256×256，输出为192×256×256，通道数channels＝256；第九层：卷积层，输入为192×256×256，输出为192×256×256，通道数channels＝256；第十层：池化层，输入为第七层输出192×256×256与第九层192×256×256在第三个维度上相连接，输出为96×128×512；第十一层：卷积层，输入为96×128×512，输出为96×128×512，通道数channels＝512；第十二层：卷积层，输入为96×128×512，输出为96×128×512，通道数channels＝512；第十三层：卷积层，输入为96×128×512，输出为96×128×512，通道数channels＝512；第十四层：池化层，输入为第十一层输出96×128×512与第十三层96×128×512在第三个维度上相连接，输出为48×64×1024；第十五层：卷积层，输入为48×64×1024，输出为48×64×512，通道数channels＝512；第十六层：卷积层，输入为48×64×512，输出为48×64×512，通道数channels＝512；第十七层：卷积层，输入为48×64×512，输出为48×64×512，通道数channels＝512；第十八层：池化层，输入为第十五层输出48×64×512与第十七层48×64×512在第三个维度上相连接，输出为48×64×1024；第十九层：卷积层，输入为48×64×1024，输出为48×64×256，通道数channels＝256；第二十层：池化层，输入为48×64×256，输出为24×62×256；第二十一层：卷积层，输入为24×32×1024，输出为24×32×256，通道数channels＝256；第二十二层：池化层，输入为24×32×256，输出为12×16×256；第二十三层：卷积层，输入为12×16×256，输出为12×16×128，通道数channels＝128；第二十四层：池化层，输入为12×16×128，输出为6×8×128；第二十五层：全连接层，首先将输入的6×8×128维度的数据展开成6144维度的向量，然后输入进全连接层，输出向量长度为768，激活函数为relu激活函数；第二十六层：全连接层，输入向量长度为768，输出向量长度为96，激活函数为relu激活函数；第二十七层：全连接层，输入向量长度为96，输出向量长度为2，激活函数为soft-ma×激活函数；所有卷积层的参数为卷积核kernel大小＝3，步长stride＝(1，1)，激活函数为relu激活函数；所有池化层均为最大池化层，其参数为池化区间大小kernel_size＝2，步长stride＝(2，2)；设该深度网络为Fconv27，对于一幅彩色图像X，经过该深度网络所得到的特征图集合用Fconv27(X)表示，该网络的评价函数为对(Fconv27(X)-y)计算其交叉熵损失函数，收敛方向为取最小值，y输入对应的分类。数据库为在自然界采集的包含人脸及非人脸的图像，每张图像为768×1024维度的彩色图像，按照图像中是否包含人脸分成两类，迭代次数为2000次。在训练结束后，取第一层到第十七层为特征抽取深度网络Fconv，对于一幅彩色图像X，经过该深度网络所得到的输出用Fconv(X)表示。

所述的构造区域选择网络，接收Fconv深度网络提取出512个48×64特征图集合Fconv(X)，然后第一步经过卷积层得到Conv₁(Fconv(X))，该卷积层的参数为：卷积核kernel大小＝1，步长stride＝(1，1)，输入为48×64×512，输出为48×64×512，通道数channels＝512；然后将Conv₁(Fconv(X))分别输入到两个卷积层(Conv_2-1和Cony_2-2)，Conv_2-1的结构为：输入为48×64×512，输出为48×64×18，通道数channels＝18，该层得到的输出为Conv_2-1(Conv₁(F_conv(X)))，再对该输出使用激活函数softmax得到softmax(Conv_2-1(Conv₁(Fconv(X))))；Conv_2-2的结构为：输入为48×64×512，输出为48×64×36，通道数channels＝36；该网络的损失函数有两个：第一个误差函数loss1为对W_shad-cls⊙(Conv_2-1(Conv₁(Fconv(X)))-W_cls(X))计算softmax误差，第二个误差函数loss2为对W_shad-reg(X)⊙(Conv_2-1(Conv₁(Fconv(X)))-W_reg(X))计算smooth L1误差，区域选择网络的损失函数＝loss1/sum(W_cls(X))+loss2/sum(W_cls(X))，sum(·)表示矩阵所有元素之和，收敛方向为取最小值，W_cls(X)和W_reg(X)分别为数据库图像X对应的正负样本信息，⊙表示矩阵按照对应位相乘，W_shad-cls(X)和W_shad-reg(X)为掩码，其作用为选择W_shad(X)中权值为1的部分进行训练，从而避免正负样本数量差距过大，每次迭代时重新生成W_shad-cls(X)和W_shad-reg(X)，算法迭代1000次。

所述的构造特征抽取深度网络中所使用的数据库，对于数据库中的每一张图像，第一步：人工标定图像中的人脸面部区域、手部区域和上肢区域，设其在输入图像的中心坐标为(a_{bas_tr}，b_{bas_tr})，中心坐标在纵向距离上下边框的距离为l_{bas_tr，}中心坐标在横向距离左右边框的距离为w_{bas_tr}，则其对应于Conv₁的位置为中心坐标为

半长为

半宽为

表示取整数部分；第二步：随机生成正负样本。

所述的随机生成正负样本，其方法为：第一步，构造9个区域框，第二步，对于数据库的每一张图像X_tr，设W_cls为48×64×18维度，W_reg为48×64×36维度，所有初始值均为0，对W_cls和W_reg进行填充。

所述的构造9个区域框，这9个区域框分别为：Ro₁(x_Ro，y_Ro)＝(x_Ro，y_Ro，64，64)，Ro₂(x_Ro，y_Ro)＝(x_Ro，y_Ro，45，90)，Ro₃(x_Ro，y_Ro)＝(x_Ro，y_Ro，90，45)，Ro₄(x_Ro，y_Ro)＝(x_Ro，y_Ro，128，128)，Ro₅(x_Ro，y_Ro)＝(x_Ro，y_Ro，90，180)，Ro₆(x_Ro，y_Ro)＝(x_Ro，y_Ro，180，90)，Ro₇(x_Ro，y_Ro)＝(x_Ro，y_Ro，256，256)，Ro₈(x_Ro，y_Ro)＝(x_Ro，y_Ro，360，180)，Ro₉(x_Ro，y_Ro)＝(x_Ro，y_Ro，180，360)，对于每一个区域块，Ro_i(x_Ro，y_Ro)表示对于第i个区域框，当前区域框的中心坐标(x_Ro，y_Ro)，第三位表示中心点距离上下边框的像素距离，第四位表示中心点距离左右边框的像素距离，i的取值从1到9。

所述的对W_cls和W_reg进行填充，其方法为：

对于每一个人工标定的人体区间，设其在输入图像的中心坐标为(a_{bas_tr}，b_{bas_tr})，中心坐标在纵向距离上下边框的距离为l_{bas_tr}，中心坐标在横向距离左右边框的距离为w_{bas_tr}，则其对应于Conv₁的位置为中心坐标为

半长为

半宽为

对于左上角

右下角坐标

所围成的区间内的每个点(x_Ctr，y_ctr)：

对于i取值从1到9：

对于点(x_Ctr，y_Ctr)，其在数据库图像的映射区间为左上角点(16(x_Ctr-1)+1，16(y_Ctr-1)+1)右下角点(16x_Ctr，16y_Ctr)所围成的16×16区间，对于该区间的每一个点(x_Otr，y_otr)：

计算(x_otr，y_otr)所对应区域Ro_i(x_Otr，y_otr)与当前人工标定的区间的重合率；

选择当前16×16区间内重合率最高的点(x_IouMax，y_IoUMax)，若重合率＞0.7，则W_cts(x_Ctr，y_Ctr，2i-1)＝1，W_cls(x_ctr，y_Ctr，2i)＝0，该样本为正样本，W_reg(x_Ctr，y_Ctr，4i-3)＝(x_Otr-16x_Ctr+8)/8，W_reg(x_Ctr，y_Ctr，4i-2)＝(y_Otr-16y_Ctr+8)/8，W_reg(x_Ctr，y_Ctr，4i-2)＝Down1(l_{bas_tr}/Ro_i的第三位)，W_reg(x_Ctr，y_ctr，4i)＝Down1(w_{bas_tr}/Ro_i的第四位)，Down1(·)表示若值大于1则取值为1；若重合率<0.3，则W_cls(x_Ctr，y_Ctr，2i-1)＝0，W_cls(x_Ctr，y_Ctr，2i)＝1；否则W_cls(x_Ctr，y_Ctr，2i-1)＝-1，W_cls(x_Ctr，y_Ctr，2i)＝-1.

若当前人工标定的区域没有重合率＞0.6的Ro_i(x_otr，y_otr)，则选择重合率最高的Ro_i(x_Otr，y_otr)对W_cls和W_reg赋值，赋值方法与重合率＞0.7的赋值方法相同。

所述的计算(x_Otr，y_otr)所对应区域Ro_i(x_Otr，y_Otr)与当前人工标定的区间的重合率，其方法为：设人工标定的人体区间在输入图像的中心坐标为(a_{bas_tr}，b_{bas_tr})，中心坐标在纵向距离上下边框的距离为l_{bas_tr}，中心坐标在横向距离左右边框的距离为w_{bas_tr}，设Ro_i(x_otr，y_Otr)的第三位为l_otr，第四位为w_Otr，若满足|x_Otr-a_{bas_tr}|≤l_otr+l_{bas_tr}-1并且|y_Otr-b_{bas_tr}|≤w_otr+w_{bas_tr}-1，说明存在重合区域，重合区域＝(l_Otr+l_{bas_tr}-1-|x_Otr-a_{bas_tr}|)×(w_otr+w_{bas_tr}-1-|_yOtr-b_{bas_tr}|)，否则重合区域＝0；计算全部区域＝(2l_otr-1)×(2w_Otr-1)+(2a_{bas_tr}-1)×(2w_{bas_tr}-1)-重合区域；从而得到重合率＝重合区域/全部区域，|·|表示取绝对值。

所述的W_shad-cls(X)和W_shad-rea(X)，其构造方法为：对于该图像X，其对应的正负样本信息为W_cls(X)和W_reg(X)，第一步，构造W_shad-cls(X)与和W_shad-reg(X)，W_shad-cls(X)与W_cls(X)维度相同，W_shad-reg(X)与W_reg(X)维度相同；第二步，记录所有正样本的信息，对于i＝1到9，若W_cls(X)(a，b，2i-1)＝1，则W_shad-cls(X)(a，b，2i-1)＝1，W_shad-cls(X)(a，b，2i)＝1，W_shad-reg(X)(a，b，4i-3)＝1，W_shad-reg(X)(a，b，4i-2)＝1，W_shad-reg(X)(a，b，4i-1)＝1，W_shad-reg(X)(a，b，4i)＝1，正样本一共选择了sum(W_shad-cls(X))个，sum(·)表示对矩阵的所有元素求和，若sum(W_shad-cls(X))＞256，随机保留256个正样本；第三步，随机选择负样本，随机选择(a，b，i)，若W_cls(X)(a，b，2i-1)＝1，则W_shad-cls(X)(a，b，2i-1)＝1，W_shad-cls(X)(a，b，2i)＝1，W_shad-reg(X)(a，b，4i-3)＝1，W_shad-reg(X)(a，b，4i-2)＝1，W_shad-reg(X)(a，b，4i-1)＝1，W_shad-reg(X)(a，b，4i)＝1，若已选中的负样本数量为256-sum(W_shad-cls(X))个，或者虽然负样本数量不足256-sum(W_shad-cls(X))个但是在20次生成随机数(a，b，i)内都无法得到负样本，则算法结束。

所述的ROI层，其输入为图像X和区域

其方法为：对于图像X通过特征抽取深度网络Fconv所得到的输出Fconv(X)的维度为48×64×512，对于每一个48×64矩阵V_{ROI_I}的信息(一共512个矩阵)，提取V_{ROI_I}矩阵中左上角

右下角

所围成的区域，

表示取整数部分；输出为roi_I(X)维度为7×7，则步长

对于i_ROI＝1：到7：

对于j_ROI＝1到7：

构造区间

roi_I(X)(i_ROI，j_ROI)＝区间内最大点的值。

当512个48×64矩阵全部处理结束后，将输出拼接得到7×7×512维度的输出

参数表示对于图像X，在区域框

范围内的ROI。

所述的构建坐标精炼网络，其方法为：第一步，扩展数据库：扩展方法为对于数据库中的每一张图像X和对应的人工标定的每个区域

其对应的ROI为

若当前区间为人体图像区域则BClass＝[1，0，0，0，0]，BBox＝[0，0，0，0]，若当前区间为人脸面部区域则BClass＝[0，1，0，0，0]，BBox＝[0，0，0，0]，若当前区间为手部区域则BClass＝[0，0，1，0，0]，BBox＝[0，0，0，0]，若当前区间为产品区域则BClass＝[0，0，0，1，0]，BBox＝[0，0，0，0]；随机生成取值在-1到1之间随机数a_rand，b_rand，l_rand，w_rand，从而得到新的区间

表示取整数部分，该区间的BBox＝[a_rand，b_rand，l_rand，w_rand]，若新的区间与

的重合率＞0.7则BClass＝当前区域的BClass，若新的区间与

的重合率<0.3，则BClass＝[0，0，0，0，1]，二者均不满足，则不赋值。每个区间最多生成10个正样本区域，设生成Num₁个正样本区域，则生成Num₁+1个负样本区域，若负样本区域不够Num₁+1个，则扩大a_rand，b_rand，l_rand，w_rand的范围，直到找到足够多的负样本数为止。第二步，构建坐标精炼网路：对于数据库中的每一张图像X和对应的人工标定的每个区域

其对应的ROI为

将将7×7×512维度的ROI展开成25088维向量，然后经过两个全连接层Fc²，得到输出Fc²(ROI)，然后将Fc²(ROI)分别通过分类层FClass和区间微调层FBBox，得到输出FClass(Fc²(ROI))和FBBox(Fc²(ROI))，分类层FClass为全连接层，其输入向量长度为512，输出向量长度为4，区间微调层FBBox为全连接层，其输入向量长度为512，输出向量长度为4；该网络的损失函数有两个：第一个误差函数loss1为对FClass(Fc²(ROI))-BClass计算softmax误差，第二个误差函数loss2为对(FBBox(Fc²(ROI))-BBox)计算欧氏距离误差，则该精炼网络的整体损失函数＝loss1+loss2，算法迭代过程为：首先迭代1000次收敛误差函数loss2，然后迭代1000次收敛整体损失函数。

所述的两个全连接层Fc²，其结构为：第一层：全连接层，输入向量长度为25088，输出向量长度为4096，激活函数为relu激活函数；第二层：全连接层，输入向量长度为4096，输出向量长度为512，激活函数为relu激活函数。

所述的对每一帧图像使用目标检测算法进行目标检测，得到当前图像的人脸面部区域、手部区域和上肢区域，其步骤为：

第一步，将输入图像X_cpst分割成768×1024维度的子图；

第二步，对于每一个子图X_s：

第2.1步，使用在初始化时构造的特征抽取深度网络Fconv进行变换，得到512个特征子图集合Fconv(X_s)；

第2.2步，对Fconv(X_s)使用区域选择网络中第一层Conv₁、第二层Conv_2-1+softmax激活函数和Conv_2-2进变换，分别得到输出softmax(Conv_2-1(Conv₁(Fconv(X_s))))和Conv_2-2(Conv₁(Fconv(X_s)))，然后根据输出值得到该区间内的所有的初步候选区间；

第2.3步，对于当前帧图像的所有子图的所有的初步候选区间：

第2.3.1步，根据其当前候选区域的得分大小进行选取，选取最大的50个初步候选区间作为候选区域；

第2.3.2步，调整候选区间集合中所有的越界候选区间，然后剔除掉候选区间中重叠的框，从而得到最终候选区间；

第2.3.3步，将子图X_s和每一个最终候选区间输入到ROI层，得到对应的ROI输出，设当前的最终候选区间为(a_BB(1)，b_BB(2)，l_BB(3)，w_BB(4))，然后计算FBBox(Fc²(ROI))得到四位输出(Out_BB(1)，Out_BB(2)，Out_BB(3)，Out_BB(4))从而得到更新后的坐标(a_BB(1)+8×Out_BB(1)，b_BB(2)+8×Out_BB(2)，l_BB(3)+8×Out_BB(3)，w_BB(4)+8×Out_BB(4))；然后计算FClass(Fc²(ROI))得到输出，若输出第一位最大则当前区间为人脸面部区域，若输出第二位最大则当前区间为手部区域，若输出第三位最大则当前区间为上肢区域，若输出第四位最大则当前区间为负样本区域并删除该最终候选区间。

第三步，更新所有子图的精炼后的最终候选区间的坐标，更新的方法为设当前候选区域的坐标为(TLx，TLy，RBx，RBy)，其对应的子图的左上角坐标为(Sea_sub，Seb_sub)，更新后的坐标为(TLx+Sea_sub-1，TLy+Seb_sub-1，RBx，RBy)。

所述的将输入图像X_cpst分割成768×1024维度的子图，其步骤为：设分割的步长为384和512，设窗口大小为m行n列，(a_sub，b_sub)为选定的区域的左上角坐标，(a，b)的初始值为(1，1)；当a_sub＜m时：

b_sub＝1；

当b_sub＜n时：

选定的区域为[(a_sub，b_sub)，(a_sub+384，b_sub+512)]，将输入图像X_cpst上该区间所对应的图像区域的信息复制到新的子图中，并附带左上角坐标(a_sub，b_sub)作为位置信息；若选定区域超出输入图像X_cpst区间，则将超出范围内的像素点对应的RGB像素值均赋值为0；

b_sub＝b_sub+512；

内层循环结束；

a_sub＝a_sub+384；

外层循环结束；

所述的根据输出值得到该区间内的所有的初步候选区间，其方法为：第一步：对于softmax(Conv_2-1(Conv₁(Fconv(X_s))))其输出为48×64×18，对于Conv_2-2(Conv₁(FConv(X_s)))，其输出为48×64×36，对于48×64维空间上的任何一点(x，y)，softmax(Conv_2-1(Conv₁(Fconv(X_s))))(x，y)为18维向量II，Conv_2-2(Conv₁(Fconv(Xs)))(x，y)为36维向量IIII，若II(2i-1)＞II(2i)，对于i取值从1到9，l_Otr为Ro_i(x_Otr，y_Otr)的第三位，w_Otr为Ro_i(x_Otr，y_Otr)的第四位，则初步候选区间为[II(2i-1)，(8×IIII(4i-3)+x，8×IIII(4i-2)+y，l_Otr×IIII(4i-1)，w_Otr×IIII(4i))]，其中第一位II(2i-1)表示当前候选区域的得分，第二位(8×IIII(4i-3)+x，8×IIII(4i-2)+y，IIII(4i-1)，IIII(4i))表示当前候选区间的中心点为(8×IIII(4i-3)+x，8×IIII(4i-2)+y)，候选框的半长半宽分别为l_otr×IIII(4i-1)和w_Otr×IIII(4i))。

所述的调整候选区间集合中所有的越界候选区间，其方法为：设监控图像为m行n列，对于每一个候选区间，设其[(a_ch，b_ch)]，候选框的半长半宽分别为l_ch和w_ch，若a_ch+l_ch＞m，则

然后更新其a_ch＝a′_ch，l_ch＝l′_ch；若b_ch+w_ch＞n，则

然后更新其b_ch＝b′_ch，w_ch＝w′_ch·

所述的剔除掉候选区间中重叠的框，其步骤为：

若候选区间集合不为空：

从候选区间集合中取出得分最大的候选区间i_out：

计算候选区间i_out与候选区间集合中的每一个候选区间i_c的重合率，若重合率＞0.7，

则从候选区间集合删除候选区间i_c；

将候选区间i_out放入输出候选区间集合；

当候选区间集合为空时，输出候选区间集合内所含的候选区间即为剔除掉候选区间中重叠的框后所得到的候选区间集合。

所述的计算候选区间i_out与候选区间集合中的每一个候选区间i_c的重合率，其方法为：设候选区间i_c的坐标区间为中心点[(a_ic，b_ic)]，候选框的半长半宽分别为l_ic和w_ic，候选区间i_c的坐标区间为中心点[(a_iout，b_icout)]，候选框的半长半宽分别为l_iout和w_iout；计算xA＝max(a_ic，a_iout)；yA＝max(b_ic，b_iout)；xB＝min(l_ic，l_iout)，yB＝min(w_ic，w_iout)；若满足|a_ic-a_iout|≤l_ic+l_iout-1并且|b_ic-b_iout|≤w_ic+w_iout-1，说明存在重合区域，重合区域＝(l_ic+l_iout-1-|a_ic-a_iout|)×(w_ic+w_iout-1-|b_ic-b_iout|)，否则重合区域＝0；计算全部区域＝(2l_ic-1)×(2w_ic-1)+(2l_iout-1)×(2w_iout-1)-重合区域；从而得到重合率＝重合区域/全部区域。

所述的人脸识别模块，其方法是：在初始化阶段，首先构造通用图像特征提取网络N1，然后保留深度网络N1的第一层到第二十三层，删掉第二十三层的激活函数，该深度网络FaceNet作为人脸图像特征提取网络，然后，读取学生在系统上登记的照片，使用初始化阶段构造人脸图像特征提取网络FaceNet对人脸图像进行特征提取，对于登记照片P，将P作为特征提取网络FaceNet的输入，得到对应的1000维度输出FaceNet(P)。在检测过程中，接受目标检测模块传递过来的人脸图像，然后判断人脸识别标签，若人脸识别标签为不识别，则跳过当前人脸图像；若人脸识别标签为识别，则对当前人脸图像进行识别，将识别结果发送给识别结果处理模块；若人脸识别标签为识别，但目标检测模块未传递过来人脸图像，将识别结果设为不通过，并发送给识别结果处理模块。

所述的构造通用图像特征提取网络N1，方法是：第一步，构建深度网络N1；第二步使用ILSVRC-2012国际标准数据库对深度网络N1进行训练。

所述的构建深度网络N1，其网络结构为：第一层：卷积层，输入为224×224×3，输出为224×224×64，通道数channels＝64；第二层：卷积层，输入为224×224×64，输出为224×224×64，通道数channels＝64；第三层：池化层，输入224×224×64，输出112×112×64；第四层：卷积层，输入为112×112×64，输出为112×112×128，通道数channels＝128；第五层：卷积层，输入为112×112×128，输出为112×112×128，通道数channels＝128；第六层：池化层，输入112×112×128，输出为56×56×128；第七层：卷积层，输入为56×56×128，输出为56×56×256，通道数channels＝256；第八层：卷积层，输入为56×56×256，输出为56×56×256，通道数channels＝256；第九层：卷积层，输入为56×56×256，输出为56×56×256，通道数channels＝256；第十层：池化层，输入为56×56×256，输出为28×28×256；第十一层：卷积层，输入为28×28×256，输出为28×28×512，通道数channels＝512；第十二层：卷积层，输入为28×28×512，输出为28×28×512，通道数channels＝512；第十三层：卷积层，输入为28×28×512，输出为28×28×512，通道数channels＝512；第十四层：池化层，输入为28×28×512，输出为14×14×512；第十五层：卷积层，输入为14×14×512，输出为14×14×512，通道数channels＝512；第十六层：卷积层，输入为14×14×512，输出为14×14×512，通道数channels＝512；第十七层：卷积层，输入为14×14×512，输出为14×14×512，通道数channels＝512；第十八层：池化层，输入为14×14×512，输出为7×7×512；第十九层：首先将输入的7×7×512的数据展开成25，088维度的向量，然后输入进全连接层，输出向量长度为4096，激活函数为relu激活函数；第二十层：Dropout层，概率为0.5；第二十一层：全连接层，输入向量长度为4096，输出向量长度为4096，激活函数为relu激活函数；第二十二层：Dropout层，概率为0.5；第二十三层：全连接层，输入向量长度为4096，输出向量长度为1000，激活函数为soft-max激活函数；所有卷积层的参数为：卷积核kernel大小＝3，步长stride＝(1,1)，激活函数为relu激活函数；所有池化层均为最大池化层，其参数为池化区间大小kernel_size＝2,步长stride＝(2,2)。

所述的使用ILSVRC-2012国际标准图像分类数据库对深度网络N1进行训练，其步骤为：首先对输入图像进行处理，因为ILSVRC-2012国际标准数据库的输入为高清图像，对于每一张图像按照最短边不变，最长以中心为基准截取一个正方形区域，然后将图像大小调整为224×224，图像大小调整采用双线性插值法，得到的224×224×3的彩色图像X作为输入，对于数据集中1000个类，构造一个1000维度的向量Y，若当前图像属于1000类中的第K类，则向量的第K位等于1，其他位等于0，处理好的数据对<X,Y>作为下一步的输入；第二步用处理好的每一个数据对<X,Y>训练深度网络N1，其中，优化方法为动量梯度下降法(SGD)，动量为0.9，权重初始值为0.01，第100次迭代后变为0.001，第500次迭代后变为0.0001,设对于输入X，网络N1的输出为N1(X)，算法的误差函数为

算法迭代1000次。

所述的对当前人脸图像进行识别，其步骤为：首先读取当前用户的人脸图像特征标准向量，若特征提取向量不存在，则以初始化阶段计算得到的FaceNet(P)作为该用户的人脸图像特征标准向量；然后待识别的目标检测模块传递来的图像Xc，将Xc作为特征提取网络FaceNet的输入，得到对应的1000维度输出FaceNet(Xc)，然后计算

若loss(Xc)<θ，则识别通过并将该用户的人脸图像特征标准向量更新为FaceNet(Xc)，否则识别不通过，其中θ为阈值。

所述的θ为阈值，该阈值的计算方法如下：从系统中抽取随机抽取9位用户，构建用户集合G9，设系统中共有Nsys个用户。

对于G9中的每一个用户i，其登记照片为X(i),lossSum＝0：

对于系统中剩余Nsys-1个用户的每一个用户j,其登记照片为X(j)：

用户i的loss(i)＝lossSum/(Nsys-1).

将9位用户的计算结果从大到小排序，取第二位的值作为阈值θ。

所述的头部方向检测模块，其方法是：在初始化过程中，根据通用图像特征提取网络N1构造人脸朝向神经网路分类器ForientNet，并使用搜集到的人脸不同角度朝向图像对人脸朝向神经网路分类器ForientNet进行训练；在检测过程中，接受目标检测模块传递过来的人脸区域图像，若方向识别标签为不识别，则跳过当前图像；若方向识别标签为识别，则使用人脸朝向神经网路分类器ForientNet判断人脸区域图像的人脸朝向的角度，将识别结果发送给识别结果处理模块。

所述的根据通用图像特征提取网络N1构造人脸朝向神经网路分类器ForientNet，其步骤为：首先，将通用图像特征提取网络N1的第二十三层的激活函数改为relu激活函数，然后添加：第二十四层：全连接层，输入向量长度为1000，输出向量长度为200，激活函数为relu激活函数；第二十五层：Dropout层，概率为0.5；第二十六层：由两个全连接层组成，分别为水平角度全连接层和垂直角度全连接层，两个全连接层的输入向量长度均为200，输出向量长度均为13，每一个全连接层激活函数均为soft-max激活函数，因此第二十六层整体的输出向量长度为26，添加层其他设置与通用图像特征提取网络N1相同。

所述的使用搜集到的人脸不同角度朝向图像对人脸朝向神经网路分类器ForientNet进行训练，其步骤为：第一步：构造人脸不同角度朝向图像数据集；第二步：对数据集图像进行处理，对于每一张照片，首先对于每一张图像按照最短边不变，最长以中心为基准截取一个正方形区域，然后将图像大小调整为224×224，图像大小调整采用双线性插值法，得到的224×224×3的彩色图像X作为输入，对于数据集合中的13类，构造一个13维度的向量Y，若当前图像属于13类中的第K类，则向量的第K位等于1，其他位等于0，处理好的数据对<X,Y>作为下一步的输入；第三步，用处理好的每一个数据对<X,Y>训练人脸朝向神经网路分类器ForientNet。

所述的构造人脸不同角度朝向图像数据集，其构造方法为：每一张图像由横向朝向角度和纵向朝向角度组成，首先采集人脸横向朝向图像，横向朝向以正面对摄像头为中心点0度，最左侧为-90度，最右侧为90度，每15度架设一个摄像头，从而横向坐标一共13个摄像头，被采集人脸面对0度摄像头，然后13个摄像头同时拍摄，待所有被摄人脸拍摄完毕后，水平方向的每一个摄像头内的照片为一组，以其照片摄像头水平架设角度命名，例如-90度摄像头命名为-90度，45度摄像头命名为45度；然后采集纵向朝向人脸图像，纵向朝向以正面对摄像头为中心点0度，最下侧为-75度，最上侧为90度，每15度架设一个摄像头，从而纵向坐标一共12个摄像头，被采集人脸面对0度摄像头，然后12个摄像头同时拍摄，待当前人脸拍摄结束后，人脸面对45度摄像头，-45度摄像头拍摄的图像作为最下侧-90度图像，待所有被摄人脸拍摄完毕后，水平方向的每一个摄像头内的照片为一组，以其照片摄像头水平架设角度命名。从而得到人脸不同角度朝向图像数据集，其中水平方向从-90度到90度，每15度为1类，共13类；垂直方向从-90度到90度，每15度为1类，共13类。

所述的用处理好的每一个数据对<X,Y>训练人脸朝向神经网路分类器ForientNet，其步骤为：将水平朝向数据集的输入数据对和垂直朝向数据集的输入数据对<Xv,Yv>依次作为网络的输入。网络的，优化方法为动量梯度下降法(SGD)，动量为0.9，权重初始值为0.01，第100次迭代后变为0.001，第500次迭代后变为0.0001,设对于输入X，网络N1的输出为N1(X)，算法的误差函数为

算法迭代1000次，取ForientNet中从第一层到第二十六层的水平角度全连接层作为水平朝向分类器ForientNet_Hor，取ForientNet中从第一层到第二十六层的垂直角度全连接层作为垂直朝向分类器ForientNet_Ver。每一轮迭代过程如下：对于每一轮迭代：

从水平朝向数据集取一个batch的输入数据对<Xh,Yh>：

以<Xh,Yh>作为输入，优化水平朝向分类器ForientNet_Hor，其中ForientNet_Hor网络的第一层到第二十三层参数不变，第二十六层的垂直角度全连接层参数不做优化。

从垂直朝向数据集取一个batch的输入数据对<Xv,Yv>：

以<Xv,Yv>作为输入，优化垂直朝向分类器ForientNet_Ver，其中ForientNet_Ver网络的第一层到第二十三层参数不变，第二十六层的水平角度全连接层参数不做优化。

直到水平朝向数据集和垂直朝向数据集均为空时，当前轮迭代结束。

所述的使用人脸朝向神经网路分类器ForientNet判断人脸区域图像的人脸朝向的角度，其步骤为：对于当前输入的图像Xf，将Xf作为人脸朝向神经网路分类器ForientNet的输入，得到对应的26维度输出MotionNet(Xc)，其中水平角度全连接层输出为13维，垂直角度全连接层输出为13维，若水平角度全连接层输出向量的第Kh位最大，则当前图像水平角度即为对应于13个角度的第Kh个角度Oh(Kh),若垂直角度全连接层输出向量的第Kv位最大，则当前图像垂直角度即为对应于13个角度的第Kv个角度Ov(Kv)。

所述的学生动作识别模块，其方法是：在初始化阶段，根据通用图像特征提取网络N1构造动作识别神经网路分类器MotionNet，然后使用搜集到的手部和上肢部的动作对MotionNet进行训练；在检测过程中，接受目标检测模块传递过来的手部区域图像或上肢区域图像，然后判断动作识别标签，若动作识别标签为不识别，则跳过当前图像，若动作识别标签为识别，则对当前图像使用动作识别神经网路分类器MotionNet进行识别，将识别结果发送给识别结果处理模块。

所述的根据通用图像特征提取网络N1构造动作识别神经网路分类器MotionNet，其步骤为：首先，将通用图像特征提取网络N1的第二十三层的激活函数改为relu激活函数，然后添加：第二十四层：全连接层，输入向量长度为1000，输出向量长度为200，激活函数为relu激活函数；第二十五层：Dropout层，概率为0.5；第二十六层：全连接层，输入向量长度为200，输出向量长度为23，激活函数为soft-max激活函数，添加层其他设置与通用图像特征提取网络N1相同。

所述的使用搜集到的手部和上肢部的动作对MotionNet进行训练，其步骤为：首先对输入图像进行处理，搜集到的手部动作包括：左手手势数字0到9，右手手势数字0到9，左手举手，右手举手动作，共22种动作，以及无效动作类，一共23种动作，将23种动作调整为224×224维度大小的图像X作为MotionNet的输入，对于23种动作，构造一个23维度的向量Y，每一个动作对应23维度种的一个维度，若当前图像属于23类中的第K类动作，则向量的第K位等于1，其他位等于0，处理好的数据对<X,Y>作为下一步的输入；然后用处理好的每一个数据对<X,Y>训练深度网络MotionNet，其中，MotionNet网络的第一层到第二十三层参数在整个训练过程中不变，网络的优化方法为动量梯度下降法(SGD)，动量为0.9，权重初始值为0.01，第10次迭代后变为0.001，设对于输入X，网络N1的输出为N1(X)，算法的误差函数为

算法迭代100次。

所述的对当前图像使用动作识别神经网路分类器MotionNet进行识别，其步骤为：对于当前输入的图像Xm，将Xm作为动作识别神经网路分类器MotionNet的输入，得到对应的23维度输出MotionNet(Xc)，若输出向量的第K位最大，则当前图像即为第K类，对应于23种手部动作的第K个动作。

所述的识别结果处理模块，其方法为，在初始化阶段，该模块不工作；在检测过程中，在识别过程中，对接收到的结果进行处理。对于每一个用户，构造人脸识别间隔变量Tface，每堂课开始时，Tface＝100，构造注意力方向识别间隔变量Tattention，每堂课开始时，Tattention＝100；构造动作识别间隔变量Tmotion，每堂课开始时，Tmotion＝-1，构造人脸识别标签、方向识别标签、动作识别标签，初始时均为不识别。

对于人脸识别标签，在每堂课开始时，将人脸识别标签变为识别，然后每间隔Tface帧将人脸识别标签变为识别，在间隔Tface帧内将人脸识别标签变为不识别。

对人脸识别模块传递来的识别结果：对于当前用户，若人脸识别模块传递来的识别结果为通过，则更新Tface＝5×Tface，若Tface＞7200，则置Tface＝7200；若人脸识别模块传递来的识别结果为不通过，则更新Tface＝Tface/5，若Tface＜1则置Tface＝100，并统计识别不通过次数，若识别不通过次数超过1000，则将当前学生识别不通过信息通知教师，由教师进行识别，若教师识别为通过，则计算当前目标检测框人脸图像Xc对应于人脸图像特征提取网络FaceNet输出FaceNet(Xc)，并更改该用户的人脸图像特征标准向量为FaceNet(Xc)。

对于方向识别标签，在每堂课开始时，将方向识别标签变为识别，然后每间隔Tattention帧将方向识别标签变为识别，在间隔Tattention帧内将方向识别标签变为不识别。

对头部方向检测模块传递来的识别结果：首先，设置人脸朝向的基准偏移角度，水平偏移θh＝0度，垂直偏移θh＝0度，然后接收到传递来的头部方向检测模块传递来的人脸图像横向朝向角度Angh和纵向朝向角度Angv，此时人脸图像实际朝向为水平朝向为Angh-θh，实际纵向朝向角度Angv-θv，若Angh-θh＞0度或者|Angv-θv|＞45度，认为当前学生视线方向不正确，否则认为当前学生视线方向正确。若识别为视线方向正确，则Tattention＝5×Tattention，若Tattention＞7200，则置Tattention＝7200，若识别为视线方向不正确，则更新Tattention＝Tattention/5，若Tattention＜1则置Tattention＝100，并统计识别视线方向不正确次数，若识别视线方向不正确次数超过1000，则将当前学生识别不通过信息通知教师，由教师进行识别，若教师识别为视线方向正确，则更改当前人脸朝向的基准偏移角度，将水平偏移θh＝Angh，垂直偏移θh＝Angv。

对于动作识别标签，若Tmotion＝-1，则动作识别标签为不识别；然后等待Tmotion变化，若Tmotion＞-1，则每间隔Tmotion帧将动作识别标签，在间隔Tattention帧内将方向识别标签变为不识别。在课堂进行中，动作识别标签根据教师的操作进行改变，若教师要求识别学生动作，则动作识别标签变为识别，并设置Tmotion＝100，若学生动作识别模块传递来的识别结果为无效动作则Tmotion＝2×Tmotion，否则将学生动作识别模块传递来的识别结果传递给教师并设置Tmotion＝-1。

本发明的有益效果是，通过人脸识别登录，避免学生找人代课问题，通过检测学生头部朝向，避免学生上课时候注意力分散，通过学生动作识别模块，来提高学生在网课的参与度，识别结果处理模块将识别结果交给教师处理，使教师能够主导课堂纪律。本发明涉及到的功能不会改变原有网课系统的架构，能够以即插即用方式与现有网课系统对接，从而使本发明在实际应用中有着较高的灵活性。

附图说明

图1是本发明的功能流程图

图2是本发明整体的功能模块及其相互关系框图

具体实施方式

下面结合附图对本发明作进一步的说明。

所述的一种智能网课系统，其功能流程图如图1所示，其模块之间的相互关系如图2所示。

下面提供两个具体实施例对本发明所述的一种智能网课系统的具体过程进行说明：

实施例1：

本实施例实现了一种智能网课系统的参数初始化的过程。

1.图像预处理模块，在初始化阶段该模块不工作；

2.目标检测模块，在初始化过程中，使用带有已标定人脸面部区域、手部区域和上肢区域的图像对目标检测算法进行参数初始化。

然后通过ROI层，其输入为图像X和区域

输出

为7×7×512维度的；第三步，构建坐标精炼网络。

所述的构造特征抽取深度网络，该网络为深度学习网络结构，其网络结构为：第一层：卷积层，输入为768×1024×3，输出为768×1024×64，通道数channels＝64；第二层：卷积层，输入为768×1024×64，输出为768×1024×64，通道数channels＝64；第三层：池化层，输入第一层输出768×1024×64与第三层输出768×1024×64在第三个维度上相连接，输出为384×512×128；第四层：卷积层，输入为384×512×128，输出为384×512×128，通道数channels＝128；第五层：卷积层，输入为384×512×128，输出为384×512×128，通道数channels＝128；第六层：池化层，输入第四层输出384×512×128与第五层384×512×128在第三个维度上相连接，输出为192×256×256；第七层：卷积层，输入为192×256×256，输出为192×256×256，通道数channels＝256；第八层：卷积层，输入为192×256×256，输出为192×256×256，通道数channels＝256；第九层：卷积层，输入为192×256×256，输出为192×256×256，通道数channels＝256；第十层：池化层，输入为第七层输出192×256×256与第九层192×256×256在第三个维度上相连接，输出为96×128×512；第十一层：卷积层，输入为96×128×512，输出为96×128×512，通道数channels＝512；第十二层：卷积层，输入为96×128×512，输出为96×128×512，通道数channels＝512；第十三层：卷积层，输入为96×128×512，输出为96×128×512，通道数channels＝512；第十四层：池化层，输入为第十一层输出96×128×512与第十三层96×128×512在第三个维度上相连接，输出为48×64×1024；第十五层：卷积层，输入为48×64×1024，输出为48×64×512，通道数channels＝512；第十六层：卷积层，输入为48×64×512，输出为48×64×512，通道数channels＝512；第十七层：卷积层，输入为48×64×512，输出为48×64×512，通道数channels＝512；第十八层：池化层，输入为第十五层输出48×64×512与第十七层48×64×512在第三个维度上相连接，输出为48×64×1024；第十九层：卷积层，输入为48×64×1024，输出为48×64×256，通道数channels＝256；第二十层：池化层，输入为48×64×256，输出为24×62×256；第二十一层：卷积层，输入为24×32×1024，输出为24×32×256，通道数channels＝256；第二十二层：池化层，输入为24×32×256，输出为12×16×256；第二十三层：卷积层，输入为12×16×256，输出为12×16×128，通道数channels＝128；第二十四层：池化层，输入为12×16×128，输出为6×8×128；第二十五层：全连接层，首先将输入的6×8×128维度的数据展开成6144维度的向量，然后输入进全连接层，输出向量长度为768，激活函数为relu激活函数；第二十六层：全连接层，输入向量长度为768，输出向量长度为96，激活函数为relu激活函数；第二十七层：全连接层，输入向量长度为96，输出向量长度为2，激活函数为soft-max激活函数；所有卷积层的参数为卷积核kernel大小＝3，步长stride＝(1，1)，激活函数为relu激活函数；所有池化层均为最大池化层，其参数为池化区间大小kernel_size＝2，步长stride＝(2，2)；设该深度网络为Fconv27，对于一幅彩色图像X，经过该深度网络所得到的特征图集合用Fconv27(X)表示，该网络的评价函数为对(Fconv27(X)-y)计算其交叉熵损失函数，收敛方向为取最小值，y输入对应的分类。数据库为在自然界采集的包含人脸及非人脸的图像，每张图像为768×1024维度的彩色图像，按照图像中是否包含人脸分成两类，迭代次数为2000次。在训练结束后，取第一层到第十七层为特征抽取深度网络Fconv，对于一幅彩色图像X，经过该深度网络所得到的输出用Fconv(X)表示。

所述的构造区域选择网络，接收Fconv深度网络提取出512个48×64特征图集合Fconv(X)，然后第一步经过卷积层得到Conv₁(Fconv(X))，该卷积层的参数为：卷积核kernel大小＝1，步长stride＝(1，1)，输入为48×64×512，输出为48×64×512，通道数channels＝512；然后将Conv₁(Fconv(X))分别输入到两个卷积层(Conv_2-1和Conv_2-2)，Conv_2-1的结构为：输入为48×64×512，输出为48×64×18，通道数channels＝18，该层得到的输出为Conv_2-1(Conv₁(Fconv(X)))，再对该输出使用激活函数softmax得到softmax(Conv_2-1(Conv₁(Fconv(X))))；Conv_2-2的结构为：输入为48×64×512，输出为48×64×36，通道数channels＝36；该网络的损失函数有两个：第一个误差函数loss1为对W_shad-cls⊙(Conv_2-1(Conv₁(Fconv(X)))-W_cls(X))计算softmax误差，第二个误差函数loss2为对W_shad-reg(X)⊙(Conv_2-1(Conv₁(Fconv(X)))-W_reg(X))计算smooth L1误差，区域选择网络的损失函数＝loss1/sum(W_cls(X))+loss2/sum(W_cls(X))，sum(·)表示矩阵所有元素之和，收敛方向为取最小值，W_cls(X)和W_reg(X)分别为数据库图像X对应的正负样本信息，⊙表示矩阵按照对应位相乘，W_shad-cls(X)和W_shad-reg(X)为掩码，其作用为选择W_shad(X)中权值为1的部分进行训练，从而避免正负样本数量差距过大，每次迭代时重新生成W_shad-cls(X)和W_shad-reg(X)，算法迭代1000次。

所述的构造特征抽取深度网络中所使用的数据库，对于数据库中的每一张图像，第一步：人工标定图像中的人脸面部区域、手部区域和上肢区域，设其在输入图像的中心坐标为(a_{bas_tr}，b_{bas_tr})，中心坐标在纵向距离上下边框的距离为l_{bas_tr}，中心坐标在横向距离左右边框的距离为w_{bas_tr}，则其对应于Conv₁的位置为中心坐标为

半长为

半宽为

表示取整数部分；第二步：随机生成正负样本。

所述的对W_cls和W_reg进行填充，其方法为：

半长为

半宽为

对于左上角

右下角坐标

所围成的区间内的每个点(x_Ctr，y_ctr)：

对于i取值从1到9：

选择当前16×16区间内重合率最高的点(x_IoUMax，y_IoUMax)，若重合率＞0.7，则W_cls(x_Ctr，y_Ctr，2i-1)＝1，W_cls(x_Ctr，y_Ctr，2i)＝0，该样本为正样本，W_reg(x_Ctr，y_Ctr，4i-3)＝(x_Otr-16x_Ctr+8)/8，W_reg(x_Ctr，y_Ctr，4i-2)＝(y_Otr-16y_Ctr+8)/8，W_reg(x_Ctr，y_Ctr，4i-2)＝Down1(l_{bas_tr}/Ro_i的第三位)，W_reg(x_Ctr，y_Ctr，4i)＝Down1(w_{bas_tr}/Ro_i的第四位)，Down1(·)表示若值大于1则取值为1；若重合率<0.3，则W_cls(x_Ctr，y_Ctr，2i-1)＝0，W_cls(x_Ctr，y_Ctr，2i)＝1；否则W_cls(x_Ctr，y_Ctr，2i-1)＝-1，W_cls(x_Ctr，y_Ctr，2i)＝-1.

所述的计算(x_Otr，y_Otr)所对应区域Ro_i(x_Otr，y_Otr)与当前人工标定的区间的重合率，其方法为：设人工标定的人体区间在输入图像的中心坐标为(a_{bas_tr}，b_{bas_tr})，中心坐标在纵向距离上下边框的距离为l_{bas_tr}，中心坐标在横向距离左右边框的距离为w_{bas_tr}，设Ro_i(x_otr，y_Otr)的第三位为l_otr，第四位为w_Otr，若满足|x_Otr-a_{bas_tr}|≤l_otr+l_{bas_tr}-1并且|y_Otr-b_{bas_tr}|≤w_Otr+w_{bas_tr}-1，说明存在重合区域，重合区域＝(l_Otr+l_{bas_tr}-1-|x_Otr-a_{bas_tr}|)×(w_Otr+w_{bas_tr}-1-|y_Otr-b_{bas_tr}|)，否则重合区域＝0；计算全部区域＝(2l_Otr-1)×(2w_Otr-1)+(2a_{bas_tr}-1)×(2w_{bas_tr}-1)-重合区域；从而得到重合率＝重合区域/全部区域，|·|表示取绝对值。

所述的W_shad-cls(X)和W_shad-reg(X)，其构造方法为：对于该图像X，其对应的正负样本信息为W_cls(X)和W_reg(X)，第一步，构造W_shad-cls(X)与和W_shad-reg(X)，W_shad-cls(X)与W_cls(X)维度相同，W_shad-reg(X)与W_reg(X)维度相同；第二步，记录所有正样本的信息，对于i＝1到9，若W_cls(X)(a，b，2i-1)＝1，则W_shad-cls(X)(a，b，2i-1)＝1，W_shad-cls(X)(a，b，2i)＝1，W_shad-reg(X)(a，b，4i-3)＝1，W_shad-reg(X)(a，b，4i-2)＝1，W_shad-reg(X)(a，b，4i-1)＝1，W_shad-reg(X)(a，b，4i)＝1，正样本一共选择了sum(W_shad-cls(X))个，sum(·)表示对矩阵的所有元素求和，若sum(W_shad-cls(X))＞256，随机保留256个正样本；第三步，随机选择负样本，随机选择(a，b，i)，若W_cls(X)(a，b，2i-1)＝1，则W_shad-cls(X)(a，b，2i-1)＝1，W_shad-cls(X)(a，b，2i)＝1，W_shad-reg(X)(a，b，4i-3)＝1，W_shad-reg(X)(a，b，4i-2)＝1，W_shad-reg(X)(a，b，4i-1)＝1，W_shad-reg(X)(a，b，4i)＝1，若已选中的负样本数量为256-sum(W_shad-cls(X))个，或者虽然负样本数量不足256-sum(W_shad-cls(X))个但是在20次生成随机数(a，b，i)内都无法得到负样本，则算法结束。

所述的ROI层，其输入为图像X和区域

右下角

所围成的区域，

表示取整数部分；输出为roi_I(X)维度为7×7，则步长

对于i_RoI＝1：到7：

对于j_ROI＝1到7：

构造区间

roi_I(X)(i_ROI，j_ROI)＝区间内最大点的值。

参数表示对于图像X，在区域框

范围内的ROI。

其对应的ROI为

的重合率＞0.7则BClass＝当前区域的BClass，若新的区间与

其对应的ROI为

3.所述的人脸识别模块，其方法是：在初始化阶段，首先构造通用图像特征提取网络N1，然后保留深度网络N1的第一层到第二十三层，删掉第二十三层的激活函数，该深度网络FaceNet作为人脸图像特征提取网络，然后，读取学生在系统上登记的照片，使用初始化阶段构造人脸图像特征提取网络FaceNet对人脸图像进行特征提取，对于登记照片P，将P作为特征提取网络FaceNet的输入，得到对应的1000维度输出FaceNet(P)。

所述的构建深度网络N1，其网络结构为：第一层：卷积层，输入为224×224×3，输出为224×224×64，通道数channels＝64；第二层：卷积层，输入为224×224×64，输出为224×224×64，通道数channels＝64；第三层：池化层，输入224×224×64，输出112×112×64；第四层：卷积层，输入为112×112×64，输出为112×112×128，通道数channels＝128；第五层：卷积层，输入为112×112×128，输出为112×112×128，通道数channels＝128；第六层：池化层，输入112×112×128，输出为56×56×128；第七层：卷积层，输入为56×56×128，输出为56×56×256，通道数channels＝256；第八层：卷积层，输入为56×56×256，输出为56×56×256，通道数channels＝256；第九层：卷积层，输入为56×56×256，输出为56×56×256，通道数channels＝256；第十层：池化层，输入为56×56×256，输出为28×28×256；第十一层：卷积层，输入为28×28×256，输出为28×28×512，通道数channels＝512；第十二层：卷积层，输入为28×28×512，输出为28×28×512，通道数channels＝512；第十三层：卷积层，输入为28×28×512，输出为28×28×512，通道数channels＝512；第十四层：池化层，输入为28×28×512，输出为14×14×512；第十五层：卷积层，输入为14×14×512，输出为14×14×512，通道数channels＝512；第十六层：卷积层，输入为14×14×512，输出为14×14×512，通道数channels＝512；第十七层：卷积层，输入为14×14×512，输出为14×14×512，通道数channels＝512；第十八层：池化层，输入为14×14×512，输出为7×7×512；第十九层：首先将输入的7×7×512的数据展开成25,088维度的向量，然后输入进全连接层，输出向量长度为4096，激活函数为relu激活函数；第二十层：Dropout层，概率为0.5；第二十一层：全连接层，输入向量长度为4096，输出向量长度为4096，激活函数为relu激活函数；第二十二层：Dropout层，概率为0.5；第二十三层：全连接层，输入向量长度为4096，输出向量长度为1000，激活函数为soft-max激活函数；所有卷积层的参数为：卷积核kernel大小＝3，步长stride＝(1,1)，激活函数为relu激活函数；所有池化层均为最大池化层，其参数为池化区间大小kernel_size＝2,步长stride＝(2,2)。

算法迭代1000次。

4.所述的头部方向检测模块，其方法是：在初始化过程中，根据通用图像特征提取网络N1构造人脸朝向神经网路分类器ForientNet，并使用搜集到的人脸不同角度朝向图像对人脸朝向神经网路分类器ForientNet进行训练。

从水平朝向数据集取一个batch的输入数据对<Xh,Yh>：

从垂直朝向数据集取一个batch的输入数据对<Xv,Yv>：

5.所述的学生动作识别模块，其方法是：在初始化阶段，根据通用图像特征提取网络N1构造动作识别神经网路分类器MotionNet，然后使用搜集到的手部和上肢部的动作对MotionNet进行训练。

所述的使用搜集到的手部和上肢部的动作对MotionNet进行训练，其步骤为：首先对输入图像进行处理，搜集到的手部动作包括：左手手势数字0到9，右手手势数字0到9，左手举手，右手举手动作，共22种动作，以及无效动作类，一共23种动作，将23种动作调整为224×224维度大小的图像X作为MotionNet的输入，对于23种动作，构造一个23维度的向量Y，每一个动作对应23维度种的一个维度，若当前图像属于23类中的第K类动作，则向量的第K位等于1，其他位等于0，处理好的数据对<X，Y>作为下一步的输入；然后用处理好的每一个数据对<X，Y>训练深度网络MotionNet，其中，MotionNet网络的第一层到第二十三层参数在整个训练过程中不变，网络的优化方法为动量梯度下降法(SGD)，动量为0.9，权重初始值为0.01，第10次迭代后变为0.001，设对于输入X，网络N1的输出为N1(X)，算法的误差函数为

算法迭代100次。

6.所述的识别结果处理模块，在初始化阶段。

实施例2：

本实施例实现了一种智能网课系统的检测过程。

1.图像预处理模块，在检测过程中：第一步，对监控摄像头所摄的监控图像进行均值去噪，从而得到去噪后的监控图像；第二步，对去噪后的监控图像进行光照补偿，从而得到光照补偿后的图像；第三步，将光照补偿后的图像进行图像增强，将图像增强后的数据传递给目标检测模块。

所述的对监控摄像头所摄的监控图像进行均值去噪，其方法是：设监控摄像头所摄的监控图像为X_src，因为X_src为彩色RGB图像，因此存在X_src-R，X_src-G，X_src-B三个分量，对于每一个分量X_src′，分别进行如下操作：首先设置一个3×3维的窗口，考虑该图像X_src′的每个像素点X_src′(i，j)，以该点为中心点的3×3维矩阵所对应的像素值分别为[X_src′(i-1，j-1)，X_src′(i-1，j)，X_src′(i-1，j+1)，X_src′(i，j-1)，X_src′(i，j)，X_src′(i，j+1)，X_src′(i+1，j-1)，X_src′(i+1，j)，Xs_rc′(j+1，j+1)]进行从大到小排列，取其排在中间的值为去噪后图像X_src″在像素(i，j)所对应滤波后值赋值给X_src″(i，j)；对于X_src′的边界点，会出现其3×3维的窗口所对应的某些像素点不存在的情况，那么只需计算落在窗口内存在的像素点的中间值即可，若窗口内为偶数个点，将排在中间两个像素值的平均值作为该像素点去噪后的像素值赋值给X_src″(i，j)，从而，新的图像矩阵X_src″即为X_src在当前RGB分量的去噪后的图像矩阵，对于X_src-R，X_src-G，X_src-B在三个分量分别进行去噪操作后，将得到的X_src-R″，X_src-G″，X_src-B″分量，将这三个新的分量整合成一张新的彩色图像X_Den即为去噪后所得的图像。

步长

窗口大小为l，其中函数min(m，n)表示取m和n的最小值，

表示取整数部分，sqrt(l)表示l的平方根，若l＜1则l＝1；第二步，设X_Den左上角坐标为(1，1)，从坐标(1，1)开始，根据窗口大小为l和步长s确定每一个候选框，该候选框为[(a，b)，(a+l，b+l)]所围成的区域，对于X_Den′在候选框区域内所对应的图像矩阵进行直方图均衡化，得到候选区域[(a，b)，(a+l，b+l)]的均衡化后的图像矩阵X_Den″，然后X_Den′^sum对应的[(a，b)，(a+l，b+l)]区域的每一个元素计算X_Den′^sum(a+i_Xsum，b+j_Xsum)＝X_Den′^sum(a+i_Xsum，b+j_Xsum)+X_Den″(i_Xsum,j_Xsum)，其中(i_Xsum，j_Xsum)为整数且1≤i_Xsum≤l，1≤j_Xsum≤l，并将Num_Den对应的[(a，b)，(a+l，b+l)]区域内的每一个元素加1；最后，计算

其中(i_XsumNumj_XsumNum)为X_Den对应的每一个点，从而得到X_cpst即为对当前分量X_Den′进行光照补偿。

当a+l≤m时：

b＝1；

当b+l≤n时：

选定的区域为[(a，b)，(a+l，b+l)]；

b＝b+s；

内层循环结束；

a＝a+s；

外层循环结束；

所述的对于X_Den′在候选框区域内所对应的图像矩阵进行直方图均衡化，设候选框区域为[(a，b)，(a+l，b+l)]所围成的区域，X_Den″即为X_Den′在[(a，b)，(a+l，b+l)]区域内的图像信息，其步骤为：第一步，构造向量I，I(i_I)为X_Den′′中像素值等于i_I的个数，0≤i_I≤255；第二步，计算向量

其中

表示卷积运算，对于距离边界低于尺度σ的点，只计算X_cpstR与G(x，y，σ)对应部分的卷积，Fix()表示取整数部分，若取值＜0则赋值为0，取值＞255则赋值为255。对于RGB通道中的G通道和B通道采用与R通道同样的算法更新X_cpstG和X_cpstG。2.目标检测模块，在检测过程中，接收图像预处理模块所传递来的图像，然后对其进行处理，对每一帧图像使用目标检测算法进行目标检测，得到当前图像的人脸面部区域、手部区域和上肢区域，将提取到的人脸面部区域传递给人脸识别模块和头部方向检测模块、将上肢区域和手部区域图像传递给学生动作识别模块。

第一步，将输入图像X_cpst分割成768×1024维度的子图；

第二步，对于每一个子图X_s：

第2.2步，对Fconv(X_s)使用区域选择网络中第一层Conv₁、第二层Conv_2-1+softmax激活函数和Cony_2-2进变换，分别得到输出softmax(Conv_2-1(Conv₁(Fconv(X_s))))和Conv_2-2(Conv₁(Fconv(X_s)))，然后根据输出值得到该区间内的所有的初步候选区间；

b_sub＝1；

当b_sub＜n时：

b_sub＝b_sub+512；

内层循环结束；

a_sub＝a_sub+384；

外层循环结束；

所述的根据输出值得到该区间内的所有的初步候选区间，其方法为：第一步：对于softmax(Conv_2-1(Conv₁(Fconv(X_s))))其输出为48×64×18，对于Conv_2-2(Conv₁(Fconv(X_s)))，其输出为48×64×36，对于48×64维空间上的任何一点(x，y)，softmax(Conv_2-1(Conv₁(Fconv(X_s))))(x，y)为18维向量II，Conv_2-2(Conv₁(Fconv(X_s)))(x，y)为36维向量IIII，若II(2i-1)＞II(2i)，对于i取值从1到9，l_otr为Ro_i(x_Otr，y_otr)的第三位，w_otr为Ro_i(x_Otr，y_Otr)的第四位，则初步候选区间为[II(2i-1)，(8×IIII(4i-3)+x，8×IIII(4i-2)+y，l_Otr×IIII(4i-1)，w_otr×IIII(4i))]，其中第一位II(2i-1)表示当前候选区域的得分，第二位(8×IIII(4i-3)+x，8×IIII(4i-2)+y，IIII(4i-1)，IIII(4i))表示当前候选区间的中心点为(8×IIII(4i-3)+x，8×IIII(4i-2)+y)，候选框的半长半宽分别为l_otr×IIII(4i-1)和w_Otr×IIII(4i))。

然后更新其a_ch＝a′_ch，l_ch＝l′_ch；若b_ch+w_ch＞n，则

然后更新其b_ch＝b′_ch，w_ch＝w′_ch.

所述的剔除掉候选区间中重叠的框，其步骤为：

若候选区间集合不为空：

从候选区间集合中取出得分最大的候选区间i_out：

则从候选区间集合删除候选区间i_c；

将候选区间i_out放入输出候选区间集合；

3.人脸识别模块，在检测过程中，接受目标检测模块传递过来的人脸图像，然后判断人脸识别标签，若人脸识别标签为不识别，则跳过当前人脸图像；若人脸识别标签为识别，则对当前人脸图像进行识别，将识别结果发送给识别结果处理模块；若人脸识别标签为识别，但目标检测模块未传递过来人脸图像，将识别结果设为不通过，并发送给识别结果处理模块。

若loss(Xc)＜θ，则识别通过并将该用户的人脸图像特征标准向量更新为FaceNet(Xc)，否则识别不通过，其中θ为阈值。

对于G9中的每一个用户i，其登记照片为X(i)，lossSum＝0：

对于系统中剩余Nsys-1个用户的每一个用户j，其登记照片为X(j)：

用户i的loss(i)＝lossSum/(Nsys-1).

4.所述的头部方向检测模块，在检测过程中，接受目标检测模块传递过来的人脸区域图像，若方向识别标签为不识别，则跳过当前图像；若方向识别标签为识别，则使用人脸朝向神经网路分类器ForientNet判断人脸区域图像的人脸朝向的角度，将识别结果发送给识别结果处理模块。

所述的使用人脸朝向神经网路分类器ForientNet判断人脸区域图像的人脸朝向的角度，其步骤为：对于当前输入的图像Xf，将Xf作为人脸朝向神经网路分类器ForientNet的输入，得到对应的26维度输出MotionNet(Xc)，其中水平角度全连接层输出为13维，垂直角度全连接层输出为13维，若水平角度全连接层输出向量的第Kh位最大，则当前图像水平角度即为对应于13个角度的第Kh个角度Oh(Kh)，若垂直角度全连接层输出向量的第Kv位最大，则当前图像垂直角度即为对应于13个角度的第Kv个角度Ov(Kv)。

5.所述的学生动作识别模块，在检测过程中，接受目标检测模块传递过来的手部区域图像或上肢区域图像，然后判断动作识别标签，若动作识别标签为不识别，则跳过当前图像，若动作识别标签为识别，则对当前图像使用动作识别神经网路分类器MotionNet进行识别，将识别结果发送给识别结果处理模块。

6.识别结果处理模块，在检测过程中，在识别过程中，对接收到的结果进行处理。对于每一个用户，构造人脸识别间隔变量Tface，每堂课开始时，Tface＝100，构造注意力方向识别间隔变量Tattention，每堂课开始时，Tattention＝100；构造动作识别间隔变量Tmotion，每堂课开始时，Tmotion＝-1，构造人脸识别标签、方向识别标签、动作识别标签，初始时均为不识别。

Claims

1.一种智能网课系统，其特征在于，基于笔记本自带摄像头或电脑连接的摄像头所摄的视频图像作为输入，其中摄像头摆放在能够拍摄到人脸图像的位置，通常摆放在屏幕正前方，若不是正前方，可以在识别结果处理模块中更改人脸朝向的基准偏移角度值来补偿摄像头摆放位置；本系统包括：图像预处理模块，目标检测模块，人脸识别模块，头部方向检测模块，学生动作识别模块，识别结果处理模块；这6个功能模块各自的实现方法如下：

图像预处理模块，对摄像头采集到的图像进行去噪和光照补偿，然后进行图像增强，最后将处理后的图像数据传递给目标检测模块；

目标检测模块，对接收到图像预处理模块传递来的图像数据进行目标检测，分别检测当前区域是否有个体，若有个体则提取其面部区域并传递给人脸识别模块和头部方向检测模块、提取上肢区域和手部区域图像传递给学生动作识别模块；

人脸识别模块，对接收到目标检测模块传递来的人脸区域图像数据进行人脸识别，并将识别结果分别传递给头部方向检测模块和识别结果处理模块；

头部方向检测模块，根据目标检测模块传递来的人脸区域图像数据，并结合人脸识别模块传递来的识别结果进行人脸朝向识别，并将结果传递给识别结果处理模块；

学生动作识别模块，根据目标检测模块传递来的上肢区域和手部区域图像数据，进行动作识别，判断当前学生手部动作和上肢动作，并将识别结果传递给识别结果处理模块；

识别结果处理模块对接收到的识别结果进行整合，根据人脸识别模块的识别结果判断摄像头前的个体是否为当前登录账户对应的个体，根据头部方向检测模块所识别的个体面部朝向来判断当前个体注意力朝向，根据学生动作识别模块来判断当前学生与教师的交互动作。

2.根据权利要求1所述的一种智能网课系统，其特征在于所述的图像预处理模块的具体实现方法为：

在初始化阶段该模块不工作；在检测过程中：第一步，对监控摄像头所摄的监控图像进行均值去噪，从而得到去噪后的监控图像；第二步，对去噪后的监控图像进行光照补偿，从而得到光照补偿后的图像；第三步，将光照补偿后的图像进行图像增强，将图像增强后的数据传递给目标检测模块；

所述的对监控摄像头所摄的监控图像进行均值去噪，其方法是：设监控摄像头所摄的监控图像为X_src，因为X_src为彩色RGB图像，因此存在X_src-R，X_src-G，X_src-B三个分量，对于每一个分量X_src′,分别进行如下操作：首先设置一个3×3维的窗口，考虑该图像X_src′的每个像素点X_src′(i,j),以该点为中心点的3×3维矩阵所对应的像素值分别为[X_src′(i-1,j-1),X_src′(i-1,j),X_src′(i-1,j+1),X_src′(i,j-1),X_src′(i,j),X_src′(i,j+1),X_src′(i+1,j-1),X_src′(i+1,j),X_src′(j+1,j+1)]进行从大到小排列，取其排在中间的值为去噪后图像X_src″在像素(i,j)所对应滤波后值赋值给X_src″(i,j)；对于X_src′的边界点，会出现其3×3维的窗口所对应的某些像素点不存在的情况，那么只需计算落在窗口内存在的像素点的中间值即可，若窗口内为偶数个点，将排在中间两个像素值的平均值作为该像素点去噪后的像素值赋值给X_src″(i,j)，从而，新的图像矩阵X_src″即为X_src在当前RGB分量的去噪后的图像矩阵，对于X_src-R，X_src-G，X_src-B在三个分量分别进行去噪操作后，将得到的X_src-R″，X_src-G″，X_src-B″分量，将这三个新的分量整合成一张新的彩色图像X_Den即为去噪后所得的图像；

所述的对去噪后的监控图像进行光照补偿，设去噪后的监控图像X_Den，因为X_Den为彩色RGB图像，因此X_Den存在RGB三个分量，对于每一个分量X_Den′,分别进行光照补偿，然后将得到的X_cpst′整合得到彩色RBG图像X_cpst，X_cpst即为X_Den光照补偿后的图像，对每一个分量X_Den′分别进行光照补偿的步骤为：第一步，设X_Den′为m行n列，构造X_Den′^sum和Num_Den为同样m行n列的矩阵，初始值均为0，

步长

窗口大小为l，其中函数min(m,n)表示取m和n的最小值，

表示取整数部分,sqrt(l)表示l的平方根，若l<1则l＝1；第二步，设X_Den左上角坐标为(1,1),从坐标(1,1)开始，根据窗口大小为l和步长s确定每一个候选框，该候选框为[(a,b),(a+l,b+l)]所围成的区域，对于X_Den′在候选框区域内所对应的图像矩阵进行直方图均衡化，得到候选区域[(a,b),(a+l,b+l)]的均衡化后的图像矩阵X_Den″，然后X_Den′^sum对应的[(a,b),(a+l,b+l)]区域的每一个元素计算X_Den′^sum(a+i_Xsum,b+j_Xsum)＝X_Den′^sum(a+i_Xsum,b+j_Xsum)+X_Den″(i_Xsum,j_Xsum)，其中(i_Xsum,j_Xsum)为整数且1≤i_Xsum≤l，1≤j_Xsum≤l，并将Num_Den对应的[(a,b),(a+l,b+l)]区域内的每一个元素加1；最后，计算

其中(i_XsumNum,j_XsumNum)为X_Den对应的每一个点，从而得到X_cpst即为对当前分量X_Den′进行光照补偿；

设监控图像为m行n列,(a,b)为选定的区域的左上角坐标，(a+l,b+l)为选定区域的右下角坐标，该区域由[(a,b),(a+l,b+l)]表示，(a,b)的初始值为(1,1)；

当a+l≤m时：

b＝1；

当b+l≤n时：

选定的区域为[(a,b),(a+l,b+l)]；

b＝b+s；

内层循环结束；

a＝a+s；

外层循环结束；

上述过程中，每次选定的区域[(a,b),(a+l,b+l)]均为候选框；

所述的对于X_Den′在候选框区域内所对应的图像矩阵进行直方图均衡化，设候选框区域为[(a,b),(a+l,b+l)]所围成的区域，X_Den″即为X_Den′在[(a,b),(a+l,b+l)]区域内的图像信息，其步骤为：第一步，构造向量I，I(i_I)为X_Den″中像素值等于i_I的个数，0≤i_I≤255；第二步，计算向量

第三步，对于X_Den″上的每一个点(i_XDen,j_XDen)，其像素值为X_Den″(i_XDen,j_XDen),计算X″_Den(i_XDen,j_XDen)＝I′(X″_Den(i_XDen,j_XDen))；待X_Den″图像内的所有像素点值都计算并更改后直方图均衡化过程结束，X_Den″内保存的即为直方图均衡化的结果；

所述的将光照补偿后的图像进行图像增强，设光照补偿后的图像为X_cpst，其对应的RGB通道分别为X_cpstR,X_cpstG,X_cpstB，对X_cpst图像增强后得到的图像为X_enh；对其进行图像增强的步骤为：第一步，对于X_cpst的所有分量X_cpstR,X_cpstG,X_cpstB计算其按指定尺度进行模糊后的图像；第二步，构造矩阵L_XenhR,L_XenhG,L_XenhB为与X_cpstR相同维度的矩阵，对于图像X_cpst的RGB通道中的R通道，计算LX_enhR(i,j)＝log(X_cpstR(i,j))-LX_cpstR(i,j)，(i,j)的取值范围为图像矩阵中所有的点，对于图像X_cpst的RGB通道中的G通道和B通道采用与R通道同样的算法得到LX_enhG和LX_enhB；第三步，对于图像X_cpst的RGB通道中的R通道，计算LX_enhR中所有点取值的均值MeanR和均方差VarR(注意是均方差)，计算MinR＝MeanR-2×VarR和MaxR＝MeanR+2×VarR，然后计算X_enhR(i,j)＝Fix((LX_cpstR(i,j)-MinR)/(MaxR-MinR)×255)，其中Fix表示取整数部分，若取值<0则赋值为0，取值>255则赋值为255；对于RGB通道中的G通道和B通道采用与R通道同样的算法得到X_enhG和X_enhB，将分别属于RGB通道的X_enhR、X_enhG、X_enhB整合成一张彩色图像X_enh；

所述的对于X_cpst的所有分量X_cpstR,X_cpstG,X_cpstB计算其按指定尺度进行模糊后的图像，对于RGB通道中的R通道X_cpstR，其步骤为：第一步，定义高斯函数G(x,y,σ)＝k×exp(-(x²+y²)/σ²)，σ为尺度参数，k＝1/∫∫G(x,y)dxdy，则对于X_cpstR的每一个点X_cpstR(i,j)计算，

其中

表示卷积运算，对于距离边界低于尺度σ的点，只计算X_cpstR与G(x,y,σ)对应部分的卷积，Fix()表示取整数部分，若取值<0则赋值为0，取值>255则赋值为255；对于RGB通道中的G通道和B通道采用与R通道同样的算法更新X_cpstG和X_cpstG。

3.根据权利要求1所述的一种智能网课系统，其特征在于所述的目标检测模块的具体实现方法为：

在初始化过程中，使用带有已标定人脸面部区域、手部区域和上肢区域的图像对目标检测算法进行参数初始化；在检测过程中，接收图像预处理模块所传递来的图像，然后对其进行处理，对每一帧图像使用目标检测算法进行目标检测，得到当前图像的人脸面部区域、手部区域和上肢区域，将提取到的人脸面部区域传递给人脸识别模块和头部方向检测模块、将上肢区域和手部区域图像传递给学生动作识别模块；

然后通过ROI层，其输入为图像X和区域

输出

为7×7×512维度的；第三步，构建坐标精炼网络；

所述的构造特征抽取深度网络，该网络为深度学习网络结构，其网络结构为：第一层：卷积层，输入为768×1024×3，输出为768×1024×64，通道数channels＝64；第二层：卷积层，输入为768×1024×64，输出为768×1024×64，通道数channels＝64；第三层：池化层，输入第一层输出768×1024×64与第三层输出768×1024×64在第三个维度上相连接，输出为384×512×128；第四层：卷积层，输入为384×512×128，输出为384×512×128，通道数channels＝128；第五层：卷积层，输入为384×512×128，输出为384×512×128，通道数channels＝128；第六层：池化层，输入第四层输出384×512×128与第五层384×512×128在第三个维度上相连接，输出为192×256×256；第七层：卷积层，输入为192×256×256，输出为192×256×256，通道数channels＝256；第八层：卷积层，输入为192×256×256，输出为192×256×256，通道数channels＝256；第九层：卷积层，输入为192×256×256，输出为192×256×256，通道数channels＝256；第十层：池化层，输入为第七层输出192×256×256与第九层192×256×256在第三个维度上相连接，输出为96×128×512；第十一层：卷积层，输入为96×128×512，输出为96×128×512，通道数channels＝512；第十二层：卷积层，输入为96×128×512，输出为96×128×512，通道数channels＝512；第十三层：卷积层，输入为96×128×512，输出为96×128×512，通道数channels＝512；第十四层：池化层，输入为第十一层输出96×128×512与第十三层96×128×512在第三个维度上相连接，输出为48×64×1024；第十五层：卷积层，输入为48×64×1024，输出为48×64×512，通道数channels＝512；第十六层：卷积层，输入为48×64×512，输出为48×64×512，通道数channels＝512；第十七层：卷积层，输入为48×64×512，输出为48×64×512，通道数channels＝512；第十八层：池化层，输入为第十五层输出48×64×512与第十七层48×64×512在第三个维度上相连接，输出为48×64×1024；第十九层：卷积层，输入为48×64×1024，输出为48×64×256，通道数channels＝256；第二十层：池化层，输入为48×64×256，输出为24×62×256；第二十一层：卷积层，输入为24×32×1024，输出为24×32×256，通道数channels＝256；第二十二层：池化层，输入为24×32×256，输出为12×16×256；第二十三层：卷积层，输入为12×16×256，输出为12×16×128，通道数channels＝128；第二十四层：池化层，输入为12×16×128，输出为6×8×128；第二十五层：全连接层，首先将输入的6×8×128维度的数据展开成6144维度的向量，然后输入进全连接层，输出向量长度为768，激活函数为relu激活函数；第二十六层：全连接层，输入向量长度为768，输出向量长度为96，激活函数为relu激活函数；第二十七层：全连接层，输入向量长度为96，输出向量长度为2，激活函数为soft-max激活函数；所有卷积层的参数为卷积核kernel大小＝3，步长stride＝(1,1)，激活函数为relu激活函数；所有池化层均为最大池化层，其参数为池化区间大小kernel_size＝2,步长stride＝(2,2)；设该深度网络为Fconv27，对于一幅彩色图像X，经过该深度网络所得到的特征图集合用Fconv27(X)表示，该网络的评价函数为对(Fconv27(X)-y)计算其交叉熵损失函数，收敛方向为取最小值，y输入对应的分类；数据库为在自然界采集的包含人脸及非人脸的图像，每张图像为768×1024维度的彩色图像，按照图像中是否包含人脸分成两类，迭代次数为2000次；在训练结束后，取第一层到第十七层为特征抽取深度网络Fconv，对于一幅彩色图像X，经过该深度网络所得到的输出用Fconv(X)表示；

所述的构造区域选择网络，接收Fconv深度网络提取出512个48×64特征图集合Fconv(X)，然后第一步经过卷积层得到Conv₁(Fconv(X))，该卷积层的参数为：卷积核kernel大小＝1，步长stride＝(1,1)，输入为48×64×512，输出为48×64×512，通道数channels＝512；然后将Conv₁(Fconv(X))分别输入到两个卷积层(Conv_2-1和Conv_2-2)，Conv_2-1的结构为：输入为48×64×512，输出为48×64×18，通道数channels＝18，该层得到的输出为Conv_2-1(Conv₁(Fconv(X)))，再对该输出使用激活函数softmax得到softmax(Conv_2-1(Conv₁(Fconv(X))))；Conv_2-2的结构为：输入为48×64×512，输出为48×64×36，通道数channels＝36；该网络的损失函数有两个：第一个误差函数loss1为对W_shad-cls⊙(Conv_2-1(Conv₁(Fconv(X)))-W_cls(X))计算softmax误差，第二个误差函数loss2为对W_shad-reg(X)⊙(Conv_2-1(Conv₁(Fconv(X)))-W_reg(X))计算smooth L1误差，区域选择网络的损失函数＝loss1/sum(W_cls(X))+loss2/sum(W_cls(X))，sum(·)表示矩阵所有元素之和，收敛方向为取最小值，W_cls(X)和W_reg(X)分别为数据库图像X对应的正负样本信息，⊙表示矩阵按照对应位相乘，W_shad-cls(X)和W_shad-reg(X)为掩码，其作用为选择W_shad(X)中权值为1的部分进行训练，从而避免正负样本数量差距过大，每次迭代时重新生成W_shad-cls(X)和W_shad-reg(X)，算法迭代1000次；

所述的构造特征抽取深度网络中所使用的数据库，对于数据库中的每一张图像，第一步：人工标定图像中的人脸面部区域、手部区域和上肢区域，设其在输入图像的中心坐标为(a_{bas_tr},b_{bas_tr})，中心坐标在纵向距离上下边框的距离为l_{bas_tr}，中心坐标在横向距离左右边框的距离为w_{bas_tr}，则其对应于Conv₁的位置为中心坐标为

半长为

半宽为

表示取整数部分；第二步：随机生成正负样本；

所述的随机生成正负样本，其方法为：第一步，构造9个区域框，第二步，对于数据库的每一张图像X_tr，设W_cls为48×64×18维度，W_reg为48×64×36维度，所有初始值均为0，对W_cls和W_reg进行填充；

所述的构造9个区域框，这9个区域框分别为：Ro₁(x_Ro,y_Ro)＝(x_Ro,y_Ro,64,64)，Ro₂(x_Ro,y_Ro)＝(x_Ro,y_Ro,45,90),Ro₃(x_Ro,y_Ro)＝(x_Ro,y_Ro,90,45),Ro₄(x_Ro,y_Ro)＝(x_Ro,y_Ro,128,128)，Ro₅(x_Ro,y_Ro)＝(x_Ro,y_Ro,90,180),Ro₆(x_Ro,y_Ro)＝(x_Ro,y_Ro,180,90),Ro₇(x_Ro,y_Ro)＝(x_Ro,y_Ro,256,256)，Ro₈(x_Ro,y_Ro)＝(x_Ro,y_Ro,360,180),Ro₉(x_Ro,y_Ro)＝(x_Ro,y_Ro,180,360),对于每一个区域块，Ro_i(x_Ro,y_Ro)表示对于第i个区域框，当前区域框的中心坐标(x_Ro,y_Ro)，第三位表示中心点距离上下边框的像素距离，第四位表示中心点距离左右边框的像素距离，i的取值从1到9；

所述的对W_cls和W_reg进行填充，其方法为：

对于每一个人工标定的人体区间，设其在输入图像的中心坐标为(a_{bas_tr},b_{bas_tr})，中心坐标在纵向距离上下边框的距离为l_{bas_tr}，中心坐标在横向距离左右边框的距离为w_{bas_tr}，则其对应于Conv₁的位置为中心坐标为

半长为

半宽为

对于左上角

右下角坐标

所围成的区间内的每个点(x_Ctr,y_Ctr)：

对于i取值从1到9：

对于点(x_Ctr,y_Ctr)，其在数据库图像的映射区间为左上角点(16(x_Ctr-1)+1,16(y_Ctr-1)+1)右下角点(16x_Ctr,16y_Ctr)所围成的16×16区间，对于该区间的每一个点(x_Otr,y_Otr)：

计算(x_Otr,y_Otr)所对应区域Ro_i(x_Otr,y_Otr)与当前人工标定的区间的重合率；

选择当前16×16区间内重合率最高的点(x_IoUMax,y_IoUMax)，若重合率>0.7，则W_cls(x_Ctr,y_Ctr,2i-1)＝1,W_cls(x_Ctr,y_Ctr,2i)＝0，该样本为正样本，W_reg(x_Ctr,y_Ctr,4i-3)＝(x_Otr-16x_Ctr+8)/8，W_reg(x_Ctr,y_Ctr,4i-2)＝(y_Otr-16y_Ctr+8)/8，W_reg(x_Ctr,y_Ctr,4i-2)＝Down1(l_{bas_tr}/Ro_i的第三位)，W_reg(x_Ctr,y_Ctr,4i)＝Down1(w_{bas_tr}/Ro_i的第四位)，Down1(·)表示若值大于1则取值为1；若重合率<0.3，则W_cls(x_Ctr,y_Ctr,2i-1)＝0,W_cls(x_Ctr,y_Ctr,2i)＝1；否则W_cls(x_Ctr,y_Ctr,2i-1)＝-1,W_cls(x_Ctr,y_Ctr,2i)＝-1；

若当前人工标定的区域没有重合率>0.6的Ro_i(x_Otr,y_Otr)，则选择重合率最高的Ro_i(x_Otr,y_Otr)对W_cls和W_reg赋值，赋值方法与重合率>0.7的赋值方法相同；

所述的计算(x_Otr,y_Otr)所对应区域Ro_i(x_Otr,y_Otr)与当前人工标定的区间的重合率，其方法为：设人工标定的人体区间在输入图像的中心坐标为(a_{bas_tr},b_{bas_tr})，中心坐标在纵向距离上下边框的距离为l_{bas_tr}，中心坐标在横向距离左右边框的距离为w_{bas_tr}，设Ro_i(x_Otr,y_Otr)的第三位为l_Otr，第四位为w_Otr，若满足|x_Otr-a_{bas_tr}|≤l_Otr+l_{bas_tr}-1并且|y_Otr-b_{bas_tr}|≤w_Otr+w_{bas_tr}-1，说明存在重合区域，重合区域＝(l_Otr+l_{bas_tr}-1-|x_Otr-a_{bas_tr}|)×(w_Otr+w_{bas_tr}-1-|y_Otr-b_{bas_tr}|)，否则重合区域＝0；计算全部区域＝(2l_Otr-1)×(2w_Otr-1)+(2a_{bas_tr}-1)×(2w_{bas_tr}-1)-重合区域；从而得到重合率＝重合区域/全部区域，|·|表示取绝对值；

所述的W_shad-cls(X)和W_shad-reg(X)，其构造方法为：对于该图像X，其对应的正负样本信息为W_cls(X)和W_reg(X)，第一步，构造W_shad-cls(X)与和W_shad-reg(X)，W_shad-cls(X)与W_cls(X)维度相同，W_shad-reg(X)与W_reg(X)维度相同；第二步，记录所有正样本的信息，对于i＝1到9，若W_cls(X)(a,b,2i-1)＝1，则W_shad-cls(X)(a,b,2i-1)＝1，W_shad-cls(X)(a,b,2i)＝1，W_shad-reg(X)(a,b,4i-3)＝1，W_shad-reg(X)(a,b,4i-2)＝1，W_shad-reg(X)(a,b,4i-1)＝1，W_shad-reg(X)(a,b,4i)＝1，正样本一共选择了sum(W_shad-cls(X))个，sum(·)表示对矩阵的所有元素求和，若sum(W_shad-cls(X))>256，随机保留256个正样本；第三步，随机选择负样本，随机选择(a,b,i)，若W_cls(X)(a,b,2i-1)＝1，则W_shad-cls(X)(a,b,2i-1)＝1，W_shad-cls(X)(a,b,2i)＝1，W_shad-reg(X)(a,b,4i-3)＝1，W_shad-reg(X)(a,b,4i-2)＝1，W_shad-reg(X)(a,b,4i-1)＝1，W_shad-reg(X)(a,b,4i)＝1，若已选中的负样本数量为256-sum(W_shad-cls(X))个，或者虽然负样本数量不足256-sum(W_shad-cls(X))个但是在20次生成随机数(a,b,i)内都无法得到负样本，则算法结束；

所述的ROI层，其输入为图像X和区域

右下角

所围成的区域，

表示取整数部分；输出为roi_I(X)维度为7×7，则步长

对于i_ROI＝1:到7：

对于j_ROI＝1到7：

构造区间

roi_I(C)(i_ROI,j_ROI)＝区间内最大点的值；

参数表示对于图像X，在区域框

范围内的ROI；

其对应的ROI为

若当前区间为人体图像区域则BClass＝[1,0,0,0,0]，BBOx＝[0,0,0,0]，若当前区间为人脸面部区域则BClass＝[0,1,0,0,0]，BBox＝[0,0,0,0]，若当前区间为手部区域则BClass＝[0,0,1,0,0]，BBox＝[0,0,0,0]，若当前区间为产品区域则BClass＝[0,0,0,1,0]，BBox＝[0,0,0,0]；随机生成取值在-1到1之间随机数a_rand,b_rand,l_rand,w_rand，从而得到新的区间

表示取整数部分，该区间的BBox＝[a_rand,b_rand,l_rand,w_rand]，若新的区间与

的重合率>0.7则BClass＝当前区域的BClass，若新的区间与

的重合率<0.3，则BClass＝[0,0,0,0,1]，二者均不满足，则不赋值；每个区间最多生成10个正样本区域，设生成Num₁个正样本区域，则生成Num₁+1个负样本区域，若负样本区域不够Num₁+1个，则扩大a_rand,b_rand,l_rand,w_rand的范围，直到找到足够多的负样本数为止；第二步，构建坐标精炼网路：对于数据库中的每一张图像X和对应的人工标定的每个区域

其对应的ROI为

将将7×7×512维度的ROI展开成25088维向量，然后经过两个全连接层Fc²，得到输出Fc²(ROI)，然后将Fc²(ROI)分别通过分类层FClass和区间微调层FBBox，得到输出FClass(Fc²(ROI))和FBBox(Fc²(ROI))，分类层FClass为全连接层，其输入向量长度为512，输出向量长度为4，区间微调层FBBox为全连接层，其输入向量长度为512，输出向量长度为4；该网络的损失函数有两个：第一个误差函数loss1为对FClass(Fc²(ROI))-FClass计算softmax误差，第二个误差函数loss2为对(FBBox(Fc²(ROI))-BBox)计算欧氏距离误差，则该精炼网络的整体损失函数＝loss1+loss2，算法迭代过程为：首先迭代1000次收敛误差函数loss2，然后迭代1000次收敛整体损失函数；

所述的两个全连接层Fc²，其结构为：第一层：全连接层，输入向量长度为25088，输出向量长度为4096，激活函数为relu激活函数；第二层：全连接层，输入向量长度为4096，输出向量长度为512，激活函数为relu激活函数；

第一步，将输入图像X_cpst分割成768×1024维度的子图；

第二步，对于每一个子图X_s：

第2.3.3步，将子图X_s和每一个最终候选区间输入到ROI层，得到对应的ROI输出，设当前的最终候选区间为(a_BB(1),b_BB(2),l_BB(3),w_BB(4))，然后计算FBBox(Fc²(ROI))得到四位输出(Out_BB(1),Out_BB(2),Out_BB(3),Out_BB(4))从而得到更新后的坐标(a_BB(1)+8×Out_BB(1),b_BB(2)+8×Out_BB(2),l_BB(3)+8×Out_BB(3),w_BB(4)+8×Out_BB(4))；然后计算FClass(Fc²(ROI))得到输出，若输出第一位最大则当前区间为人脸面部区域，若输出第二位最大则当前区间为手部区域，若输出第三位最大则当前区间为上肢区域，若输出第四位最大则当前区间为负样本区域并删除该最终候选区间；

第三步，更新所有子图的精炼后的最终候选区间的坐标，更新的方法为设当前候选区域的坐标为(TLx,TLy,RBx,RBy)，其对应的子图的左上角坐标为(Sea_sub,Seb_sub)，更新后的坐标为(TLx+Sea_sub-1,TLy+Seb_sub-1,RBx,RBy)；

所述的将输入图像X_cpst分割成768×1024维度的子图，其步骤为：设分割的步长为384和512，设窗口大小为m行n列,(a_sub,b_sub)为选定的区域的左上角坐标,(a,b)的初始值为(1,1)；当a_sub<m时：

b_sub＝1；

当b_sub<n时：

选定的区域为[(a_sub,a_sub),(a_sub+384,b_sub+512)]，将输入图像X_cpst上该区间所对应的图像区域的信息复制到新的子图中，并附带左上角坐标(a_sub,b_sub)作为位置信息；

若选定区域超出输入图像X_cpst区间，则将超出范围内的像素点对应的RGB像素值均赋值为0；

b_sub＝b_sub+512；

内层循环结束；

a_sub＝a_sub+384；

外层循环结束；

所述的根据输出值得到该区间内的所有的初步候选区间，其方法为：第一步：对于softmax(Conv_2-1(Conv₁(Fconv(X_s))))其输出为48×64×18，对于Conv_2-2(Conv₁(Fconv(X_s)))，其输出为48×64×36，对于48×64维空间上的任何一点(x,y)，softmax(Conv_2-1(Conv₁(Fconv(X_s))))(x,y)为18维向量II，Conv_2-2(Conv₁(Fconv(X_s)))(x,y)为36维向量IIII，若II(2i-1)>II(2i)，对于i取值从1到9，l_Otr为Ro_i(x_Otr,y_Otr)的第三位，w_Otr为Ro_i(x_Otr,y_Otr)的第四位，则初步候选区间为[II(2i-1),(8×IIII(4i-3)+x,8×IIII(4i-2)+y,l_Otr×IIII(4i-1),w_Otr×IIII(4i))]，其中第一位II(2i-1)表示当前候选区域的得分，第二位(8×IIII(4i-3)+x,8×IIII(4i-2)+y,IIII(4i-1),IIII(4i))表示当前候选区间的中心点为(8×IIII(4i-3)+x,8×IIII(4i-2)+y)，候选框的半长半宽分别为l_Otr×IIII(4i-1)和w_Otr×IIII(4i))；

所述的调整候选区间集合中所有的越界候选区间，其方法为：设监控图像为m行n列，对于每一个候选区间，设其[(a_ch,b_ch)]，候选框的半长半宽分别为l_ch和w_ch，若a_ch+l_ch>m，则

然后更新其a_ch＝a′_ch，l_ch＝l′_ch；若b_ch+w_ch>n，则

然后更新其b_ch＝b′_ch，w_ch＝w′_ch；

所述的剔除掉候选区间中重叠的框，其步骤为：

若候选区间集合不为空：

从候选区间集合中取出得分最大的候选区间i_out：

计算候选区间i_out与候选区间集合中的每一个候选区间i_c的重合率，若重合率>0.7，

则从候选区间集合删除候选区间i_c；将候选区间i_out放入输出候选区间集合；

当候选区间集合为空时，输出候选区间集合内所含的候选区间即为剔除掉候选区间中重叠的框后所得到的候选区间集合；

所述的计算候选区间i_out与候选区间集合中的每一个候选区间i_c的重合率，其方法为：设候选区间i_c的坐标区间为中心点[(a_ic,b_ic)]，候选框的半长半宽分别为l_ic和w_ic，候选区间i_c的坐标区间为中心点[(a_iout,b_iout)]，候选框的半长半宽分别为l_iout和w_iout；计算xA＝max(a_ic,a_iout)；yA＝max(b_ic,b_iout)；xB＝min(l_ic,l_iout)，yB＝min(w_ic,w_iout)；若满足|a_ic-a_iout|≤l_ic+l_iout-1并且|b_ic-b_iout|≤w_ic+w_iout-1，说明存在重合区域，重合区域＝(l_ic+l_iout-1-|a_ic-a_iout|)×(w_ic+w_iout-1-|b_ic-b_iout|)，否则重合区域＝0；计算全部区域＝(2l_ic-1)×(2w_ic-1)+(2l_iout-1)×(2w_iout-1)-重合区域；从而得到重合率＝重合区域/全部区域。

4.根据权利要求1所述的一种智能网课系统，其特征在于所述的人脸识别模块的具体实现方法为：

在初始化阶段，首先构造通用图像特征提取网络N1，然后保留深度网络N1的第一层到第二十三层，删掉第二十三层的激活函数，该深度网络FaceNet作为人脸图像特征提取网络，然后，读取学生在系统上登记的照片，使用初始化阶段构造人脸图像特征提取网络FaceNet对人脸图像进行特征提取，对于登记照片P，将P作为特征提取网络FaceNet的输入，得到对应的1000维度输出FaceNet(P)；在检测过程中，接受目标检测模块传递过来的人脸图像，然后判断人脸识别标签，若人脸识别标签为不识别，则跳过当前人脸图像；若人脸识别标签为识别，则对当前人脸图像进行识别，将识别结果发送给识别结果处理模块；若人脸识别标签为识别，但目标检测模块未传递过来人脸图像，将识别结果设为不通过，并发送给识别结果处理模块；

所述的构造通用图像特征提取网络N1，方法是：第一步，构建深度网络N1；第二步使用ILSVRC-2012国际标准数据库对深度网络N1进行训练；

所述的构建深度网络N1，其网络结构为：第一层：卷积层，输入为224×224×3，输出为224×224×64，通道数channels＝64；第二层：卷积层，输入为224×224×64，输出为224×224×64，通道数channels＝64；第三层：池化层，输入224×224×64，输出112×112×64；第四层：卷积层，输入为112×112×64，输出为112×112×128，通道数channels＝128；第五层：卷积层，输入为112×112×128，输出为112×112×128，通道数channels＝128；第六层：池化层，输入112×112×128，输出为56×56×128；第七层：卷积层，输入为56×56×128，输出为56×56×256，通道数channels＝256；第八层：卷积层，输入为56×56×256，输出为56×56×256，通道数channels＝256；第九层：卷积层，输入为56×56×256，输出为56×56×256，通道数channels＝256；第十层：池化层，输入为56×56×256，输出为28×28×256；第十一层：卷积层，输入为28×28×256，输出为28×28×512，通道数channels＝512；第十二层：卷积层，输入为28×28×512，输出为28×28×512，通道数channels＝512；第十三层：卷积层，输入为28×28×512，输出为28×28×512，通道数channels＝512；第十四层：池化层，输入为28×28×512，输出为14×14×512；第十五层：卷积层，输入为14×14×512，输出为14×14×512，通道数channels＝512；第十六层：卷积层，输入为14×14×512，输出为14×14×512，通道数channels＝512；第十七层：卷积层，输入为14×14×512，输出为14×14×512，通道数channels＝512；第十八层：池化层，输入为14×14×512，输出为7×7×512；第十九层：首先将输入的7×7×512的数据展开成25,088维度的向量，然后输入进全连接层，输出向量长度为4096，激活函数为relu激活函数；第二十层：Dropout层，概率为0.5；第二十一层：全连接层，输入向量长度为4096，输出向量长度为4096，激活函数为relu激活函数；第二十二层：Dropout层，概率为0.5；第二十三层：全连接层，输入向量长度为4096，输出向量长度为1000，激活函数为soft-max激活函数；所有卷积层的参数为：卷积核kernel大小＝3，步长stride＝(1,1)，激活函数为relu激活函数；所有池化层均为最大池化层，其参数为池化区间大小kernel_size＝2,步长stride＝(2,2)；

算法迭代1000次；

若loss(Xc)<θ，则识别通过并将该用户的人脸图像特征标准向量更新为FaceNet(Xc)，否则识别不通过，其中θ为阈值；

所述的θ为阈值，该阈值的计算方法如下：从系统中抽取随机抽取9位用户，构建用户集合G9，设系统中共有Nsys个用户；

对于G9中的每一个用户i，其登记照片为X(i),lossSum＝0：

用户i的loss(i)＝lossSum/(Nsys-1)；

5.根据权利要求1所述的一种智能网课系统，其特征在于所述的头部方向检测模块的具体实现方法为：

在初始化过程中，根据通用图像特征提取网络N1构造人脸朝向神经网路分类器ForientNet，并使用搜集到的人脸不同角度朝向图像对人脸朝向神经网路分类器ForientNet进行训练；在检测过程中，接受目标检测模块传递过来的人脸区域图像，若方向识别标签为不识别，则跳过当前图像；若方向识别标签为识别，则使用人脸朝向神经网路分类器ForientNet判断人脸区域图像的人脸朝向的角度，将识别结果发送给识别结果处理模块；

所述的根据通用图像特征提取网络N1构造人脸朝向神经网路分类器ForientNet，其步骤为：首先，将通用图像特征提取网络N1的第二十三层的激活函数改为relu激活函数，然后添加：第二十四层：全连接层，输入向量长度为1000，输出向量长度为200，激活函数为relu激活函数；第二十五层：Dropout层，概率为0.5；第二十六层：由两个全连接层组成，分别为水平角度全连接层和垂直角度全连接层，两个全连接层的输入向量长度均为200，输出向量长度均为13，每一个全连接层激活函数均为soft-max激活函数，因此第二十六层整体的输出向量长度为26，添加层其他设置与通用图像特征提取网络N1相同；

所述的使用搜集到的人脸不同角度朝向图像对人脸朝向神经网路分类器ForientNet进行训练，其步骤为：第一步：构造人脸不同角度朝向图像数据集；第二步：对数据集图像进行处理，对于每一张照片，首先对于每一张图像按照最短边不变，最长以中心为基准截取一个正方形区域，然后将图像大小调整为224×224，图像大小调整采用双线性插值法，得到的224×224×3的彩色图像X作为输入，对于数据集合中的13类，构造一个13维度的向量Y，若当前图像属于13类中的第K类，则向量的第K位等于1，其他位等于0，处理好的数据对<X,Y>作为下一步的输入；第三步，用处理好的每一个数据对<X,Y>训练人脸朝向神经网路分类器ForientNet；

所述的构造人脸不同角度朝向图像数据集，其构造方法为：每一张图像由横向朝向角度和纵向朝向角度组成，首先采集人脸横向朝向图像，横向朝向以正面对摄像头为中心点0度，最左侧为-90度，最右侧为90度，每15度架设一个摄像头，从而横向坐标一共13个摄像头，被采集人脸面对0度摄像头，然后13个摄像头同时拍摄，待所有被摄人脸拍摄完毕后，水平方向的每一个摄像头内的照片为一组，以其照片摄像头水平架设角度命名，例如-90度摄像头命名为-90度，45度摄像头命名为45度；然后采集纵向朝向人脸图像，纵向朝向以正面对摄像头为中心点0度，最下侧为-75度，最上侧为90度，每15度架设一个摄像头，从而纵向坐标一共12个摄像头，被采集人脸面对0度摄像头，然后12个摄像头同时拍摄，待当前人脸拍摄结束后，人脸面对45度摄像头，-45度摄像头拍摄的图像作为最下侧-90度图像，待所有被摄人脸拍摄完毕后，水平方向的每一个摄像头内的照片为一组，以其照片摄像头水平架设角度命名；从而得到人脸不同角度朝向图像数据集，其中水平方向从-90度到90度，每15度为1类，共13类；垂直方向从-90度到90度，每15度为1类，共13类；

所述的用处理好的每一个数据对<X,Y>训练人脸朝向神经网路分类器ForientNet，其步骤为：将水平朝向数据集的输入数据对和垂直朝向数据集的输入数据对<Xv,Yv>依次作为网络的输入；网络的，优化方法为动量梯度下降法(SGD)，动量为0.9，权重初始值为0.01，第100次迭代后变为0.001，第500次迭代后变为0.0001,设对于输入X，网络N1的输出为N1(X)，算法的误差函数为

算法迭代1000次，取ForientNet中从第一层到第二十六层的水平角度全连接层作为水平朝向分类器ForientNet_Hor，取ForientNet中从第一层到第二十六层的垂直角度全连接层作为垂直朝向分类器ForientNet_Ver；每一轮迭代过程如下：对于每一轮迭代：

从水平朝向数据集取一个batch的输入数据对<Xh,Yh>：

以<Xh,Yh>作为输入，优化水平朝向分类器ForientNet_Hor，其中ForientNet_Hor网络的第一层到第二十三层参数不变，第二十六层的垂直角度全连接层参数不做优化；从垂直朝向数据集取一个batch的输入数据对<Xv,Yv>：

以<Xv,Yv>作为输入，优化垂直朝向分类器ForientNet_Ver，其中ForientNet_Ver网络的第一层到第二十三层参数不变，第二十六层的水平角度全连接层参数不做优化；

直到水平朝向数据集和垂直朝向数据集均为空时，当前轮迭代结束；所述的使用人脸朝向神经网路分类器ForientNet判断人脸区域图像的人脸朝向的角度，其步骤为：对于当前输入的图像Xf，将Xf作为人脸朝向神经网路分类器ForientNet的输入，得到对应的26维度输出MotionNet(Xc)，其中水平角度全连接层输出为13维，垂直角度全连接层输出为13维，若水平角度全连接层输出向量的第Kh位最大，则当前图像水平角度即为对应于13个角度的第Kh个角度Oh(Kh),若垂直角度全连接层输出向量的第Kv位最大，则当前图像垂直角度即为对应于13个角度的第Kv个角度Ov(Kv)。

6.根据权利要求1所述的一种智能网课系统，其特征在于所述的学生动作识别模块的具体实现方法为：

在初始化阶段，根据通用图像特征提取网络N1构造动作识别神经网路分类器MotionNet，然后使用搜集到的手部和上肢部的动作对MotionNet进行训练；在检测过程中，接受目标检测模块传递过来的手部区域图像或上肢区域图像，然后判断动作识别标签，若动作识别标签为不识别，则跳过当前图像，若动作识别标签为识别，则对当前图像使用动作识别神经网路分类器MotionNet进行识别，将识别结果发送给识别结果处理模块；

所述的根据通用图像特征提取网络N1构造动作识别神经网路分类器MotionNet，其步骤为：首先，将通用图像特征提取网络N1的第二十三层的激活函数改为relu激活函数，然后添加：第二十四层：全连接层，输入向量长度为1000，输出向量长度为200，激活函数为relu激活函数；第二十五层：Dropout层，概率为0.5；第二十六层：全连接层，输入向量长度为200，输出向量长度为23，激活函数为soft-max激活函数，添加层其他设置与通用图像特征提取网络N1相同；

算法迭代100次；

7.根据权利要求1所述的一种智能网课系统，其特征在于所述的识别结果处理模块的具体实现方法为：

其方法为，在初始化阶段，该模块不工作；在检测过程中，在识别过程中，对接收到的结果进行处理；对于每一个用户，构造人脸识别间隔变量Tface，每堂课开始时，Tface＝100，构造注意力方向识别间隔变量Tattention，每堂课开始时，Tattention＝100；构造动作识别间隔变量Tmotion，每堂课开始时，Tmotion＝-1，构造人脸识别标签、方向识别标签、动作识别标签，初始时均为不识别；

对于人脸识别标签，在每堂课开始时，将人脸识别标签变为识别，然后每间隔Tface帧将人脸识别标签变为识别，在间隔Tface帧内将人脸识别标签变为不识别；

对人脸识别模块传递来的识别结果：对于当前用户，若人脸识别模块传递来的识别结果为通过，则更新Tface＝5×Tface，若Tface>7200,则置Tface＝7200；若人脸识别模块传递来的识别结果为不通过，则更新Tface＝Tface/5，若Tface<1则置Tface＝100，并统计识别不通过次数，若识别不通过次数超过1000，则将当前学生识别不通过信息通知教师，由教师进行识别，若教师识别为通过，则计算当前目标检测框人脸图像Xc对应于人脸图像特征提取网络FaceNet输出FaceNet(Xc)，并更改该用户的人脸图像特征标准向量为FaceNet(Xc)；

对于方向识别标签，在每堂课开始时，将方向识别标签变为识别，然后每间隔Tattention帧将方向识别标签变为识别，在间隔Tattention帧内将方向识别标签变为不识别；

对头部方向检测模块传递来的识别结果：首先，设置人脸朝向的基准偏移角度，水平偏移θh＝0度,垂直偏移θh＝0度,然后接收到传递来的头部方向检测模块传递来的人脸图像横向朝向角度Angh和纵向朝向角度Angv，此时人脸图像实际朝向为水平朝向为Angh-θh，实际纵向朝向角度Angv-θv，若Angh-θh>0度或者|Angv-θv|>45度，认为当前学生视线方向不正确，否则认为当前学生视线方向正确；若识别为视线方向正确，则Tattention＝5×Tattention，若Tattention>7200,则置Tattention＝7200,若识别为视线方向不正确，则更新Tattention＝Tattention/5，若Tattention<1则置Tattention＝100，并统计识别视线方向不正确次数，若识别视线方向不正确次数超过1000，则将当前学生识别不通过信息通知教师，由教师进行识别，若教师识别为视线方向正确，则更改当前人脸朝向的基准偏移角度，将水平偏移θh＝Angh,垂直偏移θh＝Angv；

对于动作识别标签，若Tmotion＝-1，则动作识别标签为不识别；然后等待Tmotion变化，若Tmotion>-1,则每间隔Tmotion帧将动作识别标签，在间隔Tattention帧内将方向识别标签变为不识别；在课堂进行中，动作识别标签根据教师的操作进行改变，若教师要求识别学生动作，则动作识别标签变为识别，并设置Tmotion＝100，若学生动作识别模块传递来的识别结果为无效动作则Tmotion＝2×Tmotion，否则将学生动作识别模块传递来的识别结果传递给教师并设置Tmotion＝-1。