CN116894978B

CN116894978B - 一种融合面部情绪与行为多特征的线上考试防作弊系统

Info

Publication number: CN116894978B
Application number: CN202310884470.8A
Authority: CN
Inventors: 邵志文; 项翔; 马利庄; 程依凡; 邹未东
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2023-07-18
Filing date: 2023-07-18
Publication date: 2024-03-29
Anticipated expiration: 2043-07-18
Also published as: CN116894978A

Abstract

本发明公开了一种融合面部情绪与行为多特征的线上考试防作弊系统，对考试时单个学生的监控图像进行预处理，得到预处理后的图像及人脸特征点，构建系列CNN模块，提取学生在考试过程中的面部微表情、头部姿态、眼神等多种特征，将多种特征的融合特征输入防作弊神经网络TestCNN进行训练，得到是否作弊的预测结果。系列CNN模块包括头部姿态跟踪单元、眼部区域提取单元、眼神追踪单元、面部微表情识别单元、行为状态预测单元等。使用本发明的系统可以对考生的考试情况进行监控，可以将预测结果实时发送给使用人员，该系统能够防止考生作弊，提高考试的公平性。

Description

一种融合面部情绪与行为多特征的线上考试防作弊系统

技术领域

本发明涉及一种融合面部情绪与行为多特征的线上考试防作弊系统，属于计算机视觉技术。

背景技术

线上线下考试已成为教育教学领域的重要趋势和发展方向。然而考试作弊等异常行为同样存在于线上线下考试中，这严重损害了考试的公平和诚信，也影响了考试的质量和效率。因此，开发一种有效的考试防作弊系统是当前教育教学领域亟需解决的问题。

传统的考试防作弊方法主要包括监考、考试规则设定等，然而这些方法存在诸多局限性。例如，监考人员数量有限，无法监控所有考生，一些作弊行为容易被忽略或逃脱监控。监考人员往往难以掌握所有作弊手段，例如远程控制、使用手机等隐蔽作弊手段，容易被考生利用而逃脱监控。考试规则容易被绕过，例如考生可以将答案写在草稿纸上或手掌上，然后在考试中抄袭。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种融合面部情绪与行为多特征的线上考试防作弊系统，融合多种技术和装置，通过对考生的头部姿态、眼神追踪、面部表情等特征进行实时监测和分析，判断考生是否存在异常行为，例如抄袭、查找答案；一旦检测到异常行为，系统将及时进行警报和通知，以便监考人员及时处理。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种融合面部情绪与行为多特征的线上考试防作弊系统，训练及监控过程包括如下步骤：

S01、采集考生的线上考试视频，这里不局限于一个考试视频，可以采集多个考试视频，增加系统的泛化性，除去其中模糊较大、人脸不清等不易于人脸识别的视频帧后，使用正常行为、可疑行为或危险行为三种行为状态类别对每一视频帧进行行为状态标注，将标注后的视频帧作为训练样本，所有训练样本组成训练样本集；

S02、对训练样本进行预处理，首先灰度化，再进行人脸识别与对齐，最后调整亮度并去除噪声完成预处理；人脸识别可以使用CenterFace的预训练模型，加载成功后返回人脸框的坐标，将不同姿态、角度、尺度、光照等条件下的人脸图像对齐到同一个标准位置，之后再调整亮度并去除噪声；

利用开源模型Dlib库对预处理后的训练样本进行人脸检测，定位出人脸的68个关键特征点；可以使用Dlib库中提供的shape_predictor_68_face_landmarks.dat文件作为预训练模型，该模型基于人脸关键点检测算法，可以检测人脸的68个关键特征点；训练时，先加载Dlib库中提供的人脸检测器和关键点检测器，然后使用人脸检测器检测预处理后的训练样本，最后使用关键点检测器检测人脸的68个关键特征点；

S03、采用开源模型OpenFace对预处理后的训练样本进行面部情绪特征提取，识别面部的17个AU强度，AU表示微表情动作单元；

S04、采用多标签学习的方法构建面部微表情识别神经网络auCNN，以步骤S03中识别出的17个AU强度作为真实值，输入预处理后的训练样本，输出各个AU及各个AU强度的预测值，实现对面部微表情的识别；

S05、根据相机参数矩阵，将人脸的68个关键特征点从二维的像素坐标系转换到三维的世界坐标系，并通过旋转矩阵R计算三个欧拉角，即俯仰角α_E、偏航角β_E和翻滚角γ_E；

S06、采用有监督学习的方法构建头部姿态跟踪神经网络headCNN，以步骤S05中计算出的三个欧拉角作为真实值，输入预处理后的训练样本，输出三个欧拉角的预测值，实现对头部姿态的跟踪；

S07、根据人脸的68个关键特征点和预处理后的训练样本计算出人眼中心位置及瞳孔位置，计算眼部特征的垂直方向角eye_pitch和眼部特征的水平方向角eye_yaw；人眼中心位置及瞳孔位置可以采用模板匹配方法获取；

S08、采用有监督学习的方法构建眼神追踪神经网络eyeCNN，以步骤S07中的两个方向角作为真实值，输入预处理后的训练样本的眼部区域，输出两个方向角的预测值，实现对眼神的追踪；可以采用图像处理技术来截取预处理后的训练样本的眼部区域，通常可以使用矩形框或椭圆框来截取眼部区域；

S09、采用联合学习的方法构建防作弊神经网络TestCNN，融合面部微表情识别神经网络auCNN、头部姿态跟踪神经网络headCNN和眼神追踪神经网络eyeCNN中包含的特征，将融合后的特征输入到防作弊神经网络TestCNN，分别输出正常行为、可疑行为和危险行为的概率，概率最大的即为所预测的行为状态类别；

S10、使用训练好的防作弊神经网络TestCNN，输入考场实时视频帧，分别输出正常行为、可疑行为和危险行为的概率，概率最大的即为所预测的行为状态类别。

具体的，所述步骤S05中，先通过如下方式将人脸的68个关键特征点从二维的像素坐标系转换到三维的世界坐标系：

P′＝K×[R|t]×P

其中：P′表示关键特征点在像素坐标系中的坐标，P表示关键特征点在世界空间坐标系中的坐标，K为相机的内参矩阵，[R|t]表示相机的外参矩阵，[R|t]表示将R和t按水平方向拼接成的一个矩阵，R为旋转矩阵，t为平移向量；

然后，使用旋转矩阵R描述头部的旋转姿态，该旋转矩阵R同时表示将人脸从三维的世界坐标系转换到相机坐标系，旋转矩阵R为一个3×3的矩阵，旋转矩阵R的三行分别表示三维的世界坐标系中X轴、Y轴和Z轴的方向向量；将旋转矩阵R分解为绕X轴、Y轴和Z轴的三个旋转角度，根据欧拉角的定义，将旋转矩阵R表示为：

R＝Rz(γ)×Ry(β)×Rx(α)

其中：Rx(α)、Ry(β)和Rz(γ)分别表示围绕X轴、Y轴和Z轴的旋转分量，α、β和γ分别表示围绕X轴、Y轴和Z轴的旋转角度；

将旋转矩阵R分解为三个旋转角度后，根据下式计算三个欧拉角，即俯仰角α_E、偏航角β_E和翻滚角γ_E：

α_E＝atan2(R(2,1),R(1,1))

γ_E＝atan2(R(3,2),R(3,3))

其中：atan2(x1,x2)表示反正切函数，计算从原点(0,0)到点(x1,x2)的线段与X轴正方向之间的平面角度；R(x1,x2)表示旋转矩阵R中的第x1行、第x2列元素。

具体的，所述步骤S08中，眼部追踪神经网络eyeCNN先采用多个卷积层和池化层来提取眼部区域图像的眼部特征，再将提取的眼部特征输入到全连接层，输出一个2维向量，通过该2维向量表示眼部特征的垂直方向角eye_pitch和眼部特征的水平方向角eye_yaw的预测值；同时，为了提高眼神追踪神经网络eyeCNN的准确性和鲁棒性，采用平均绝对误差作为损失函数，用于衡量预测值与真实值之间的误差。

具体的，所述步骤S04中，采用多标签学习的方法构建面部微表情识别神经网络auCNN，先采用多个卷积层和池化层来提取图像所包含的微表情动作单元的特征，再将提取的将特征输入到全连接层，输出一个17维向量，通过该17维向量表示17个AU及各个AU强度的预测值。

具体的，所述步骤S06中，头部姿态跟踪神经网络headCNN，先采用多个卷积层和池化层来提取图像所包含的头部姿态的特征，再将提取的特征输入到全连接层，输出一个3维向量，通过该3维向量表示俯仰角α_E、偏航角β_E和翻滚角γ_E的预测值。

具体的，所述步骤S04中，面部微表情识别神经网络auCNN为一个端到端的完整神经网络，包括依次连接的标准卷积层滤波conv1、区域层region2、池化层pool3、卷积层conv4、卷积层conv5、卷积层conv6、卷积层conv7、全连接层fc8、全连接层fc9和多标签交叉熵损失层Aus；其中，标准卷积层滤波conv1用于提取面部图像的低级特征，区域层region2基于低级特征自适应选择面部图像中最具有区分性的区域并提取区别特征，池化层pool3用于对区别特征进行降维，卷积层conv4、卷积层conv5、卷积层conv6和卷积层conv7基于降维后的区别特征提取面部图像的高级特征，全连接层fc8和全连接层fc9将高级特征映射到微表情类别上并预测面部图像的微表情类别，多标签交叉熵损失层Aus用于计算微表情类别的预测结果与真实值之间的误差。

具体的，所述步骤S09中，从面部微表情识别神经网络auCNN输出的17个AU强度的预测值中提取最基本的12个AU强度的预测值，将该12个AU强度的预测值、头部姿态跟踪神经网络headCNN输出的三个欧拉角的预测值、眼神追踪神经网络eyeCNN输出的两个方向角的预测值，总计17个特征，组成一个大小为(1,17)的融合向量InPut，将融合向量InPut作为防作弊神经网络TestCNN的输入；

所述防作弊神经网络TestCNN包括依次连接的输入层、卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、扁平化层、全连接层、Dropout层(随机失活层)和输出层，

所述输入层的输入为InPut；

所述卷积层1用于提取InPut的特征，卷积层1包括64个卷积核，每个卷积核大小为3×3，步长为1，填充模式为same，激活函数为线性整流函数ReLU；卷积层1的作用是对InPut进行卷积运算，提取局部特征信息；

所述池化层1连接在卷积层1之后，对卷积层1的输出进行下采样，减少特征图的大小，同时保留重要的特征信息；池化层1采用最大池化，池化窗口大小为2×2，步长为2；

所述卷积层2用于提取池化层1下采样后的结果所包含的特征，卷积层2包括128个卷积核，每个卷积核大小为3×3，步长为1，填充模式为same，激活函数为线性整流函数ReLU；卷积层2的作用是对池化层1的输出进行卷积运算，进一步提取特征信息；

所述池化层2连接在卷积层2之后，对卷积层2的输出进行下采样，减少特征图的大小，同时保留重要的特征信息；池化层2采用最大池化，池化窗口大小为2×2，步长为2；

所述卷积层3用于提取池化层2下采样后的结果所包含的特征，卷积层3包括256个卷积核，每个卷积核大小为3×3，步长为1，填充模式为same，激活函数为线性整流函数ReLU；卷积层3的作用是对池化层2的输出进行卷积运算，进一步提取特征信息；

所述池化层3连接在卷积层3之后，对卷积层3的输出进行下采样，减少特征图的大小，同时保留重要的特征信息；池化层3采用最大池化，池化窗口大小为2×2，步长为2；

所述扁平化层将池化层3输出的特征图扁平化为一维向量，并传输给全连接层；扁平化层包含1024个神经元，激活函数为线性整流函数ReLU；

所述全连接层用于进一步压缩扁平化层得到的一维特征向量，保留最主要特征，全连接层包括512个神经元，激活函数为线性整流函数ReLU；

所述Dropout层连接在全连接层之后，包含3个神经元，分别对应考生三种行为状态的概率；Dropout层用于规避过度拟合问题；

所述输出层对Dropout层的输出进行归一化处理，分别输出正常行为、可疑行为和危险行为的概率，概率最大的即为所预测的行为状态类别；

所述线性整流函数ReLU表示为f(x)＝max(0,x)；其中x表示输入，f(x)表示输出。

所述防作弊神经网络TestCNN中，各层次之间是通过前向传播的方式进行连接，即每一层的输出作为下一层的输入，从而逐渐提取出更高级别的特征信息；防作弊神经网络TestCNN采用卷积神经网络(CNN)进行特征提取，并通过全连接层和Dropout层进行特征组合和避免过拟合问题，输出层使用归一化函数进行特征分类，得到考生行为状态的三种预测结果。

具体的，所述融合面部情绪与行为多特征的线上考试防作弊系统包括图像预处理单元、头部姿态跟踪单元、眼部区域提取单元、眼神追踪单元、面部微表情识别单元、行为状态预测单元、参数优化单元和报警显示单元；

所述图像预处理单元，该单元的主要作用是从视频数据中提取需要的原始RGB视频帧对进行训练样本集的构建，对RGB视频帧进行预处包括图像裁剪和图像缩放等；原理是通过视频采集技术，获取考生的面部图像，并对其进行预处理和筛选，从而提取出高质量的训练样本；

所述头部姿态跟踪单元，采用头部姿态跟踪神经网络headCNN预测预处理后的RGB视频帧的、表征头部姿态的三个欧拉角，对头部姿态的跟踪；原理是通过人脸识别技术识别出考生面部图像，并通过头部姿态跟踪算法，对头部的姿态进行计算和估计；

所述眼部区域提取单元，用于截取出预处理后的RGB视频帧的眼部区域；原理是基于人脸识别技术，通过面部特征提取，得到人眼的位置信息，并进行截取和分析；

所述眼神追踪单元，采用眼神追踪神经网络eyeCNN，对眼部区域的静态空间特征和动态时序特征进行融合，预测眼部特征的垂直方向角eye_pitch和眼部特征的水平方向角eye_yaw，实现对眼神的追踪；原理是基于深度学习技术，通过对静态空间特征和动态空间特征的融合，对眼神进行追踪和学习，以指导后续的面部动作识别；

所述面部微表情识别单元，采用面部微表情识别神经网络auCNN预测预处理后的RGB视频帧的17个AU及各个AU强度，实现对面部微表情的识别；原理是基于深度学习技术，对人脸进行特征提取和分析，以及对面部动作的识别和分析；

所述行为状态预测单元，采用防作弊神经网络TestCNN，融合头部姿态跟踪单元、眼神追踪单元和面部微表情识别单元的输出，预测行为状态类别(正常行为、可疑行为或危险行为)；

所述参数优化单元，计算图像预处理单元、头部姿态跟踪单元、眼部区域提取单元、眼神追踪单元、面部微表情识别单元和行为状态预测单元涉及的参数和损失函数值，并采用基于梯度的优化方法对所得参数进行优化；原理是基于深度学习技术，通过对卷积神经网络模型的参数进行计算和优化，不断提高卷积神经网络模型的精度和准确性；

所述报警显示单元，在为状态预测单元的预测结果为危险行为时，显示报警提示；原理是通过对考生的面部动作进行分析和识别，当检测到危险行为时，通过报警显示单元进行提醒和提示。

有益效果：本发明提供的融合面部情绪与行为多特征的线上考试防作弊系统，填补了在线考试智能监控技术的空白，能够有效防止考试作弊行为；该系统通过多种技术手段相结合的方式实现对考生面部情绪和行为的监控和识别，包括头部姿态、眼神追踪、面部动作等，从而能够准确地判断考生是否存在违纪行为；同时，该系统还能够自动化地对考生进行监控，减轻考试监考的压力和工作量，提高考试的管理效率；此外，该系统的技术手段涉及到人脸识别、深度学习等高新技术，可以对相关领域的研究和发展产生积极的推动作用。

附图说明

图1为本发明系统采用方法的实施流程示意图；

图2为头部姿态跟踪神经网络headCNN和眼神追踪神经网络eyeCNN的结构框图；

图3为面部微表情识别神经网络auCNN的结构示意图；

图4为防作弊神经网络TestCNN的结构示意图；

图5为本发明系统的整体结构示意图，头部姿态跟踪神经网络headCNN、眼神追踪神经网络eyeCNN、面部微表情识别神经网络auCNN和防作弊神经网络TestCNN四个模块可以联合优化，充分利用不同任务间的关联性，以提升每一模块的精度。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

线上考试时，考生通常被要求打开摄像头，其呈现在摄像头中的身体部位一般仅有上半身甚至仅有头部，因此其头部姿态、眼神、面部表情是少数可以获取的关键特征。考生进行作弊等异常行为时，通常会出现特定的头部姿态动作、面部表情或眼神，而且眼神、面部局部表情可以精细地反映其心理状态，基于这些关键特征可以较准确地识别考生行为状态；另一方面，这些关键特征间具有较强的关联性，可以相互补充，例如面部表情时常伴随着特定的眼神，视线方向和头部姿态方向也时常一致，因此结合多种特征可以有效提升行为识别精度。基于上述因素的综合考量，本案设计了一种融合面部情绪与行为多特征的线上考试防作弊系统。

如图5所示为一种融合面部情绪与行为多特征的线上考试防作弊系统，包括图像预处理单元、头部姿态跟踪单元、眼部区域提取单元、眼神追踪单元、面部微表情识别单元、行为状态预测单元、参数优化单元和报警显示单元；所述图像预处理单元，用于对RGB视频帧进行预处；所述头部姿态跟踪单元，采用头部姿态跟踪神经网络headCNN预测预处理后的RGB视频帧的、表征头部姿态的三个欧拉角，对头部姿态的跟踪；所述眼部区域提取单元，用于截取出预处理后的RGB视频帧的眼部区域；所述眼神追踪单元，采用眼神追踪神经网络eyeCNN，对眼部区域的静态空间特征和动态时序特征进行融合，预测眼部特征的垂直方向角eye_pitch和眼部特征的水平方向角eye_yaw，实现对眼神的追踪；所述面部微表情识别单元，采用面部微表情识别神经网络auCNN预测预处理后的RGB视频帧的17个AU及各个AU强度，实现对面部微表情的识别；所述行为状态预测单元，采用防作弊神经网络TestCNN，融合头部姿态跟踪单元、眼神追踪单元和面部微表情识别单元的输出，预测行为状态类别(正常行为、可疑行为或危险行为)；所述参数优化单元，计算图像预处理单元、头部姿态跟踪单元、眼部区域提取单元、眼神追踪单元、面部微表情识别单元和行为状态预测单元涉及的参数和损失函数值，并采用基于梯度的优化方法对所得参数进行优化；所述报警显示单元，在为状态预测单元的预测结果为危险行为时，显示报警提示。

如图1所示为基于该系统的训练及监控过程的步骤，下面基于该步骤加以具体说明。

S01、采集考生的线上考试视频，使用正常行为、可疑行为或危险行为三种行为状态类别对每一视频帧进行行为状态标注，将标注后的视频帧作为训练样本，所有训练样本组成训练样本集。

在收集考试视频时，不局限于一个考试视频，可以多收集几个考试视频，比如不同来源、不同场景、不同时间、不同考生的考试视频，这些视频应当包含正常行为、可疑行为、危险行为三种行为状态，以增加系统的泛化性。

从考试视频中抽取视频帧后，要进行数据清洗，去除掉其中模糊度较大、人脸不清晰等难以进行面部识别的图片，只保留高质量的图像数据，可以使用图像处理、人脸识别等技术来实现。

对数据清晰后的视频帧进行行为状态标注，标注为正常行为、可疑行为或危险行为后作为训练样本，用于后续的模型的训练和评估，可以通过人工标注或自动化标注的方式来实现。

S02、对训练样本进行预处理，首先灰度化，再进行人脸识别与对齐，最后调整亮度并去除噪声完成预处理；利用开源模型Dlib库对预处理后的训练样本进行人脸检测，定位出人脸的68个关键特征点。

对训练样本的预处理可以按照以下步骤进行：

①灰度化：将RGB视频帧转换为灰度图像，以便于后续的人脸检测和对齐。

②人脸检测：使用CenterFace的预训练模型进行人脸检测，加载成功后返回人脸框的坐标；CenterFace是一种基于Anchor-Free的实时人脸检测器，可以在保证较高准确率的同时实现较快的检测速度，该模型可以使用PyTorch等深度学习框架进行加载。

③人脸对齐：将不同姿态、角度、尺度、光照等条件下的人脸图像对齐到同一个标准位置，以便于后续的特征提取和分类，可以使用关键点检测器来实现。

④调整亮度：对对齐后的人脸图像进行亮度调整，以提高图像的质量和准确性，可以使用直方图均衡化来实现。

⑤去除噪声：对对齐后的人脸图像进行噪声去除，以提高图像的质量和准确性，可以使用高斯滤波技术来实现。

⑥截取人脸部分：根据人脸检测得到的人脸框的坐标，从原始图像中截取出人脸部分。

使用Dlib库种提供的shape_predictor_68_face_landmarks.dat文件作为预训练模型，定位出人脸的68个关键特征点可以按照以下步骤进行：

①加载Dlib库提供的人脸检测器和关键点检测器；

②加载预处理后的训练样本，使用人脸检测器进行人脸检测，可以得到人脸的位置和大小信息；

③使用关键点检测器进行关键特征点检测，可以得到包括眼睛、眉毛、鼻子、嘴巴等在内的人脸的68个关键特征点的坐标信息。

S03、采用开源模型OpenFace对预处理后的训练样本进行面部情绪特征提取，识别面部的17个AU强度，AU表示微表情动作单元；该步骤仅在系统训练过程中使用，用于帮助训练在监控过程中使用到的面部微表情识别神经网络auCNN。

S04、采用多标签学习的方法构建如图3所示的面部微表情识别神经网络auCNN，以步骤S03中识别出的17个AU强度作为真实值，输入预处理后的训练样本，输出各个AU及各个AU强度的预测值，实现对面部微表情的识别。

采用多标签学习的方法构建一个可以端到端训练的完整的神经网络作为面部微表情识别神经网络auCNN，先采用多个卷积层和池化层来提取图像所包含的微表情动作单元的特征，再将提取的将特征输入到全连接层，输出一个17维向量，通过该17维向量表示17个AU及各个AU强度的预测值。面部微表情识别神经网络auCNN包括依次连接的标准卷积层滤波conv1、区域层region2、池化层pool3、卷积层conv4、卷积层conv5、卷积层conv6、卷积层conv7、全连接层fc8、全连接层fc9和多标签交叉熵损失层Aus。

面部微表情识别神经网络auCNN的输入为预处理后的训练样本，首先经过标准卷积层滤波conv1进行低级特征A的提取，区域层region2基于低级特征A自适应选择面部图像中最具有区分性的区域并提取区别特征B，池化层pool3对区别特征B池化操作，降低区别特征B的维度并输出特征C，卷积层conv4、卷积层conv5、卷积层conv6和卷积层conv7基于特征C提取面部图像的高级特征D，全连接层fc8和全连接层fc9将高级特征D映射到微表情类别上并预测面部图像的微表情类别，并输出每个微表情类别的概率值，最终，这些概率值会被传递给多标签交叉熵损失层Aus用于计算微表情类别的预测结果与真实值之间的误差，并反向传输给参数优化单元进行参数优化。

其中多标签交叉熵损失层Aus采用的损失函数表示为：

其中：y_ij表示第i个样本是否属于第j个类别的真实值，N表示样本的总数量，C表示类别的总数量，表示第i个样本属于第j个类别的预测概率，w_j表示第j个类别重要性的权重系数。

S05、根据相机参数矩阵，将人脸的68个关键特征点从二维的像素坐标系转换到三维的世界坐标系，并通过旋转矩阵R计算三个欧拉角，即俯仰角α_E、偏航角β_E和翻滚角γ_E；该步骤仅在系统训练过程中使用，用于帮助训练在监控过程中使用到的头部姿态跟踪神经网络headCNN。

通过下式将人脸的68个关键特征点从二维的像素坐标系转换到三维的世界坐标系：

P′＝K×[R|t]×P

其中：P′表示关键特征点在像素坐标系中的坐标，P表示关键特征点在世界空间坐标系中的坐标，K为相机的内参矩阵，[R|t]表示相机的外参矩阵，[R|t]表示将R和t按水平方向拼接成的一个矩阵，R为旋转矩阵，t为平移向量。

使用旋转矩阵R描述头部的旋转姿态，该旋转矩阵R同时表示将人脸从三维的世界坐标系转换到相机坐标系，旋转矩阵R为一个3×3的矩阵，旋转矩阵R的三行分别表示三维的世界坐标系中X轴、Y轴和Z轴的方向向量；将旋转矩阵R分解为绕X轴、Y轴和Z轴的三个旋转角度，根据欧拉角的定义，将旋转矩阵R表示为：

R＝Rz(γ)×Ry(β)×Rx(α)

其中：Rx(α)、Ry(β)和Rz(γ)分别表示围绕X轴、Y轴和Z轴的旋转分量，α、β和γ分别表示围绕X轴、Y轴和Z轴的旋转角度。

α_E＝atan2(R(2,1),R(1,1))

γ_E＝atan2(R(3,2),R(3,3))

S06、采用有监督学习的方法构建如图2所示的头部姿态跟踪神经网络headCNN，以步骤S05中计算出的三个欧拉角作为真实值，输入预处理后的训练样本，输出三个欧拉角的预测值，实现对头部姿态的跟踪。

所述步骤S06中，头部姿态跟踪神经网络headCNN，先采用多个卷积层和池化层来提取图像所包含的头部姿态的特征，再将提取的特征输入到全连接层，输出一个3维向量，通过该3维向量表示俯仰角α_E、偏航角β_E和翻滚角γ_E的预测值。

S07、根据人脸的68个关键特征点和预处理后的训练样本计算出人眼中心位置及瞳孔位置，计算眼部特征的垂直方向角eye_pitch和眼部特征的水平方向角eye_yaw；该步骤仅在系统训练过程中使用，用于帮助训练在监控过程中使用到的眼神追踪神经网络eyeCNN。

首先对预处理后的训练样本进行裁剪，分别将包含左眼和右眼的图像部分截取出来，然后采用模板匹配的方法分别计算出左眼和右眼图像中人眼中心位置坐标和瞳孔位置坐标，最后根据人眼中心位置坐标和瞳孔位置坐标的关系，结合人脸的68个关键特征点计算出眼部特征的垂直方向角eye_pitch和眼部特征的水平方向角eye_yaw。

S08、采用有监督学习的方法构建如图2所示的眼神追踪神经网络eyeCNN(眼神追踪神经网络eyeCNN和头部姿态跟踪神经网络headCNN的结构类似，采用了相同的结构框图)，以步骤S07中的两个方向角作为真实值，输入预处理后的训练样本的眼部区域，输出两个方向角的预测值，实现对眼神的追踪。

所述步骤S08中，眼部追踪神经网络eyeCNN先采用多个卷积层和池化层来提取眼部区域图像的眼部特征，再将提取的眼部特征输入到全连接层，输出一个2维向量，通过该2维向量表示眼部特征的垂直方向角eye_pitch和眼部特征的水平方向角eye_yaw的预测值；同时，为了提高眼神追踪神经网络eyeCNN的准确性和鲁棒性，采用平均绝对误差作为损失函数，用于衡量预测值与真实值之间的误差，该损失函数表示为：

其中：MAE表示眼部追踪神经网络eyeCNN的损失函数，y_i表示第i个样本的真实标签，f(x_i)表示第i个样本的预测结果，m表示样本的总数量。

所述眼部追踪神经网络eyeCNN包含Conv2D_1层、MaxPooling2D_1层、Conv2D_2层、MaxPooling2D_3层、Conv2D_3层、MaxPooling2D_4层、Flatten层、Dense_1层和Dense_2层：

Conv2D_1层：输入图像为眼部区域图像，用于提取输入图像的特征；该层包含32个3×3的卷积核，用于在输入图像上滑动并计算卷积，产生32个特征图，卷积后的输出为一个特征图张量。

MaxPooling2D_1层：输入图像为Conv2D_1得到的特征图张量，用于减小输入图像的大小，并保留最显著的特征信息；该层的池化窗口大小为2×2，使用最大值池化，将每个2×2的区域中的最大值作为该区域的池化结果，池化后的输出为一个特征图张量。

Conv2D_2层：输入图像为MaxPooling2D_1得到的特征图张量，用于提取输入图像的特征；该层包含64个3×3的卷积核，用于在输入图像上滑动并计算卷积，产生64个特征图，卷积后的输出为一个特征图张量。

MaxPooling2D_3层：输入图像为Conv2D_2得到的特征图张量，用于减小输入图像的大小，并保留最显著的特征信息；该层的池化窗口为2×2，使用最大值池化，将每个2×2的区域中的最大值作为该区域的池化结果，池化后的输出为一个特征图张量。

Conv2D_3层：输入图像为MaxPooling2D_3得到的特征图张量，用于提取输入图像的特征；该层包含128个3×3的卷积核，用于在输入图像上滑动并计算卷积，产生128个特征图，卷积后的输出为一个特征图张量。

MaxPooling2D_4层：输入图像为Conv2D_3得到的特征图张量，用于输入图像的大小，并保留最显著的特征信息；该层的池化窗口为2×2，使用最大值池化，将每个2×2的区域中的最大值作为该区域的池化结果，池化后的输出为一个特征图张量。

Flatten层：输入图像为MaxPooling2D_4得到的特征图张量，将多维的特征图张量展平成一维，以便输入到全连接层中，输出为展平后的特征向量。

Dense_1层：输入为Flatten层输出的特征向量；该层为一个全连接层，用于分类，包含128个神经元，采用ReLU激活函数，输出为经过全连接层计算后的向量。

Dense_2层：输入为Dense_1层输出的向量；该层包含2个神经元，输出一个2维向量，通过该2维向量表示眼部特征的垂直方向角eye_pitch和眼部特征的水平方向角eye_yaw的预测值。

S09、采用联合学习的方法构建如图4所示的防作弊神经网络TestCNN，融合面部微表情识别神经网络auCNN、头部姿态跟踪神经网络headCNN和眼神追踪神经网络eyeCNN中包含的特征，将融合后的特征输入到防作弊神经网络TestCNN，分别输出正常行为、可疑行为或危险行为的概率，概率最大的即为所预测的行为状态类别。

从面部微表情识别神经网络auCNN输出的17个AU强度的预测值中提取最基本的12个AU强度的预测值，将该12个AU强度的预测值、头部姿态跟踪神经网络headCNN输出的三个欧拉角的预测值、眼神追踪神经网络eyeCNN输出的两个方向角的预测值，总计17个特征，组成一个大小为(1,17)的融合向量InPut，将融合向量InPut作为防作弊神经网络TestCNN的输入。所述防作弊神经网络TestCNN包括依次连接的输入层、卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、扁平化层、全连接层、Dropout层(随机失活层)和输出层。

所述输入层的输入特征为InPut。

所述卷积层1用于提取InPut的特征，卷积层1包括64个卷积核，每个卷积核大小为3×3，步长为1，填充模式为same，激活函数为线性整流函数ReLU；该层的作用是对输入特征进行卷积运算，提取特征信息。

所述池化层1连接在卷积层1之后，对卷积层1的输出进行下采样，减少特征图的大小，同时保留重要的特征信息；池化层1采用最大池化，池化窗口大小为2×2，步长为2。

所述卷积层2用于提取池化层1下采样后的结果所包含的特征，卷积层2包括128个卷积核，每个卷积核大小为3×3，步长为1，填充模式为same，激活函数为线性整流函数ReLU；该层的作用是对输入特征进行卷积运算，进一步提取特征信息。

所述池化层2连接在卷积层2之后，对卷积层2的输出进行下采样，减少特征图的大小，同时保留重要的特征信息；池化层2采用最大池化，池化窗口大小为2×2，步长为2。

所述卷积层3用于提取池化层2下采样后的结果所包含的特征，卷积层3包括256个卷积核，每个卷积核大小为3×3，步长为1，填充模式为same，激活函数为线性整流函数ReLU；该层的作用是对输入特征进行卷积运算，进一步提取特征信息。

所述池化层3连接在卷积层3之后，对卷积层3的输出进行下采样，减少特征图的大小，同时保留重要的特征信息；池化层3采用最大池化，池化窗口大小为2×2，步长为2。

所述扁平化层将池化层3输出的特征图扁平化为一维向量，并传输给全连接层；该层包含1024个神经元，激活函数为线性整流函数ReLU。

所述全连接层用于进一步压缩扁平化层得到的一维特征向量，保留最主要特征，全连接层包括512个神经元，激活函数为线性整流函数ReLU。

所述Dropout层连接在全连接层之后，包含3个神经元，分别对应考生三种行为状态的概率；该层用于规避过度拟合问题。

所述输出层对Dropout层的输出进行归一化处理，分别输出正常行为、可疑行为或危险行为的概率，概率最大的即为所预测的行为状态类别；

将训练好的防作弊神经网络TestCNN应用于实际系统中，输入为从考生在线考试的实时视频流中截取RGB视频帧，输出为考生是否存在危险行为预测值；根据预测结果，监考员可以采取适当的措施，例如对该考生进行进一步的检查或采取纪律处分等。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种融合面部情绪与行为多特征的线上考试防作弊系统，其特征在于：训练及监控过程包括如下步骤：

S01、采集考生的线上考试视频，使用正常行为、可疑行为或危险行为三种行为状态类别对每一视频帧进行行为状态标注，将标注后的视频帧作为训练样本，所有训练样本组成训练样本集；

S02、对训练样本进行预处理，首先灰度化，再进行人脸识别与对齐，最后调整亮度并去除噪声完成预处理；利用开源模型Dlib库对预处理后的训练样本进行人脸检测，定位出人脸的68个关键特征点；

S07、根据人脸的68个关键特征点和预处理后的训练样本计算出人眼中心位置及瞳孔位置，计算眼部特征的垂直方向角eye_pitch和眼部特征的水平方向角eye_yaw；

S08、采用有监督学习的方法构建眼神追踪神经网络eyeCNN，以步骤S07中的两个方向角作为真实值，输入预处理后的训练样本的眼部区域，输出两个方向角的预测值，实现对眼神的追踪；

从面部微表情识别神经网络auCNN输出的17个AU强度的预测值中提取最基本的12个AU强度的预测值，将该12个AU强度的预测值、头部姿态跟踪神经网络headCNN输出的三个欧拉角的预测值、眼神追踪神经网络eyeCNN输出的两个方向角的预测值，总计17个特征，组成一个大小为(1,17)的融合向量InPut，将融合向量InPut作为防作弊神经网络TestCNN的输入；

所述防作弊神经网络TestCNN包括依次连接的输入层、卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、扁平化层、全连接层、Dropout层和输出层，Dropout层即随机失活层；

所述输入层的输入为InPut；

所述卷积层1用于提取InPut的特征，卷积层1包括64个卷积核，每个卷积核大小为3×3，步长为1，填充模式为same，激活函数为线性整流函数ReLU；

所述池化层1连接在卷积层1之后，对卷积层1的输出进行下采样；池化层1采用最大池化，池化窗口大小为2×2，步长为2；

所述卷积层2用于提取池化层1下采样后的结果所包含的特征，卷积层2包括128个卷积核，每个卷积核大小为3×3，步长为1，填充模式为same，激活函数为线性整流函数ReLU；

所述池化层2连接在卷积层2之后，对卷积层2的输出进行下采样；池化层2采用最大池化，池化窗口大小为2×2，步长为2；

所述卷积层3用于提取池化层2下采样后的结果所包含的特征，卷积层3包括256个卷积核，每个卷积核大小为3×3，步长为1，填充模式为same，激活函数为线性整流函数ReLU；

所述池化层3连接在卷积层3之后，对卷积层3的输出进行下采样；池化层3采用最大池化，池化窗口大小为2×2，步长为2；

所述扁平化层将池化层3输出的特征图扁平化为一维向量，并传输给全连接层；

所述Dropout层连接在全连接层之后，用于规避过度拟合问题；

所述线性整流函数ReLU表示为f(x)＝max(0,x)；其中x表示输入，f(x)表示输出；

2.根据权利要求1所述的融合面部情绪与行为多特征的线上考试防作弊系统，其特征在于：所述步骤S05中，先通过如下方式将人脸的68个关键特征点从二维的像素坐标系转换到三维的世界坐标系：

P′＝K×[R|t]×P

R＝Rz(γ)×Ry(β)×Rx(α)

α_E＝atan2(R(2，1)，R(1，1))

γ_E＝atan2(R(3，2)，R(3，3))

其中：atan2(x1，x2)表示反正切函数，计算从原点(0，0)到点(x1，x2)的线段与X正方向之间的平面角度；R(x1，x2)表示旋转矩阵R中的第x1行、第x2列元素。

3.根据权利要求1所述的融合面部情绪与行为多特征的线上考试防作弊系统，其特征在于：所述步骤S08中，眼部追踪神经网络eyeCNN先采用多个卷积层和池化层来提取眼部区域图像的眼部特征，再将提取的眼部特征输入到全连接层，输出一个2维向量，通过该2维向量表示眼部特征的垂直方向角eye_pitch和眼部特征的水平方向角eye_yaw的预测值；同时，为了提高眼神追踪神经网络eyeCNN的准确性和鲁棒性，采用平均绝对误差作为损失函数，用于衡量预测值与真实值之间的误差。

4.根据权利要求1所述的融合面部情绪与行为多特征的线上考试防作弊系统，其特征在于：所述步骤S04中，采用多标签学习的方法构建面部微表情识别神经网络auCNN，先采用多个卷积层和池化层来提取图像所包含的微表情动作单元的特征，再将提取的将特征输入到全连接层，输出一个17维向量，通过该17维向量表示17个AU及各个AU强度的预测值。

5.根据权利要求1所述的融合面部情绪与行为多特征的线上考试防作弊系统，其特征在于：所述步骤S06中，头部姿态跟踪神经网络headCNN，先采用多个卷积层和池化层来提取图像所包含的头部姿态的特征，再将提取的特征输入到全连接层，输出一个3维向量，通过该3维向量表示俯仰角α_E、偏航角β_E和翻滚角γ_E的预测值。

6.根据权利要求1所述的融合面部情绪与行为多特征的线上考试防作弊系统，其特征在于：所述步骤S04中，面部微表情识别神经网络auCNN为一个端到端的完整神经网络，包括依次连接的标准卷积层滤波conv1、区域层region2、池化层pool3、卷积层conv4、卷积层conv5、卷积层conv6、卷积层conv7、全连接层fc8、全连接层fc9和多标签交叉熵损失层Aus；其中，标准卷积层滤波conv1用于提取面部图像的低级特征，区域层region2基于低级特征自适应选择面部图像中最具有区分性的区域并提取区别特征，池化层pool3用于对区别特征进行降维，卷积层conv4、卷积层conv5、卷积层conv6和卷积层conv7基于降维后的区别特征提取面部图像的高级特征，全连接层fc8和全连接层fc9将高级特征映射到微表情类别上并预测面部图像的微表情类别，多标签交叉熵损失层Aus用于计算微表情类别的预测结果与真实值之间的误差。

7.根据权利要求1所述的融合面部情绪与行为多特征的线上考试防作弊系统，其特征在于：包括图像预处理单元、头部姿态跟踪单元、眼部区域提取单元、眼神追踪单元、面部微表情识别单元、行为状态预测单元、参数优化单元和报警显示单元；

所述图像预处理单元，用于对RGB视频帧进行预处；

所述头部姿态跟踪单元，采用头部姿态跟踪神经网络headCNN预测预处理后的RGB视频帧的、表征头部姿态的三个欧拉角，对头部姿态的跟踪；

所述眼部区域提取单元，用于截取出预处理后的RGB视频帧的眼部区域；

所述眼神追踪单元，采用眼神追踪神经网络eyeCNN，对眼部区域的静态空间特征和动态时序特征进行融合，预测眼部特征的垂直方向角eye_pitch和眼部特征的水平方向角eye_yaw，实现对眼神的追踪；

所述面部微表情识别单元，采用面部微表情识别神经网络auCNN预测预处理后的RGB视频帧的17个AU及各个AU强度，实现对面部微表情的识别；

所述行为状态预测单元，采用防作弊神经网络TestCNN，融合头部姿态跟踪单元、眼神追踪单元和面部微表情识别单元的输出，预测行为状态类别；

所述参数优化单元，计算图像预处理单元、头部姿态跟踪单元、眼部区域提取单元、眼神追踪单元、面部微表情识别单元和行为状态预测单元涉及的参数和损失函数值，并采用基于梯度的优化方法对所得参数进行优化；

所述报警显示单元，在为状态预测单元的预测结果为危险行为时，显示报警提示。