CN114943922B

CN114943922B - 一种基于深度学习的机考可疑行为识别方法

Info

Publication number: CN114943922B
Application number: CN202210619470.0A
Authority: CN
Inventors: 魏金岭; 张章; 魏弋力; 黄业会; 孙怡; 楼静靓; 魏祎辰
Original assignee: Zhejiang University City College ZUCC
Current assignee: Zhejiang University City College ZUCC
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2024-04-02
Anticipated expiration: 2042-06-02
Also published as: CN114943922A

Abstract

本发明涉及一种基于深度学习的机考可疑行为识别方法，包括步骤：拍摄获取包含机考可疑行为的视频，对视频进行预处理，得到与机考可疑行为视频相对应的视频帧图片序列。本发明的有益效果是：本发明构建了机考行为数据集，为实现机考可疑行为识别搭建了数据基础；本发明还提出了基于面部五官运动特征的机考行为识别算法，该算法通过目标检测的方法将RGB帧所表示的空间信息转换为能够表示运动信息的时间序列；相比于使用光流，机考行为识别算法设计的时间序列在机考场景下对运动特征的提取和分类更加高效；实验证明机考行为识别算法可以通过融合的方式显著提高主流深度学习行为识别模型在机考行为数据集上的效果。

Description

一种基于深度学习的机考可疑行为识别方法

技术领域

本发明涉及行为识别技术领域，尤其涉及一种基于深度学习机考可疑行为识别方法。

背景技术

近年来，随着便携式计算机的普及以及互联网的飞速发展，线上线下使用计算机来完成考试已经成为越来越多的学校和企业的选择。尤其是疫情期间进行线上完成考试已经成为主流。那么如何维护考试公平成为需要解决的问题，即使是线下机考也会由于监考人员数量有限而无法发现作弊行为，若线上考试的无监考，则更难规避作弊行为。因此借助电子摄像头来辅助监考人员在考试中和考试后发现考生的可疑考试行为，以此进一步分析考生作弊与否，成为一个很有意义的研究方向。

机考可疑行为识别属于人体行为识别的范畴。目前，视频人体行为识别方法根据特征提取方法的不同分为两大类：

一是基于传统手工特征的行为识别方法，基于手工特征提取的行为识别方法通常包括一系列处理过程；即首先对视频进行采样，然后从样本中提取特征，接着对特征进行编码，再对编码的向量进行规范化，最后对它们进行训练和分类。

二是基于深度学习的方法；虽然传统的基于手工特征的行为识别方法能取得一定的成绩，但是需要耗费大量人力和专业知识来提取有效的特征。近年来，得益于深度卷积神经网络能够自动有效地提取有用特征，越来越多学者开始使用深度学习的方法来提取视频行为特征，此后深度卷积神经网络在大量参数以及大规模数据集的加持下取得的成绩远远超越了传统基于手工特征的方法。

具体而言，在视频行为识别领域深度学习方法大致分为两类：基于3D卷积网络模型和基于双流网络模型。

3D卷积网络的提出是为了解决2D卷积网络在处理视频问题时的不足。2D卷积网络应用于二维特征图上仅仅从空间维度上提取和计算特征，而在处理视频问题时通常希望能够有效捕捉和编码多个连续帧中的行为运动信息，也就是时间维度的特征，这是2D卷积难以满足的。3D卷积是通过将一个3D的卷积核应用到由多个连续视频帧组成的立方体上进行卷积运算来实现的，通过这种形式的构造，3D卷积网络中卷积层上的特征可以与前一层多个连续帧相连接，以此够捕获运动信息。

视频可以很自然的分解为空间部分和时间部分，空间部分可以以单个帧的形式携带视频中描述的场景信息，时间部分主要携带视频中人体运动信息，由此产生了双流卷积神经网络。双流网络在时间流和空间流上分别应用一个深度卷积神经网络产生结果，后期将两个结果融合得到最后更优的分类结果值。

可以看出，无论是3D卷积网络方法还是双流网络方法，都增加了对时间维度运动特征的提取能力，这说明时间维度的行为动态运动特征的提取对于行为识别尤其重要，特别是对于机考场景下背景单一和简单，无益于分辨行为类别之间的差异。双流网络的一个难以避免的问题在于，其时间流网络所使用的光流提取十分耗时，且需要较高的算力资源，难以满足实时识别的需要。3D卷积网络虽然较双流网络而言计算量稍低，但是时间维度的卷积还是加大了整体参数数量，同样对计算资源要求较高；并且3D卷积在对于相隔较远的帧之间的时空特征建模方面有明显的局限之处。

发明内容

本发明的目的是克服现有技术中的不足，提供一种基于深度学习的机考可疑行为识别方法。

这种基于深度学习的机考可疑行为识别方法，其特征在于，包括以下步骤：

步骤1、拍摄获取包含机考可疑行为的视频，对视频进行预处理，得到与机考可疑行为视频相对应的视频帧图片序列；所有视频帧图片序列组成机考行为数据集；

步骤2、将机考行为数据集或其他大规模行为数据集按设定比例划分为训练集与验证集，采用训练集训练时空特征提取网络；

步骤3、随机挑选一部分步骤1得到的视频帧图片序列进行面部五官区域标记，形成原始图片以及xml文件，xml文件中object标签下包含类别信息和坐标信息；将类别信息和坐标信息与原始图形结合，得到面部五官区域目标检测数据集；

步骤4、利用步骤3得到的面部五官区域目标检测数据集来训练面部五官区域目标检测网络；

步骤5、利用步骤4得到的面部五官区域目标检测网络来检测步骤1中机考行为数据集内的视频帧图片的面部五官区域，得到检测信息；计算出表征行为运动特征的时间序列，形成面部运动特征时间序列数据集；

步骤6、利用步骤5得到的面部运动特征时间序列数据集来训练循环神经网络，得到训练好的运动特征提取网络；循环神经网络为双向GRU网络；运动特征提取网络为面部五官区域目标检测网络拼接双向GRU网络；

步骤7、采用步骤2得到的时空特征提取网络和步骤6得到的运动特征提取网络分别提取视频帧图片的检测信息和表征行为运动特征，再分别经由全连接层和softmax函数输出分类得分，将两路得分进行融合，得到最后的分类结果。

作为优选，步骤1中统一选择摄像头正面拍摄获取包含机考可疑行为的视频；机考可疑行为分为抬头偷看、低头偷看、向左转头说话、向右转头说话、向左移动偷看、向右移动偷看和向前倾偷看前面人显示器答案。

作为优选，步骤1中对视频进行预处理的具体操作为：将机考可疑行为视频转换为连续的视频帧图片序列，然后按照时间顺序对连续的视频帧图片序列进行间隔采样；逐渐调节采样间隔，直至单个视频采样高于设定帧数；将单个视频采样低于设定帧数的部分重复用最后一帧进行补足；采用随机裁剪和数据增广对间隔采样及帧补足后的视频帧图片序列进行处理；用处理后视频帧图片序列的RGB三个通道像素值减去机考行为数据集的平均像素值，移除视频帧图片序列的平均亮度值；再将单帧或多帧图片馈入神经网络进行前向计算。

作为优选，步骤2中将机考行为数据集按8:2的比例划分为训练集与验证集；步骤2中时空特征提取网络选用R(2+1)D网络；随机梯度下降算法训练和优化网络参数时动量值设置为0.9，初始学习率为0.001，后续每10个轮次衰减为原来的十分之一，共迭代60轮，批量大小为16；其他大规模行为数据集为Kinetics数据集。

作为优选，步骤2中采用训练集训练时空特征提取网络的具体操作为：每次从按时间先后排列的视频帧图片序列中随机取连续帧数的图片训练时空特征提取网络，使用随机梯度下降算法训练和优化时空特征提取网络的参数，使用批归一化处理时空特征提取网络；时空特征提取网络最终输出的特征向量传递给全连接层；用交叉熵损失函数衡量分类场景下全连接层的实际输出结果和期望结果之间的差距，然后反向传播更新时空特征提取网络的参数。

作为优选，步骤3中用于进行面部五官区域标记的工具为LabelImg。

作为优选，步骤4中面部五官区域目标检测网络选用yolo v4 tiny网络。

作为优选，步骤5具体包括以下步骤：

步骤5.1、对于机考行为数据集内的一张视频帧图片，使用收敛完成的面部五官区域目标检测网络得到检测信息，检测信息包括边界框左边位置left、右边位置right、上边位置top和下边位置bottom，进一步得到八个特征变量：边界框宽度width、边界框高度height、边界框宽高比ratio、边界框面积square、边界框中心点横坐标center_x、边界框中心点纵坐标center_y、中心点横坐标相对位置relative_x和中心点纵坐标相对位置relative_y；

步骤5.2、平衡各特征变量大小：

width＝right-left

height＝bottom-top

步骤5.3、利用面部五官区域目标检测网络和平衡后的特征变量大小，从一张特征变量大小中得到12个特征变量并按照设定顺序组成表征行为运动特征的时间序列：

x＝{x₁，x₂，x₃，x₄，x₅，x₆，x₇，x₈，x₉，x₁₀，x₁₁，x₁₂}

上式中，x₁到x₁₂分别为left、right、top、bottom、width、height、ratio、square、center_x、center_y、relative_x和relative_y；

步骤5.4、将机考行为数据集内的全部视频帧图片经步骤5.1至步骤5.3处理，得到多组表征行为运动特征的时间序列，将多组表征行为运动特征的时间序列按照时间顺序从上至下排列，最终得到面部运动特征时间序列数据集。

作为优选，步骤7具体为：面部五官区域目标检测网络提取视频帧图片的检测信息，检测面部五官区域位置，计算得到表征行为运动特征的时间序列并输送给双向GRU网络，通过双向GRU网络来提取表征行为运动特征的时间序列中蕴含的表征行为运动特征，将表征行为运动特征经由全连接层和softmax函数输出分类得分，将两路得分进行融合，得到最后的分类结果。

本发明的有益效果是：本发明构建了机考行为数据集，为实现机考可疑行为识别搭建了数据基础；本发明还提出了基于面部五官运动特征的机考行为识别算法，该算法通过目标检测的方法将RGB帧所表示的空间信息转换为能够表示运动信息的时间序列；相比于使用光流，机考行为识别算法设计的时间序列在机考场景下对运动特征的提取和分类更加高效；实验证明机考行为识别算法可以通过融合的方式显著提高主流深度学习行为识别模型在机考行为数据集上的效果。

附图说明

图1为基于深度学习的机考可疑行为识别方法的整体流程图；

图2为向左移动偷看视频对应时间序列堆积图；

图3为向右移动偷看视频对应时间序列堆积图。

具体实施方式

下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出，对于本技术领域的普通人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

实施例一

本申请实施例一提供了一种基于深度学习的机考可疑行为识别方法，包括以下步骤：

实施例二

在实施例一的基础上，本申请实施例二提供了一种如图1所示基于深度学习的机考可疑行为识别方法的具体应用：

步骤1：通过组织人员模拟机考可疑行为进行拍摄，获取包含机考可疑行为的视频，对视频进行预处理，得到与机考可疑行为视频相对应的视频帧图片序列；所有视频帧图片序列组成机考行为数据集，将机考行为数据集按设定比例划分为训练集与验证集；

机考可疑行为分为抬头偷看、低头偷看、向左转头说话、向右转头说话、向左移动偷看、向右移动偷看和向前倾偷看前面人显示器答案这七类。再加上正常考试的情况，所以最后一共有8类行为，每一类大概在190个左右的数量。其中机考行为数据集中训练集与验证集的比例为8:2。最终拍摄整理剪辑了1547个视频片段，共有大约50位志愿者参与视频拍摄。考虑到现在笔记本电脑摄像头的普及和中小型摄像头成本较低，无论是在线远程上机考试还是线下机考都可以选用这些摄像头，因此选用这两种摄像头进行录制。

在确定摄像头录制的角度方面，由于本发明的考试场景是上机考试；考虑到有一部分属于在线远程考试的场景，比如企业远程编程考试；在这些场景下考生通常是使用自己的笔记本电脑参加考试，此时摄像头是正面面对考生的。因此为了统一线上线下机考的场景，也为了录制的简单性，这里统一选择摄像头正面录制考生的行为。

在录制场地选择上，由于数据集既要考虑线上机考的场景也要考虑到线下机考的情况，为了丰富数据集的多样性和全面性，最后选择让一部分志愿者在线下学校机房参与录制，一部分志愿者自由选择录制地点，模仿在线远程考试的情况；录制地点包括家中、宿舍和户外等。

在考生行为的拍摄上，虽然之前提到了一共有8种行为，但是考虑到真实机考场景下行为的多样性和复杂性，即使是同一种行为，在表现上的差别也可能较大。因此在拍摄时也考考虑到这一点，具体而言就是录制同一个行为也要做到有所差别，比如同样是低头偷看答案也要考虑到答案的位置，可能是左下方也可能是右下方等。

摄像机拍摄录制的视频片段往往时间较长，在有用的行为前后有着太多不相关的其他行为，因此需要手动剪辑掉其他不相关的行为动作，最终形成的是大约4～5秒的视频剪辑片段，通过人工剪辑保证了行为动作的纯净性，方便后续网络训练收敛。

目前的深度神经网络算法通常无法直接针对视频数据进行训练，所以必须将视频转换为连续的视频帧图片，再将单帧或多帧图片馈入神经网络进行前向计算。视频帧率为30帧每秒，含有大量的冗余帧，为此按照时间顺序进行间隔采样，通过逐渐调节采样间隔(初始是每4帧取一帧，可根据情况逐渐递减)使得单个视频最少采样16帧，如果不足16帧重复用最后一帧进行补足。对提取到的视频帧图片训练时采用随机裁剪，将原来大小为171*128大小的视频帧图片随机裁剪为112*112大小的图片从而进行数据增广，提高训练模型的泛化能力。此外训练时将视频帧图片RGB三个通道减去数据集的平均像素值，这样可以移除图片的平均亮度值，凸显视频帧图片的个体差异，有利于模型学习数据中的有效信息。

步骤2：将机考行为数据集按设定比例划分为训练集与验证集，采用训练集训练时空特征提取网络；

这里的时空特征提取网络为18层的R(2+1)D网络；R(2+1)D网络借鉴了3D卷积的思想，将3D卷积用一个2D卷积紧跟着一个1D卷积形成的(2+1)D模块来代替，并通过控制1D卷积核的数量Mi使得(2+1)D模块参数与3D卷积相当，将18层的2D ResNet网络中的2D卷积模块换成(2+1)D模块就形成了18层R(2+1)D网络。

网络训练时每次从按时间先后排列的视频帧图片序列中随机取连续的16帧进行训练，即16个长宽为112分辨率的RGB帧组成的立方体。使用随机梯度下降算法训练和优化网络参数，动量值设置为0.9，初始学习率为0.001，后续每10个轮次衰减为原来的十分之一，共迭代60轮，批量大小为16。使用批归一化处理方法加快网络模型的收敛速度，使得时空特征提取网络的训练结果更加稳定，从而有效改善梯度消失和梯度下降现象。损失函数选择交叉熵损失函数(cross entropy loss)，交叉熵主要是用来判断实际输出与期望输出之间的接近程度。在分类情况下，若实际输出与期望输出之间接近，则对应所属类别输出结点值应当是1，其他结点为0，这是神经网络期望的输出结果。因此可以用交叉熵损失函数衡量分类场景下实际输出结果和期望结果之间的差距，进而反向传播去更新网络参数。最终经由网络输出形成一个512维的特征向量，它将传递给全连接层。

由于机考行为数据集训练集样本有限，如果直接从头开始训练神经网络模型会导致模型参数训练不充分以及出现较为严重的过拟合现象，为此可以使用迁移学习的方法进行改善。迁移学习的概念最早见于心理学和教育学领域，迁移学习被心理专家称为学习迁移，即一种学习可以影响另外一种学习，生活中常见的“他山之石，可以攻玉”就很好体现了迁移学习的思想。具体而言在机器学习领域迁移学习可以利用不同领域数据模型任务的相似性，将旧领域学习到的知识、参数等用于新领域学习。回到机考行为数据集本身，由于机考行为数据集样本数有限，因此需要寻找其他大规模行为数据集进行网络的预训练。有研究表明Kinetics数据集拥有足够大的标注视频样本来从头开始训练3D卷积神经网络，可以在视频识别领域起到类似于ImageNet在图片识别领域相似的作用。因此选择使用Kinetics数据集对18层的R(2+1)D网络进行预训练，再将训练好的参数搬移过来，在此基础之上通过机考行为数据集进一步训练得到完备的R(2+1)D网络。

步骤3：随机挑选一部分步骤1得到的视频帧图片序列进行面部五官区域标记，得到面部五官区域目标检测数据集；

通过随机挑选机考行为数据集各个行为类别中1758张视频帧图片进行标记来构成目标检测数据集，其中挑选的每类行为视频帧图片数量大致均衡，这里使用的标记工具是一款基于QT图形界面开发的静态图像标注工具LabelImg，其一般用于目标检测任务数据集标注，每一张图片经过标注之后会生成一个xml文件，xml文件中标签size之下会说明标注的图片分辨率以及RGB通道数，标签object下会说明标注所属的类别以及标注框左上角和右下角的坐标。

在标注面部五官区域时选择一个最小的标注框刚好覆盖五官区域即可，不要有太多多余部分，如果只有面部五官中的一部分出现在图片中也只覆盖这一部分五官。对于没有出现五官部分的图片选择不标注，即没有目标出现。

目标类别标签只有一类，命名为feature。经过手工标注后形成了1758张图片以及1642个VOC格式的xml文件。在后续训练过程中需要对标注完成的数据集进行格式转换，转换时会用到的信息就包括了xml文件中object标签下的类别信息和坐标信息，通过把这些信息和原始图像相结合，从而转换成可以被深度学习框架读取的数据格式。

步骤4：利用步骤3得到的面部五官区域目标检测数据集来训练面部五官区域目标检测网络；

选用的目标检测网络为yolo v4 tiny网络，yolo v4 tiny是yolo v4目标检测网络的精简版本，属于一种轻量级模型。yolo v4 tiny网络参数仅有600万，这对于提升检测速度帮助很大。其整体结构共有38层，使用了Leaky ReLU作为激活函数，使用两个特征层来完成目标的分类和回归并且使用特征金字塔网络来合并有效特征层。其与yolo v4一样使用了CSPNet结构并对特征提取网络进行通道分割。yolo v4 tiny网络在COCO上取得了40.2％的AP50以及371FPS(GTX 1080Ti)的成绩。无论是AP，还是FPS的性能，其相较于yolov3 tiny都提升巨大。

读取之前标记得到的VOC格式的xml文件中的目标框位置信息，将其转换成txt文件格式，txt文件每一行代表一个目标框的位置和类别。由于只针对面部五官区域进行检测，所以只有一个类别，用数字0表示。同时将数据集划分为训练集和验证集，保存到train.txt和val.txt中。完成数据准备工作后下载yolo v4 tiny算法的代码，修改其相关的配置文件即可开始训练，迭代轮次为100轮。通过观察训练过程中loss下降可以看到网络可以很好地完成拟合。

步骤5：利用步骤4得到的面部五官区域目标检测网络来检测步骤1中机考行为数据集内的视频帧图片的面部五官区域，得到检测信息，利用检测信息计算出表征行为运动特征的时间序列，形成面部运动特征时间序列数据集；

对于一张机考行为图片使用收敛完成的yolo v4 tiny网络可以得到边界框左边位置left、右边位置right，上边位置top以及下边位置bottom，通过这四个变量可以设计出其他8个特征变量，即边界框宽度width、边界框高度height、边界框宽高比ratio、边界框面积square、边界框中心点横坐标center_x、边界框中心点纵坐标center_y、中心点横坐标相对位置relative_x以及中心点纵坐标相对位置relative_y，对于部分特征变量通过与100乘除来平衡各变量值大小，它们的计算公式如下：

width＝right-left

height＝bottom-top

所以最终可以通过yolo v4 tiny网络和这些计算公式从一张图片中得到12个特征变量并将他们按照一定顺序组成一个时间序列：

其中x₁到x₁₂分别对应left、right、top、bottom、width、height、ratio、square、center_x、center_y、relative_x以及relative_y这12个特征变量。

这样一来就可以利用之前建立的机考行为数据集来建立对应的时间序列数据集。具体而言在机考行为数据集中一个视频片段对应于多张按照时间先后排序的视频帧图片，利用训练好的目标检测网络以及上述计算公式可以得到一组时间序列，将其保存在csv文件中。每个csv文件与一个视频片段相对应，csv文件的每一行对应一张图片检测计算来的上述12个位置特征变量，按照时间顺序从上至下排列。最终得到与机考行为数据集一一对应的运动特征时间序列数据集。图2和图3分别展示了向左移动偷看和向右移动偷看对应的时间序列的堆积面积图，不同颜色代表时间序列的12个不同变量，可以很直观地看到时间序列中蕴含着不同行为的不同运动特征，可以进一步利用神经网络处理和分类。

步骤6：利用步骤5得到的面部运动特征时间序列数据集来训练循环神经网络，得到训练好的运动特征提取网络；循环神经网络为双向GRU网络；

GRU网络又称门控单元网络，是一种比长短期记忆网络LSTM更加轻量的循环神经网络，使用门控机制有效避免普通循环神经网络存在的梯度消失和梯度爆炸的问题。双向GRU通常由两个单向GRU上下叠加组成，他们的输入信息相同，但是信息传递的方向完全相反。通过实现双向GRU网络使得当前时刻的输出不仅与过去的状态信息有关还与将来的状态信息有关，也即由上下文共同参与决定当下的输出，通过双向循环神经网络的方式可以有效增强网络的表达能力。

训练双向GRU网络使用的数据集为步骤5得到的面部运动特征时间序列数据集，每次选取csv文件中连续的16行时间序列用于识别，具体而言是采用随机的方法选择第一行序列的位置，再选取从该位置开始的连续16行序列，通过此方法即使针对同一个视频对应的时间序列，每次选取的序列也不尽相同，最终输入网络学习的内容也不同，从而增加了样本的多样性。此外通过将时间序列进行归一化操作来加快网络收敛的速度以及提高训练的精度。

初始学习率为0.001，后续每10个轮次变为原来的十分之一，共训练迭代250轮。批量大小为32，优化器选择Adam优化器，Dropout值为0.5。

与光流法对比；光流是通过场景中的目标物体运动和摄像机的运动共同产生的。一般而言运动的物体经过人类视觉信号处理后在人眼的视网膜上形成一系列连续变化的图像，这一系列时间上连续的图像信息不断“流过”视网膜细胞，形成了一种光的流动，所以称之为光流。因此光流表示了运动物体的运动变化特征，其被计算机视觉领域研究者广泛用于表征目标物体的运动情况。形象来说光流是通过将三维空间的物体运动投影到二维成像平面所形成的二维矢量，即用二维矢量来表示三维的运动情况。这里用TV-L1光流法来计算光流，其是一种基于全变分和L1正则项的光流计算方法。它相比于传统的光流计算方法对噪声有着更强的鲁棒性，可以容忍光流场中的不连续性。光流场是依赖相邻像素帧计算得到的二维矢量场，所以具有横向和纵向两个方向，对于给定的N帧连续视频帧图片最终可以获取2×(N-1)张光流图。

通过TV-L1光流法将之前创建得到的机考行为数据集转换成对应的光流图数据集。最终每一个机考行为数据集的视频帧图片对应了两组不同方向的光流图，将不同方向光流图按照时间先后顺序交叉排列，每次随机选取连续的20张光流图进行训练。在分类模型选择上，本节使用不同层数的经过ImageNet数据集预训练的2D ResNet网络进行光流图的分类。TV-L1光流法与本发明提出的时间序列加上双向GRU的实验结果对比如下表1所示：

表1基于光流法的网络与双向GRU网络的结果准确率与参数数量对比表

从实验结果可以看出随着ResNet网络层数的增加，光流图分类准确率呈现出上升趋势，但是随之而来的是模型参数数量的膨胀。可以看到ResNet101网络在光流图上取得的分类准确率接近本实施例取得的90.65％，但是模型体积要远远高于本实施例使用的双向GRU网络。此外从视频图片帧中提取光流和提取面部五官运动特征时间序列平均所消耗的时间如下表2所示，由表2可以看出在同样的机器性能情况下，两者所消耗的时间有着不同数量级的差别，这更进一步突显了本实施例的高效。

表2相同机器条件下提取光流和时间序列平均消耗时间对比表

提取成分	光流	时间序列
			平均耗时	4.96秒	0.53秒

步骤7：采用步骤2得到的时空特征提取网络和步骤6得到的运动特征提取网络分别提取视频帧图片的检测信息和表征行为运动特征，再分别经由全连接层和softmax函数输出分类得分，将两路得分进行融合，得到最后的分类结果；

这里时空特征提取网络为步骤2得到的18层R(2+1)D网络，运动特征提取网络为目标检测网络yolo v4 tiny网络拼接上双向GRU网络，yolo v4 tiny网络负责检测面部五官区域位置，通过位置信息计算时间序列输送给双向GRU网络，通过双向GRU网络来提取时间序列中蕴含的抽象运动特征。两路网络都需要经过全连接层和softmax函数得到最终的分类得分。全连接层用于高层特征推理，全连接层中的神经元与上层中的所有激活层都有完整的连接，全连接层最终将二维特征映射转换为一维的特征向量。softmax函数将全连接层多个神经元的输出映射到(0,1)区间内，这些值的累积和为1，从而可以看成是各个类别的概率，在最后选取输出结点的时候，就可以选取概率最大(也就是值对应最大的)结点，作为最终的分类目标。两路分支网络经由softmax函数后得到各自的分类得分，通过平均融合的方法将两路得分相加，取得分最大的类别作为最终的预测类别即可。

Claims

1.一种基于深度学习的机考可疑行为识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于深度学习的机考可疑行为识别方法，其特征在于：步骤1中统一选择摄像头正面拍摄获取包含机考可疑行为的视频；机考可疑行为分为抬头偷看、低头偷看、向左转头说话、向右转头说话、向左移动偷看、向右移动偷看和向前倾偷看前面人显示器答案。

3.根据权利要求1所述基于深度学习的机考可疑行为识别方法，其特征在于，步骤1中对视频进行预处理的具体操作为：将机考可疑行为视频转换为连续的视频帧图片序列，然后按照时间顺序对连续的视频帧图片序列进行间隔采样；逐渐调节采样间隔，直至单个视频采样高于设定帧数；将单个视频采样低于设定帧数的部分重复用最后一帧进行补足；采用随机裁剪和数据增广对间隔采样及帧补足后的视频帧图片序列进行处理；用处理后视频帧图片序列的RGB三个通道像素值减去机考行为数据集的平均像素值，移除视频帧图片序列的平均亮度值；再将单帧或多帧图片馈入神经网络进行前向计算。

4.根据权利要求1所述基于深度学习的机考可疑行为识别方法，其特征在于：步骤2中将机考行为数据集按8:2的比例划分为训练集与验证集；步骤2中时空特征提取网络选用R(2+1)D网络；随机梯度下降算法训练和优化网络参数时动量值设置为0.9，初始学习率为0.001，后续每10个轮次衰减为原来的十分之一，共迭代60轮，批量大小为16；其他大规模行为数据集为Kinetics数据集。

5.根据权利要求1所述基于深度学习的机考可疑行为识别方法，其特征在于，步骤2中采用训练集训练时空特征提取网络的具体操作为：每次从按时间先后排列的视频帧图片序列中随机取连续帧数的图片训练时空特征提取网络，使用随机梯度下降算法训练和优化时空特征提取网络的参数，使用批归一化处理时空特征提取网络；时空特征提取网络最终输出的特征向量传递给全连接层；用交叉熵损失函数衡量分类场景下全连接层的实际输出结果和期望结果之间的差距，然后反向传播更新时空特征提取网络的参数。

6.根据权利要求1所述基于深度学习的机考可疑行为识别方法，其特征在于：步骤3中用于进行面部五官区域标记的工具为LabelImg。

7.根据权利要求1所述基于深度学习的机考可疑行为识别方法，其特征在于：步骤4中面部五官区域目标检测网络选用yolo v4 tiny网络。

8.根据权利要求1所述基于深度学习的机考可疑行为识别方法，其特征在于，步骤5具体包括以下步骤：

步骤5.2、平衡各特征变量大小：

width＝right-left

height＝bottom-top

X＝{x₁,x₂,x₃,x₄,x₅,x₆,x₇,x₈,x₉,x₁₀,x₁₁,x₁₂}

9.根据权利要求8所述基于深度学习的机考可疑行为识别方法，其特征在于，步骤7具体为：面部五官区域目标检测网络提取视频帧图片的检测信息，检测面部五官区域位置，计算得到表征行为运动特征的时间序列并输送给双向GRU网络，通过双向GRU网络来提取表征行为运动特征的时间序列中蕴含的表征行为运动特征，将表征行为运动特征经由全连接层和softmax函数输出分类得分，将两路得分进行融合，得到最后的分类结果。