CN115937793B

CN115937793B - 基于图像处理的学生行为异常检测方法

Info

Publication number: CN115937793B
Application number: CN202310192346.5A
Authority: CN
Inventors: 梁春艳
Original assignee: Guangdong Huitong Information Technology Co ltd
Current assignee: Guangdong Huitong Information Technology Co ltd
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-07-25
Anticipated expiration: 2043-03-02
Also published as: CN115937793A

Abstract

本发明公开了一种基于图像处理的学生行为异常检测方法，涉及图像处理技术领域，该方法包括：获取考场监控视频中的每帧RGB图像和深度图像；获取每帧RGB图像中对每个人进行关键点检测的第一热图限定参数、第二热图限定参数；利用每个人的第一热图限定参数和第二热图限定参数获取每帧图像中每个人的关键点热图；利用神经网络得到学生处于考试状态或异常状态；利用关键点热图获取学生的目标视线向量；获取距离该学生的目标视线向量最近的目标关键点，利用目标关键点与目标视线向量的距离确定学生是否存在眼神互动；利用学生存在眼神互动的频率确定该学生是否存在异常行为，本发明实现了对考场中学生异常行为的智能识别。

Description

基于图像处理的学生行为异常检测方法

技术领域

本发明涉及图像处理技术领域，具体涉及基于图像处理的学生行为异常检测方法。

背景技术

对于重要考试学校不仅安排监考员进行监考，还会在考场的多个位置设置监控摄像头，进行全方位监控，将考场画面实时转播到巡检部门，巡检人员通过监控视频识别学生行为，判断学生是否存在作弊行为，并且还可以将监控视频保存，用于后期确认作弊的证据。

但是由于考场人员众多，监考员无法关注到每个学生的行为状态，确定是否作弊，巡检人员也无法通过监控视频识别出所有存在作弊行为的学生，并且设置监控仅仅存在录制存储的功能，不具备分析功能，所以无法判断当前时刻是否存在学生作弊的情况，因此，需要基于图像处理的学生行为异常检测方法。

发明内容

本发明提供基于图像处理的学生行为异常检测方法，以解决现有的问题。

本发明的基于图像处理的学生行为异常检测方法采用如下技术方案：该方法包括：

获取考场监控视频中的每帧RGB图像和深度图像；

获取每个人在每帧深度图像和RGB图像中对应的目标包围框，每个人包括监考员和学生；

利用每帧RGB图像中每个人的运动偏移量得到每帧RGB图像中对每个人进行关键点检测的第一热图限定参数；

利用每帧深度图像得到的每个人的眼部尺寸获取每帧RGB图像中对每个人进行关键点检测的第二热图限定参数；

利用每帧包含多个目标包围框的RGB图像和RGB图像中每个人的第一热图限定参数、第二热图限定参数得到每帧RGB图像中每个人的关键点的热图；

利用每个学生的眼部和嘴部的关键点的热图中像素点的坐标得到多个垂直于面部的向量作为该学生的视线向量，利用眼部和嘴部的关键点的热图中像素点的灰度值确定出视线向量中的目标视线向量；

获取距离该学生的目标视线向量最近的可互动对象的眼部关键点作为目标关键点，利用目标关键点的热图中心点与目标视线向量之间的距离确定学生是否与可互动对象存在眼神互动；

将每个学生的所有身体部位的关键点的热图输入训练好的时空图卷积神经网络，输出学生当前时刻为考试状态或异常状态；

利用学生处于考试状态时存在眼神互动的频率确定该学生是否存在异常行为。

进一步，利用学生处于考试状态时存在眼神互动的频率确定该学生是否存在异常行为的步骤包括：

获取学生处于考试状态时的多帧RGB图像以及每帧RGB图像中学生是否与可互动对象存在眼神互动；

对每个学生构建第二散点图，横坐标为时间点，纵坐标为存在眼神互动的可互动对象的编号，不存在眼神互动则纵坐标的值为0；

对第二散点图进行傅里叶变换得到第二散点图的频域图；

若频域图中频率大于设定的频率阈值的部分存在曲线，则说明该学生存在异常行为。

进一步，得到每帧RGB图像中每个人的运动偏移量的步骤包括：

获取当前帧RGB图像的光流图以及光流图中的多个连通域，获取每个连通域的骨架线；

利用每个连通域的骨架线上的采样点与骨架线做垂线，得到每个连通域的平均宽度，将连通域的平均宽度作为连通域对应的人的运动偏移量。

进一步，得到每帧RGB图像中对每个人进行关键点检测的第一热图限定参数的步骤包括：

对每帧RGB图像中每个人的运动偏移量进行归一化得到归一化值；

利用1减去归一化值得到每帧图像中对每个人进行关键点检测的第一热图限定参数。

进一步，得到每帧RGB图像中对每个人进行关键点检测的第二热图限定参数的公式为：

其中，表示一个人进行关键点检测时的第二热图限定参数；/>表示一个人的眼部尺寸。

进一步，获取学生的视线向量的步骤包括：

在左眼关键点的热图和嘴部关键点的热图中选取不同的像素点会得到多个不同的面部平面向量，其中（/>）；

类比该方法获取右眼关键点的热图和嘴部关键点的热图中不同像素点得到的多个面部平面向量，其中（/>）；

利用左眼关键点得到的任意一个面部平面向量和右眼关键点得到的任意一个面部平面向量/>相乘得到垂直于面部平面向量，作为该学生的视线向量；

左眼关键点和右眼关键点对应多个面部平面向量，不同的面部平面向量相乘则会得到不同的视线向量。

进一步，利用眼部和嘴部的关键点的热图中像素点的灰度值确定出视线向量中的目标视线向量的步骤包括：

获取得到视线向量的面部平面向量对应的像素点在眼部关键点和嘴部关键点的热图中的灰度值；

将得到面部平面向量的两个像素点的灰度值相乘得到面部平面向量的可能性；

将得到视线向量的两个面部平面向量的可能性相乘得到视线向量的可能性；

获取最大可能性的视线向量作为视线向量中的目标视线向量。

进一步，利用目标关键点的热图中心点与目标视线向量之间的距离确定学生是否与可互动对象存在眼神互动的步骤包括：

获取目标关键点的热图中心点与目标视线向量的垂足点，利用目标关键点的热图中心点与垂足点之间的距离获取该学生与可互动对象的眼神互动可能性，获取学生与可互动对象的眼神互动可能性的公式为：

其中，表示学生与可互动对象的眼神互动可能性；/>表示目标关键点的热图中心点与垂足点之间的距离；/>表示目标视线向量的可能性；/>表示归一化函数；

利用学生与可互动对象的眼神互动可能性确定学生是否与可互动对象存在眼神互动。

进一步，得到每个人的眼部尺寸的步骤包括：

获取历史数据中每个人在深度图像中的深度值和眼部尺寸；

以每个人的深度值为横坐标，眼部尺寸为纵坐标构建散点图；

利用最小二乘法对散点图中的数据点进行直线拟合得到一条直线；

将直线的斜率作为深度图像中人的深度值和眼部尺寸的参考比例值；

利用参考比例值和每帧深度图像中每个人的深度值得到每个人的眼部尺寸。

本发明的有益效果是：本发明的基于图像处理的学生行为异常检测方法，通过获取监考员和每个学生的关键点热图，对眼部和嘴部的关键点热图中的像素点进行分析得到学生的视线向量，利用学生的目标视线向量与距离最近的眼部关键点之间的垂足距离得到该学生的眼神互动的可能性，进而得到存在眼神互动的行为；并且利用训练好的时空卷积神经网络对每个学生的关键点进行分析，能够直接得到学生在每个时刻的行为状态，确定是否存在异常行为；并且对考试状态中的眼神互动频率进行分析得到学生的异常行为，能够避免将学生与监考员或与同学之间偶尔的对视认定为异常行为；并且本方案通过获取第一、第二热图限定参数，能够在关键点检测时得到更准确的关键点大小，避免出现关键点过大发生重叠的现象，能够使得后续对学生行为分析的结果更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的基于图像处理的学生行为异常检测方法的实施例总体步骤的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的基于图像处理的学生行为异常检测方法的实施例，如图1所示，该方法包括：

S1、获取考场监控视频中的每帧RGB图像和深度图像；获取每个人在每帧深度图像和RGB图像中对应的目标包围框。

具体的，在考场中设置RGBD相机，用于获取考场的监控视频；获取监控视频中的每帧图像，RGBD相机可以得到考场的RGB图像和深度图像。

考场中包括监考员和多个学生，因为后续需要分析每个学生是否出现异常行为，所以需要对学生与监考员进行识别区分。

获取历史数据中大量的考场监控视频，监控视频中学生和监考员的着装没有特征上的差别，但是根据先验知识：监考员一般在讲台区域活动，为了实现对监考员和学生的识别区分，安排大数据标注专家，将历史数据的监控视频中的RGB图像中讲台区域赋予灰度值255，其他区域赋予灰度值0，标注得到灰度图像，并且标注出每个人的目标包围框，作为验证数据，得到训练数据集，利用GIOU损失函数，Adam优化器不断迭代完成对学生识别模型的训练，学生识别模型的网络类型为ResNet50，为公知的网络类型。

具体的，将获取的监控视频的每帧RGB图像中讲台区域赋予灰度值255，其他区域赋予灰度值0，得到每帧RGB图像的灰度图像。

将RGB图像和灰度图像输入学生识别模型中，输出每个人在RGB图像中的目标包围框，每个人包括监考员和多个学生，同时输出目标类别：学生、监考员。得到监考员和每个学生的目标包围框，对应RGB图像在相同位置得到监考员和每个学生在深度图像中的目标包围框。

S2、利用每帧RGB图像中每个人的运动偏移量得到每帧RGB图像中对每个人进行关键点检测的第一热图限定参数。

本方案需要获取人体的关键点，通过关键点之间的位置关系进行眼神互动检测和身体互动检测。关键点检测中重要的一步是，确定关键点的大小，合适的关键点大小应该是和对应身体部位的物理大小相近的，过大容易发生相邻关键点的重叠，尤其是头部关键点，过小则容易产生较大误差。

进行人体检测时得到的每个关键点的热图是一种灰度图，具体的格式为：关键点所在的位置是一个以中心点展开的二维高斯分布，由两个热图限定参数调控，在中心点取得最大灰度值/>，/>决定了高斯分布的影响范围，即关键点的热图区域，影响范围之外的像素点的值为0。所以要得到合适的关键点大小，就需要获取合适的热图限定参数。

具体的，利用Lucas–Kanade光流算法处理当前帧的RGB图像和上一帧的RGB图像，得到当前帧的光流图，光流图为灰度图像，灰度值越高的像素点对应的区域运动速度越快。

对每帧光流图进行连通域分析得到多个连通域，每个人对应一个连通域。

对每个连通域进行开运算得到连通域的骨架线，骨架线的获取为公知技术，在此不作赘述。

对连通域中的骨架线进行中值滤波得到平滑的骨架线，在每个连通域的所有平滑的骨架线上采样个像素点（本方案根据经验值取/> =50），称为采样点；利用每个采样点在所在平滑的骨架线的切线的垂直线，截取每个采样点处连通域的宽度。

利用每帧光流图的每个连通域中所有采样点得到的连通域的宽度计算连通域对应的人的运动偏移量：

其中，表示连通域的平均宽度，用于连通域对应的人的运动偏移量；/>表示连通域中第/>个采样点处连通域的宽度；/>表示连通域中采样点的总数量。光流图中的连通域一般都是条状的，利用连通域宽度表示对应的人体部位的运动偏移量，连通域的宽度越宽，说明运动幅度越大。

根据下式计算每个连通域对应的人进行关键点检测的第一热图限定参数：

其中，表示连通域对应的人进行关键点检测的第一热图限定参数；/>表示连通域的平均宽度，用于表示连通域对应的人的运动偏移量；/>为归一化指数函数，可将/>投影到[0,1]的范围内，利用/>用来表示第一热图限定参数，即运动幅度越大，得到准确的关键点中心的准确率就越低，即/>越小，例如在头部运动时，头部的晃动幅度越大，准确识别头部中心点的准确率就越低，/>的值就越小，/>用于表示关键点的热图中的最大灰度值。

S3、利用每帧深度图像得到的每个人的眼部尺寸获取每帧RGB图像中对每个人进行关键点检测的第二热图限定参数。

第二热图限定参数受制于图像的尺寸和学生在图像中的大小。因为人的眼睛大小不会随着年龄的增大而变化，并且每个人的眼睛尺寸差异不大，因此可以通过历史数据得到在距离监控摄像头不同距离的人的眼部尺寸，眼部尺寸为眼睛最小外接圆的直径。

具体的，获取历史数据中每个人的眼部尺寸以及深度值，深度值利用深度相机获取，用于表示人到监控摄像头之间的距离；以每个人的深度值为横坐标，眼部尺寸为纵坐标构建散点图，利用最小二乘法对散点图中的数据点进行直线拟合得到一条直线；将直线的斜率作为人的深度值和眼部尺寸的参考比例值。

获取每帧图像中每个人的深度值，利用深度值和参考比例值获取每帧图像中每个人的眼部尺寸，具体计算公式为：

其中，表示一个人的眼部尺寸；/>表示人的深度值和眼部尺寸的参考比例值；/>表示该人在深度图像中的深度值。

在高斯分布中，即可包含99.7%的范围，即/>，所以根据下式计算一个人进行关键点检测时的第二热图限定参数：

其中，表示一个人进行关键点检测的第二热图限定参数；/>表示一个人的眼部尺寸，/>决定了高斯分布的影响范围，/>包含高斯分布中99.7%的影响范围，所以若要在高斯分布中得到全部的眼部区域，就需要让眼部尺寸/>等于/>，则/>，进而得到/>。

S4、利用每帧包含多个目标包围框的RGB图像和RGB图像中每个人的第一热图限定参数、第二热图限定参数得到每帧RGB图像中每个人的关键点的热图。

具体的，获取历史数据中大量的考场监控视频，安排大数据标注专家，标注出每个目标包围框的关键点，即每个人体的关键点，作为验证数据，使用交叉熵损失函数，Adam优化器不断迭代完成对关键点检测模型的训练。

关键点检测模型使用公知的神经网络，具体的网络类型为HRnet。在关键点检测模型中输入当前帧包含多个目标包围框的RGB图像、每个人进行关键点检测时的第一热图限定参数、第二热图限定参数，输出当前帧RGB图像中每个目标包围框的16个关键点的热图，即每个人体的关键点的热图。输入热图限定参数是为了限定关键点大小，得到最佳尺寸的关键点。普通的HRnet并没有对关键点大小加以限制，而是设定同一的关键点大小。

输出的16个关键点的头部关键点包含：左眼、右眼/>、嘴巴/>；身体部分的关键点包含：颈部底部/>、右肩膀/>、右手肘/>、右手手腕/>、左肩膀/>、左手肘/>、左手手腕/>、右胯/>、右膝/>、右脚/>、左胯/>、左膝/>、左脚/>。

S5、利用每个学生的眼部和嘴部的关键点的热图中像素点的坐标得到多个垂直于面部的向量作为该学生的视线向量，利用眼部和嘴部的关键点的热图中像素点的灰度值确定出视线向量中的目标视线向量。

根据得到的头部区域的关键点的热图进行视线方向的识别，进而判断每个学生是否存在眼神互动的情况。

具体的，获取头部区域的三个关键点的热图，左眼、右眼/>、嘴巴/>的关键点的热图，并获取每个热图中每一个像素点的坐标和灰度值。

随机选取左眼关键点的热图中的一个像素点，同时随机选取嘴部关键点的热图中的一个像素点/>，利用这两个像素点得到面部平面的一个向量；改变随机选取的点/>和/>，在左眼关键点的热图和嘴部关键点的热图中随机选取不同的像素点，则会得到多个不同的面部平面向量/>, 其中（）；

类比得到向量的方法，获取右眼关键点的热图和嘴部关键点的热图中不同像素点得到的多个面部平面向量/>，（/>）；

在欧式空间中，两个向量和/>即可确定一个平面，两个向量相乘得到的向量即是面部平面的垂直向量，利用左眼关键点和嘴部得到的任意一个面部平面向量/>以及右眼关键点和嘴部得到的任意一个面部平面向量/>相乘得到垂直于面部平面向量，作为该学生的视线向量。

由于左眼关键点和右眼关键点对应多个面部平面向量，不同的面部平面向量相乘则会得到不同的视线向量。

获取面部平面向量对应的像素点在眼部关键点和嘴部关键点的热图中的灰度值，将两个像素点的灰度值相乘得到面部平面向量的可能性，根据下式计算面部平面向量的可能性：

其中，表示面部平面向量/>的可能性；/>表示得到面部平面向量/>的像素点/>在左眼关键点的热图中的灰度值，即表示该像素点在热图中坐标位置/>的可能性；/>表示得到面部平面向量/>的像素点/>在嘴部关键点的热图中的灰度值，即表示该像素点在热图中坐标位置/>的可能性。

将得到视线向量两个面部平面向量的可能性相乘得到视线向量的可能性，获取最大可能性的视线向量作为该学生的目标视线向量。

S6、获取距离该学生的目标视线向量最近的可互动对象的眼部关键点作为目标关键点，利用目标关键点的热图中心点与目标视线向量之间的距离确定学生是否与可互动对象存在眼神互动。

具体的，获取距离该学生的目标视线向量最近的可互动对象的眼部关键点作为目标关键点，根据下式获取目标视线向量与目标关键点的热图中心点的垂足点：

其中，表示学生的目标视线向量；/>表示目标关键点的热图中心点/>，与目标视线向量上的垂足点/>组成的垂线的向量；中心点/>和目标视线向量/>为已知参数，则可以得到垂足点的坐标/>。

获取目标关键点的热图中心点与垂足点/>之间的距离，即表示每个学生的目标视线向量与可互动对象的目标关键点的热图中心之间的距离。

获取学生与可互动对象的眼神互动可能性的公式为：

其中，表示学生与可互动对象的眼神互动可能性；/>表示目标关键点的热图中心点与垂足点之间的距离，即学生的目标视线向量与可互动对象的目标关键点的热图中心之间的距离；/>表示目标视线向量的可能性；/>表示归一化函数，学生的目标视线向量与可互动对象的目标关键点的热图中心之间的距离越小，则表示发生眼神互动的可能性越大，目标视线向量的可能性越大表示该目标视线向量越接近学生的实际视线向量，所以利用距离和目标视线向量的可能性计算眼神互动可能性。

设定眼神互动阈值，根据经验值取/>，若学生与可互动对象的眼神互动可能性小于/>，则说明学生与可互动对象存在眼神互动，否则不存在眼神互动，将每个时刻对应的图像中该学生存在眼神互动的情况标记为01, 不存在眼神互动的情况标记为02。

S7、将每个学生的所有身体部位的关键点的热图输入训练好的时空图卷积神经网络，输出学生当前时刻为考试状态或异常状态。

具体的，对时空图卷积神经网络进行训练，获取历史数据中大量的考场监控视频，安排大数据标注专家，标注出每个学生的目标包围框的行为分析结果，作为验证数据，得到训练数据集，使用交叉熵损失函数，利用RMSprop优化器不断迭代完成对时空图卷积神经网络的训练。

将每个学生的所有身体部位的关键点的热图输入训练好的时空图卷积神经网络，输出学生的行为分析结果，得到学生当前时刻的行为状态，包括：考试状态、异常状态、其他状态。异常状态是指学生目前存在于他人的互动行为，为异常行为。其他状态中包含所有非考试状态和非互动状态的行为，例如，行走或者开考前的各种动作。

本方案中记载的异常行为即存在作弊行为。

S8、利用学生处于考试状态时存在眼神互动的频率确定该学生是否存在异常行为。

偶尔一两次的存在眼神互动不能说明学生有作弊的意图，频繁的偷看周围的同学才是异常行为的特征，因此通过存在眼神互动的频率确定学生是否存在异常行为。

获取学生处于考试状态时的多帧RGB图像以及每帧RGB图像中学生是否与可互动对象存在眼神互动，对每个学生构建第二散点图，横坐标为时间点，纵坐标为存在眼神互动的可互动对象的编号，相同的可互动对象编号相同，不存在眼神互动则纵坐标的值为0。

对第二散点图进行傅里叶变换得到第二散点图的频域图，频域图可以体现学生与可互动对象发生眼神互动的重复性和偶发性。设定频率阈值为，频率阈值根据经验选取，频率阈值越小，对存在眼神互动的敏感性越强，若频域图中频率大于2的部分存在曲线，则说明该学生存在异常行为。

综上所述，本发明提供基于图像处理的学生行为异常检测方法，通过获取监考员和每个学生的关键点热图，对眼部和嘴部的关键点热图中的像素点进行分析得到学生的视线向量，利用学生的目标视线向量与距离最近的眼部关键点之间的垂足距离得到该学生的眼神互动的可能性，进而得到存在眼神互动的行为；并且利用训练好的时空卷积神经网络对每个学生的关键点进行分析，能够直接得到学生在每个时刻的行为状态，确定是否存在异常行为；并且对考试状态中的眼神互动频率进行分析得到学生的异常行为，能够避免将学生与监考员或与同学之间偶尔的对视认定为异常行为；并且本方案通过获取第一、第二热图限定参数，能够在关键点检测时得到更准确的关键点大小，避免出现关键点过大发生重叠的现象，能够使得后续对学生行为分析的结果更加准确。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于图像处理的学生行为异常检测方法，其特征在于，该方法包括：

获取考场监控视频中的每帧RGB图像和深度图像；

获取每个人在每帧深度图像和RGB图像中对应的目标包围框，所述每个人包括监考员和学生；

得到每帧RGB图像中对每个人进行关键点检测的第一热图限定参数的步骤包括：

利用1减去归一化值得到每帧图像中对每个人进行关键点检测的第一热图限定参数；

得到每帧RGB图像中对每个人进行关键点检测的第二热图限定参数的公式为：其中，/>表示一个人进行关键点检测时的第二热图限定参数；/>表示一个人的眼部尺寸；

2.根据权利要求1所述的基于图像处理的学生行为异常检测方法，其特征在于，利用学生处于考试状态时存在眼神互动的频率确定该学生是否存在异常行为的步骤包括：

对第二散点图进行傅里叶变换得到第二散点图的频域图；

3.根据权利要求1所述的基于图像处理的学生行为异常检测方法，其特征在于，得到每帧RGB图像中每个人的运动偏移量的步骤包括：

4.根据权利要求1所述的基于图像处理的学生行为异常检测方法，其特征在于，获取学生的视线向量的步骤包括：

在左眼关键点的热图和嘴部关键点的热图中选取不同的像素点会得到多个不同的面部平面向量，其中（ /> ）；

类比该方法获取右眼关键点的热图和嘴部关键点的热图中不同像素点得到的多个面部平面向量，其中（/> ）；

5.根据权利要求4所述的基于图像处理的学生行为异常检测方法，其特征在于，利用眼部和嘴部的关键点的热图中像素点的灰度值确定出视线向量中的目标视线向量的步骤包括：

6.根据权利要求1所述的基于图像处理的学生行为异常检测方法，其特征在于，利用目标关键点的热图中心点与目标视线向量之间的距离确定学生是否与可互动对象存在眼神互动的步骤包括：

其中， />表示学生与可互动对象的眼神互动可能性； /> 表示目标关键点的热图中心点与垂足点之间的距离；/>表示目标视线向量的可能性；/>表示归一化函数；/>表示学生的目标视线向量；

7.根据权利要求1所述的基于图像处理的学生行为异常检测方法，其特征在于，得到每个人的眼部尺寸的步骤包括：

获取历史数据中每个人在深度图像中的深度值和眼部尺寸；