CN118247829B

CN118247829B - 一种基于大模型的数据处理方法及系统

Info

Publication number: CN118247829B
Application number: CN202410666345.4A
Authority: CN
Inventors: 宋航; 薛才; 裴永余; 刘焕; 刘伟健; 梁恒瑞
Original assignee: Shenyang Donghang Intelligent Technology Co ltd
Current assignee: Shenyang Donghang Intelligent Technology Co ltd
Priority date: 2024-05-28
Filing date: 2024-05-28
Publication date: 2024-07-19
Anticipated expiration: 2044-05-28
Also published as: CN118247829A

Abstract

本发明提供了一种基于大模型的数据处理方法及系统，涉及计算机领域，所述方法包括获取摄像设备上传的听课视频，在初始调整阶段，根据第一个听课视频，提取每个学生的个人面部视频；将每个学生的第一个个人面部视频输入至视觉大模型，得到每个学生在每个时刻的脸部面积和双眼面积；根据每个学生在每个时刻的脸部面积和双眼面积，确定每个学生的最大脸部面积和最大双眼面积，在稳定运行阶段，将实时个人面部视频输入至视觉大模型，获得每个学生的实时脸部面积和实时双眼面积；监测每个学生的实时脸部面积和实时双眼面积的变化情况，从而判定学生是否低头走神。对获取的听课视频的画质要求不高，且不需要预先保存过多的预存数据，降低存储成本。

Description

一种基于大模型的数据处理方法及系统

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种基于大模型的数据处理方法及系统。

背景技术

随着电子设备越来越普及，拥有电子设备的人群的年龄越来越小，电子产品已经在大学生中普及，例如手机等，中学生甚至是小学生也开始拥有自己的电子产品，例如平板电脑、点读机或电子手表等电子设备，这些设备有时候会被带到教室内，学生在上课时因为玩电子设备、游戏设备或者看小说等课外书而不专注上课，导致学生不能及时接收老师讲解的新知识。

当学生认真倾听老师讲解的内容时，会抬头观看黑板，因此现有技术中，通过影像分析学生头部与桌面之间的夹角，判断学生是否低头走神。学生头部与桌面的夹角获取方式一般有：提取头部某些特征的连线与桌面之间构成夹角，或将提取的实时影像与预存影像进行相似度对比，将与实时影像最相似的预存影像对应的预存夹角作为实时夹角，从而获得被监测者的头部与桌面的夹角，进而判断学生是否走神等。

但是现有识别学生走神的方法中有的识别的特征较为精细，提取特征较多，需要原始监控影像的画质较高，才能准确的提取头部特征的连线，这使得原始监控影像较大，占用较多存储空间；有的需要预存大量的预设影像，预存影像若过小，判断精度下降，预存影像若过多，会增加存储器负担，占用较多存储空间，增加设备搭建成本，不利于推行。

发明内容

本发明所要解决的问题是现有技术采用的学生走神识别方法，提取特征较多，对原始数据的数量和质量提出较高的要求，存储成本较高。

为解决上述问题，一方面，本发明提供了一种基于大模型的数据处理方法，包括：

获取摄像设备上传的听课视频，其中，多个摄像设备设置在学生前方，多个所述摄像设备与教室内划分的多个监控区域匹配，每个所述摄像设备用于采集对应的所述监控区域内的多个学生的听课视频；

在初始调整阶段，根据第一个所述听课视频，提取每个学生的个人面部视频；

将每个学生的第一个所述个人面部视频输入至视觉大模型，得到每个学生在每个时刻的脸部面积和双眼面积，其中，每个时刻的脸部面积和双眼面积是指初始调整阶段获得的第一个所述个人面部视频中的每个时刻的脸部面积和双眼面积，所述视觉大模型包括人脸检测器、关键点检测器和轮廓面积计算模型，所述人脸检测器使用人脸检测模型识别所述个人面部视频中每一时刻图像中的人脸，并将识别出的人脸图像发送给所述关键点检测器；所述关键点检测器使用关键点检测模型识别所述人脸图像中的脸部轮廓关键点和眼睛轮廓关键点，并将脸部轮廓关键点连接，将所述眼睛轮廓关键点连接，得到脸部轮廓和眼睛轮廓，向所述轮廓面积计算模型发送脸部轮廓和眼睛轮廓；所述轮廓面积计算模型根据接收到的脸部轮廓和眼睛轮廓的坐标点信息，采用多边形面积计算公式，得到脸部面积和双眼面积；

根据每个学生在每个时刻的脸部面积和双眼面积，确定每个学生的最大脸部面积和最大双眼面积；

在稳定运行阶段，将实时个人面部视频输入至视觉大模型，获得每个学生的实时脸部面积和实时双眼面积，其中，每个学生的实时脸部面积和实时双眼面积是指初始调整阶段之后，获得的实时个人面部视频中的每个时刻每个学生的实时脸部面积和实时双眼面积，所述人脸检测器使用人脸检测模型识别所述实时个人面部视频中每一时刻图像中的人脸，并将识别出的实时人脸图像发送给所述关键点检测器；所述关键点检测器使用关键点检测模型识别实时人脸图像中的脸部轮廓关键点和眼睛轮廓关键点，得到脸部实时轮廓和眼睛实时轮廓；所述轮廓面积计算模型根据接收到的脸部实时轮廓和眼睛实时轮廓的坐标点信息，采用多边形面积计算公式，得到实时脸部面积和实时双眼面积；

判断每个学生的所述最大脸部面积与所述实时脸部面积的差值是否大于第一预设面积差值；

当一个学生的所述最大脸部面积与所述实时脸部面积的差值小于或等于第一预设面积差值时，判定该学生目视前方；

当该学生的所述最大脸部面积与所述实时脸部面积的差值大于第一预设面积差值时，判断该学生的所述最大双眼面积与所述实时双眼面积的差值是否大于第二预设面积差值；

当该学生的所述最大双眼面积与所述实时双眼面积的差值大于第二预设面积差值时，判定该学生低头未看向前方；

当该学生的所述最大双眼面积与所述实时双眼面积的差值小于或等于第二预设面积差值时，判定该学生目视前方。

可选地，所述在初始调整阶段，根据第一个所述听课视频，提取每个学生的个人面部视频包括：

在初始调整阶段，根据第一个所述听课视频，识别多个时间段中每个座位上学生坐着时的头顶位置信息，确定每个座位上学生坐着时的最高点信息；

根据所述最高点信息，移动每个座位对应的预设面部活动区域，确定每个学生的实际面部活动区域；

根据每个座位上每个学生的所述实际面部活动区域，对所述听课视频的画面进行分割，提取每个学生的个人面部视频。

可选地，所述在稳定运行阶段，将所述实时个人面部视频输入至视觉大模型，获得每个学生的实时脸部面积和实时双眼面积包括：

在稳定运行阶段，根据所述实际面部活动区域，从获取的实时听课视频中提取每个学生的实时个人面部视频；

将所述实时个人面部视频输入至视觉大模型，获得每个学生的实时脸部面积和实时双眼面积。

可选地，所述基于大模型的数据处理方法还包括：

当该学生的所述最大双眼面积与所述实时双眼面积的差值小于或等于第二预设面积差值时，判定该学生目视前方，并开始计时，得到异常持续时长，直至该学生的所述最大脸部面积与所述实时脸部面积的差值小于或等于第一预设面积差值，或直至所述异常持续时长大于预设异常时长，停止计时；

当所述异常持续时长大于所述预设异常时长时，提取在所述异常持续时长内得到的多个所述实时脸部面积；

比较提取的多个所述实时脸部面积，得到最大的实时脸部面积；

将得到的最大的实时脸部面积赋值给最大脸部面积，得到新的最大脸部面积。

可选地，所述基于大模型的数据处理方法还包括：

当该学生的所述最大双眼面积与所述实时双眼面积的差值大于第二预设面积差值时，判定该学生低头未看向前方，并开始计时，得到低头时长，直至该学生的所述最大脸部面积与所述实时脸部面积的差值小于或等于第一预设面积差值，停止计时；

判断所述低头时长是否小于预设低头时长；

当所述低头时长小于预设低头时长时，判定该学生行为无异常，并将所述低头时长删除；

当所述低头时长大于预设低头时长时，判定该学生行为为走神行为，并将所述低头时长记为走神时长，将所述低头时长对应的时间段记为走神时间段，将该学生标记为走神学生。

可选地，所述基于大模型的数据处理方法还包括：

在每节课结束之后，累加每个走神学生在一节课内的所有走神时长，得到走神总时长；

将每个学生的所述走神总时长除以单位课时，得到该走神学生的走神时长比例；

当所述走神时长比例大于第一预设比例时，生成第一提醒信息，以便于提醒老师注意该学生。

可选地，所述基于大模型的数据处理方法还包括：

统计所述走神时长比例大于第一预设比例对应的走神学生的数量，并计算走神学生的数量占班级总学生的比例，记为走神学生比例；

当走神学生比例大于或等于第一学生比例时，生成第二提醒信息，以便于提醒老师改进教学方式；

当走神学生比例小于或等于第二学生比例时，生成第三提醒信息，以便于提醒老师加强教学内容；

当走神学生比例处于第一学生比例和第二学生比例之间时，生成第四提醒信息，以便于提醒老师活跃课堂氛围。

可选地，当走神学生比例大于或等于第一学生比例时，生成第二提醒信息，以便于提醒老师改进教学方式之后，所述基于大模型的数据处理方法还包括：

分析每个走神时间段对应的学生数量，并筛选学生数量排在前列的多个所述走神时间段；

根据筛选得到的多个所述走神时间段对应截取所述听课视频，得到多个走神高发视频片段；

将多个所述走神高发视频片段的语音输入至语言大模型，识别知识点关键词，得到多个所述走神时间段内忽视的知识点，以便于提醒老师再次复习相关内容，其中，所述语言大模型包括自动语音识别模型和关键词提取模型，所述自动语音识别模型对所述走神高发视频片段的语音进行识别，将语音转化成文字信息；所述关键词提取模型根据转化后的文字信息，提取所述文字信息中的所述知识点关键词。

可选地，在初始调整阶段，根据第一个所述听课视频，提取每个学生的个人面部视频之后，所述基于大模型的数据处理方法还包括：

从所述个人面部视频中提取每个学生的个人面部照片，保存为个人面部验证照片，并将所述个人面部验证照片与座位固定匹配，用于身份验证；

所述在稳定运行阶段，根据所述实际面部活动区域，从获取的实时听课视频中提取每个学生的实时个人面部视频之后，所述基于大模型的数据处理方法还包括：

从每个座位的所述实时个人面部视频中提取每个座位上学生的个人面部实时照片，并将所述个人面部实时照片与该座位对应的个人面部验证照片对比，判断该座位上的学生是否发生变化；

若所述个人面部实时照片与该座位对应的个人面部验证照片相同，判定该座位上的学生未发生变化，则继续执行稳定运行阶段；

若所述个人面部实时照片与该座位对应的个人面部验证照片不相同，判定该座位上的学生发生变化，则重新进行初始调整阶段，更新该座位上学生的最大脸部面积和最大双眼面积。

另外一方面，本发明还提供了一种基于大模型的数据处理系统，包括：

视频获取模块，用于获取摄像设备上传的听课视频，其中，多个摄像设备设置在学生前方，多个所述摄像设备与教室内划分的多个监控区域匹配，每个所述摄像设备用于采集对应的所述监控区域内的多个学生的听课视频；

初始调整模块，用于在初始调整阶段，根据第一个所述听课视频，提取每个学生的个人面部视频；将每个学生的第一个所述个人面部视频输入至视觉大模型，得到每个学生在每个时刻的脸部面积和双眼面积；根据每个学生在每个时刻的脸部面积和双眼面积，确定每个学生的最大脸部面积和最大双眼面积；

稳定运行模块，用于在稳定运行阶段，将实时个人面部视频输入至视觉大模型，获得每个学生的实时脸部面积和实时双眼面积；

第一监测模块，用于判断每个学生的所述最大脸部面积与所述实时脸部面积的差值是否大于第一预设面积差值；当一个学生的所述最大脸部面积与所述实时脸部面积的差值小于或等于第一预设面积差值时，判定该学生目视前方；

第二监测模块，用于当该学生的所述最大脸部面积与所述实时脸部面积的差值大于第一预设面积差值时，判断该学生的所述最大双眼面积与所述实时双眼面积的差值是否大于第二预设面积差值；当该学生的所述最大双眼面积与所述实时双眼面积的差值大于第二预设面积差值时，判定该学生低头未看向前方；当该学生的所述最大双眼面积与所述实时双眼面积的差值小于或等于第二预设面积差值时，判定该学生目视前方。

与现有技术相比，本发明具有如下有益效果：

本发明提供的一种基于大模型的数据处理方法及系统，通过获取摄像设备上传的听课视频，在初始调整阶段，根据第一个听课视频，提取每个学生的个人面部视频；将每个学生的第一个个人面部视频输入至视觉大模型，得到每个学生在每个时刻的脸部面积和双眼面积；根据每个学生在每个时刻的脸部面积和双眼面积，确定每个学生的最大脸部面积和最大双眼面积，得到每个学生在每个位置上的参考数值，当后续再次获得听课视频之后，直接进入稳定运行阶段，在稳定运行阶段，将实时个人面部视频输入至视觉大模型，获得每个学生的实时脸部面积和实时双眼面积；判断每个学生的最大脸部面积与实时脸部面积的差值是否大于第一预设面积差值；当一个学生的最大脸部面积与实时脸部面积的差值小于或等于第一预设面积差值时，判定该学生目视前方，先通过面积较大且容易识别的脸部面积进行监测，对获取的听课视频的画质要求不高，且不需要预先保存过多的预存数据，只需要在初始调试阶段获得每个学生的最大脸部面积和最大双眼面积，这两个参数值占用空间极小；当该学生的最大脸部面积与实时脸部面积的差值大于第一预设面积差值时，进一步判断该学生的最大双眼面积与实时双眼面积的差值是否大于第二预设面积差值；当该学生的最大双眼面积与实时双眼面积的差值大于第二预设面积差值时，判定该学生低头未看向前方；当该学生的最大双眼面积与实时双眼面积的差值小于或等于第二预设面积差值时，判定该学生目视前方，通过结合实时双眼面积的变化情况综合判断，在脸部面积变化较大时分析出学生仍目视前方的情况，避免误判，提高识别的准确性。

附图说明

图1示出了本发明实施例中一种基于大模型的数据处理方法的结构示意图；

图2示出了本发明实施例中一种确定实际面部活动区域的流程示意图；

图3示出了本发明实施例中一种基于大模型的数据处理系统的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

在本说明书的描述中，参考术语“实施例”、“一个实施例”和“一个实施方式”等的描述意指结合该实施例或实施方式描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示实施方式中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实施方式。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或实施方式以合适的方式结合。

大模型在各种领域都有广泛的应用，包括自然语言处理、计算机视觉、语音识别和推荐系统等。大模型通过训练海量数据来学习复杂的模式和特征，具有更强大的泛化能力，可以对未见过的数据做出准确的预测。

在本发明的可选实施例中，如图1所示，提供一种基于大模型的数据处理方法，包括：

S1：获取摄像设备上传的听课视频，其中，多个摄像设备设置在学生前方，多个所述摄像设备与教室内划分的多个监控区域匹配，每个所述摄像设备用于采集对应的所述监控区域内的多个学生的听课视频。

具体地，可以在教室的前方设置1-2个摄像头，在教室的中部再设置1-2个摄像头，教室前方的摄像头用于获取前排学生的听课视频，教室中部的摄像头用于获取后排学生的听课视频，这样避免后排学生被前排学生遮挡，保证任何一个学生都能够在获取的多个听课视频中的其中一个视频里完整显示面部区域。

S2：在初始调整阶段，根据第一个所述听课视频，提取每个学生的个人面部视频。

S3：将每个学生的第一个所述个人面部视频输入至视觉大模型，得到每个学生在每个时刻的脸部面积和双眼面积，其中，每个时刻的脸部面积和双眼面积是指初始调整阶段获得的第一个所述个人面部视频中的每个时刻的脸部面积和双眼面积，所述视觉大模型包括人脸检测器、关键点检测器和轮廓面积计算模型，所述人脸检测器使用人脸检测模型识别所述个人面部视频中每一时刻图像中的人脸，并将识别出的人脸图像发送给所述关键点检测器；所述关键点检测器使用关键点检测模型识别所述人脸图像中的脸部轮廓关键点和眼睛轮廓关键点，并将脸部轮廓关键点连接，将所述眼睛轮廓关键点连接，得到脸部轮廓和眼睛轮廓，向所述轮廓面积计算模型发送脸部轮廓和眼睛轮廓；所述轮廓面积计算模型根据接收到的脸部轮廓和眼睛轮廓的坐标点信息，采用多边形面积计算公式，得到脸部面积和双眼面积。

具体地，人脸检测器使用的人脸检测模型可以是MTCNN（Multi-taskconvolutional neural network，多任务卷积神经网络）、Haar级联检测器（Haar是一种特征描述）、YOLO（You Only Look Once，目标检测模型）等；关键点检测器使用的关键点检测模型可以是MobileNet（轻量级神经网络）或Restnet（残差神经网络）等，轮廓面积计算模型采用的多边形面积计算公式可以是Shoelace formula（鞋带定理），是用于计算任意多边形的面积的一种数学方法。

S4：根据每个学生在每个时刻的脸部面积和双眼面积，确定每个学生的最大脸部面积和最大双眼面积。

具体地，在初始调试阶段主要是为了识别每个座位上的学生，以及获取该学生的最大脸部面积和最大双眼面积。可以先执行S101判断该方法是否初次投入使用，在该方法初次投入使用时，需要先进入初始调试阶段，对每个学生的面部进行采样，将每个学生的信息与每个学生的面部信息进行绑定，从而能够从视频中识别每一位学生，即使该学生的位置发生变化，也能够将该学生的个人面部视频与该学生对应，从而能够长时间持续获取该学生的课堂表现。另外，视觉大模型是指在计算机视觉领域中使用的大模型，通常用于图像处理和分析。这类模型通过在大规模图像数据上进行训练，可以实现各种视觉任务，如图像分类、目标检测、图像分割、人脸识别等，因此可以利用视觉大模型，对学生面部的信息进行提取，例如面部照片、脸部面积和双眼面积等。当学生抬头面朝黑板的时候，识别到的脸部面积最大，将该面积作为参考面积，当学生低头的时候，面部被头顶遮挡一部分，识别到的脸部面积会减小。

S5：在稳定运行阶段，将实时个人面部视频输入至视觉大模型，获得每个学生的实时脸部面积和实时双眼面积，其中，每个学生的实时脸部面积和实时双眼面积是指初始调整阶段之后，获得的实时个人面部视频中的每个时刻每个学生的实时脸部面积和实时双眼面积，所述人脸检测器使用人脸检测模型识别所述实时个人面部视频中每一时刻图像中的人脸，并将识别出的实时人脸图像发送给所述关键点检测器；所述关键点检测器使用关键点检测模型识别实时人脸图像中的脸部轮廓关键点和眼睛轮廓关键点，得到脸部实时轮廓和眼睛实时轮廓；所述轮廓面积计算模型根据接收到的脸部实时轮廓和眼睛实时轮廓的坐标点信息，采用多边形面积计算公式，得到实时脸部面积和实时双眼面积。

具体地，在经过第一个听课视频的调试之后，初始调试阶段完毕，后续获取的听课视频可以直接进行稳定运行阶段的处理和分析，一般情况下不必再经过初始调试阶段，直接获得。

S6：判断每个学生的所述最大脸部面积与所述实时脸部面积的差值是否大于第一预设面积差值每个学生的实时脸部面积和实时双眼面积。

S7：当一个学生的所述最大脸部面积与所述实时脸部面积的差值小于或等于第一预设面积差值时，说明该学生大概率是抬头面向黑板的，此时可以判定该学生目视前方。若认为判断的可能不够准确，还可以进一步结合判断该学生的所述最大双眼面积与所述实时双眼面积的差值是否大于第二预设面积差值，当该学生的所述最大双眼面积与所述实时双眼面积的差值小于或等于第二预设面积差值时，判定该学生目视前方，当该学生的所述最大双眼面积与所述实时双眼面积的差值大于第二预设面积差值时，判定该学生低头未看向前方，此时判断的准确率更有保证，但是分析步骤有一定增加，分析速度会略有下降。

S8：当该学生的所述最大脸部面积与所述实时脸部面积的差值大于第一预设面积差值时，说明该学生的面部可能不是正对着黑板，可能是在低头，极可能处于走神状态，可以进一步判断该学生的所述最大双眼面积与所述实时双眼面积的差值是否大于第二预设面积差值。

S9：当该学生的所述最大双眼面积与所述实时双眼面积的差值大于第二预设面积差值时，说明该学生的双眼视线确实没有看向黑板，判定该学生低头未看向前方。当学生双眼看向前方时，双眼张开最大，识别的双眼面积最大，当学生双眼向下看时，双眼张开幅度减小，双眼面积减小。这里识别双眼的面积是为了增大识别面积的数值大小，正常情况下，双眼的变化基本同步进行，因此双眼面积的变化更加明显，有利于提高识别的灵敏性。

当该学生的所述最大双眼面积与所述实时双眼面积的差值小于或等于第二预设面积差值时，说明该学生双眼视线看向前方，从而执行S7判定该学生目视前方。此时可能是学生短暂的托腮或手掌遮面等动作导致脸部面积变化较大，但是学生双眼保持直视前方。

在本实施例中，通过获取摄像设备上传的听课视频，在初始调整阶段，根据第一个听课视频，提取每个学生的个人面部视频；将每个学生的第一个个人面部视频输入至视觉大模型，得到每个学生在每个时刻的脸部面积和双眼面积；根据每个学生在每个时刻的脸部面积和双眼面积，确定每个学生的最大脸部面积和最大双眼面积，得到每个学生在每个位置上的参考数值，当后续再次获得听课视频之后，直接进入稳定运行阶段，在稳定运行阶段，将实时个人面部视频输入至视觉大模型，获得每个学生的实时脸部面积和实时双眼面积；判断每个学生的最大脸部面积与实时脸部面积的差值是否大于第一预设面积差值；当一个学生的最大脸部面积与实时脸部面积的差值小于或等于第一预设面积差值时，判定该学生目视前方，先通过面积较大且容易识别的脸部面积进行监测，对获取的听课视频的画质要求不高，且不需要预先保存过多的预存数据，只需要在初始调试阶段获得每个学生的最大脸部面积和最大双眼面积，这两个参数值占用空间极小，降低存储成本，便于大范围推行使用；当该学生的最大脸部面积与实时脸部面积的差值大于第一预设面积差值时，进一步判断该学生的最大双眼面积与实时双眼面积的差值是否大于第二预设面积差值；当该学生的最大双眼面积与实时双眼面积的差值大于第二预设面积差值时，判定该学生低头未看向前方；当该学生的最大双眼面积与实时双眼面积的差值小于或等于第二预设面积差值时，判定该学生目视前方，通过结合实时双眼面积的变化情况综合判断，在脸部面积变化较大时分析出学生仍目视前方的情况，避免误判，提高识别的准确性。另外，先监测脸部面积，能够识别大部分正常情况，在特殊情况再监测双眼面积，能够减少对双眼面积的分析，优先采用容易识别且识别准确性较高的大面积脸部面积进行分析，也能够降低分析难度，提高分析准确性。

在本发明的可选实施例中，如图2所示，所述在初始调整阶段，根据第一个所述听课视频，提取每个学生的个人面部视频包括：

S201：在初始调整阶段，根据第一个所述听课视频，识别多个时间段中每个座位上学生坐着时的头顶位置信息，确定每个座位上学生坐着时的最高点信息。

具体地，由于每个学生的身高不同，因此需要确定每个学生坐着时的最高点。

S202：根据所述最高点信息，移动每个座位对应的预设面部活动区域，确定每个学生的实际面部活动区域。

具体地，预设面部活动区域为在每个位子上提前划定的面部活动区域，一般坐在位子上时，学生的面部活动范围在横向方向上不会超过这个预设面部活动区域的范围，在纵向方向上，学生面部活动的距离有限，因此可以提前划定一个活动区域，大多数学生坐着时面部均可以处于该预设面部活动区域，但是偶尔会有一些学生个头过高或者个头稍矮，使得学生的面部可能只有部分处于该预设面部活动区域，因此需要拾取每个学生的头部最高点信息，依据该最高点信息，在竖直方向上移动预设面部活动区域，使得预设面部活动区域的最高点与学生头顶最高点贴合，得到调整后的实际面部活动区域，这时能够保证学生的面部完全落在实际面部活动区域。当学生站起来时，实际面部活动区域里不再出现学生面部，可能学生站起来或者缺席未到，此时不对该位置学生的个人面部视频进行监测分析。

S203：根据每个座位上每个学生的所述实际面部活动区域，对所述听课视频的画面进行分割，提取每个学生的个人面部视频。

在本实施例中，通过为每个位子的学生设定实际面部活动区域，从而能够对每个位子的学生进行单独分析，分析的面积小，实际面部活动区域内的干扰因素少，在实际面部活动区域之外的干扰因素对每个学生的分析不会构成影响，获得的个人面部视频体量小，分析速度快，干扰因素少，分析精度高。

在本发明的可选实施例中，所述在稳定运行阶段，将所述实时个人面部视频输入至视觉大模型，获得每个学生的实时脸部面积和实时双眼面积包括：

在稳定运行阶段，根据所述实际面部活动区域，从获取的实时听课视频中提取每个学生的实时个人面部视频。

具体地，在对个人面部视频进行识别分析时，视觉大模型可以识别面部轮廓，具体识别面部轮廓的方法具体是先识别鼻子、眼睛和嘴巴等这些明显特征，将这些明显特征相连，划定一个最大的面部识别基础范围，提取面部识别基础范围内的肤色平均值，然后从这个面部识别基础范围的边缘向外部逐步扩张指定距离，并分析扩张处的像素点处的肤色值，当扩张处的肤色值与肤色平均值相比变化幅度超过预设幅度时，停止该处继续向外扩张，其他扩张处的肤色值与肤色平均值相比变化幅度小于或等于预设幅度时，继续向外扩张，直至所有位置均停止扩张，依此办法能够确定脸部与外界环境的交界处，即得到脸部轮廓，并进而计算出脸部面积。同样的，双眼轮廓的识别方法可以采用类似的方法确定，并且还可以通过最后识别出的双眼轮廓形状与预设的眼睛轮廓形状进行对比，进一步保证双眼识别的准确性。

在本发明的可选实施例中，所述基于大模型的数据处理方法还包括：

当该学生的所述最大双眼面积与所述实时双眼面积的差值小于或等于第二预设面积差值时，判定该学生目视前方，并开始计时，得到异常持续时长，直至该学生的所述最大脸部面积与所述实时脸部面积的差值小于或等于第一预设面积差值，停止计时，此时学生目视前方，但是学生的实时脸部面积偏离最大脸部面积较多，此时可能是学生暂时以手托腮，遮挡了部分面部，或者用手擦拭面部或者面部难受，用手揉捏等临时性状况，使得识别的实时脸部面积暂时性出现异常情况，因此当这些临时特殊情况消失之后，就停止计时；或直至所述异常持续时长大于预设异常时长，停止计时，当异常持续时长大于预设异常时长时，说明面部长时间佩戴了遮挡物品，例如感冒时为了防止病毒传染，戴了口罩等情况，这种情况下，脸部面积会长时间发生改变，此时为了便于后续监测，可以对最大脸部面积进行更新。

当所述异常持续时长大于所述预设异常时长时，提取在所述异常持续时长内得到的多个所述实时脸部面积。

比较提取的多个所述实时脸部面积，得到最大的实时脸部面积。

在本实施例中，考虑到一个位子上的同一个学生因为佩戴口罩、改变发型等情况使得脸部面积发生突变，且这种突变不是短暂性的，此时需要对这种长时间改变脸部面积的情况进行自更新，提取并分析出异常持续时长内的最大的实时脸部面积，将该最大的实时脸部面积赋值给最大脸部面积，从而更新最大脸部面积，使得后续通过监测脸部面积的变化判断学生是否低头的方法依然有效，让该方法具有自我更新的功能，提高该方法的自适应性。

当该学生的所述最大双眼面积与所述实时双眼面积的差值大于第二预设面积差值时，说明该学生确实处于低头状态，判定该学生低头未看向前方，开始计时，得到低头时长，直至该学生的所述最大脸部面积与所述实时脸部面积的差值小于或等于第一预设面积差值，即直至该学生再重新抬头看向前方，停止计时。

判断所述低头时长是否小于预设低头时长。

当所述低头时长小于预设低头时长时，可能是该学生短暂低头看课本，或者记笔记，或者思考问题等，判定该学生行为无异常，并将所述低头时长删除。

在本实施例中，将短暂低头看课本或者低头找东西等不属于走神的情况剔除，减少对学生行为的误判，只有当低头时长大于预设低头时长时，才将学生的低头行为判定为走神行为，因为在正常老师上课期间，长时间不抬头看黑板，极大可能就是在座位上做与讲课内容无关的事情。除此之外，还可以进一步通过大语言模型分析走神时间段对应的个人面部视频中是否有老师的语音进行持续输出，当没有老师的语音持续输出时，可能处于自习状态，可以不对学生的行为进行持续分析判断，当有老师的语音持续输出时，说明老师在上课，此时才判定该学生行为为走神行为，进一步确保学生行为判断的准确性。

在每节课结束之后，累加每个走神学生在一节课内的所有走神时长，得到走神总时长。

将每个学生的所述走神总时长除以单位课时（即一节课的时长，一般为45分钟），得到该走神学生的走神时长比例。

在本实施例中，当一个学生的走神时长比例大于第一预设比例时，说明该学生在本节课中大部分时间都处于走神状态，说明该学生在课堂上基本不怎么学习，此时可以生成第一提醒信息，提醒老师及时找该学生谈话，对该学生进行劝导，了解该学生的心理状态，进行适当的情绪疏导，端正学生的学习态度，避免学生的学习进度落后太多，导致学生越来越失去学习兴趣。

统计所述走神时长比例大于第一预设比例对应的走神学生的数量，并计算走神学生的数量占班级总学生的比例，记为走神学生比例。

当走神学生比例大于或等于第一学生比例时，生成第二提醒信息，以便于提醒老师改进教学方式。

具体地，示例性的，当走神学生比例大于80%时，有可能本节课为自习课，此时可以手动一键消除该节课的异常数据。如果本节课为正常授课，那么当走神学生比例大于80%时，可能是学生对老师讲授的内容整体都不怎么感兴趣，此时需要生成第二提醒信息，以提醒老师改进教学方式，例如将授课内容以通俗易懂的描述进行讲解，将授课内容通过丰富有趣的互动方式进行讲解等。

当走神学生比例小于或等于第二学生比例时，生成第三提醒信息，以便于提醒老师加强教学内容。

具体地，示例性的，当走神学生比例小于10%时，说明班级中整体学习氛围浓厚，且每个学生对老师讲解的内容都比较感兴趣，且能够坚持长时间不走神，说明每个学生都能够理解老师讲解的内容，因为如果长时间听不懂老师讲解的内容，可能会逐渐失去听课的耐心，因此当走神学生比例小于10%时，可以生成第三提醒信息，以提醒老师适当增加一些延伸内容或者多知识点组合的较难的内容进行加强教学，这样可以适当提高学生对知识点的灵活运用能力，还能够不断提高学生的知识储备。

具体地，示例性的，当走神学生比例大于10%且小于80%时，说明班级中有部分学生总是走神，此事说明部分理解能力较好的学生能够持续跟上老师的讲课进度，能够很好的理解老师讲授的内容，保持对学习的热情，但是对于部分人来说，只能断断续续理解老师讲授的内容，对老师讲授的内容不能很好的吸收，一知半解，随着疑问的增加，越来越失去学习的专注力，此时一方面可能是老师讲解的不够容易理解，另一方面可能是老师授课方式较为呆板，不能长时间吸引学生的注意力，此时可以生成第四提醒信息，以便于提醒老师尝试活跃课堂氛围或者在讲课期间增加互动提问环节，及时解答学生的部分疑问，以便于学生能够更好理解上课内容，提高授课的有效性。

在本发明的可选实施例中，当走神学生比例大于或等于第一学生比例时，生成第二提醒信息，以便于提醒老师改进教学方式之后，所述基于大模型的数据处理方法还包括：

分析每个走神时间段对应的学生数量，并筛选学生数量排在前列的多个所述走神时间段。

根据筛选得到的多个所述走神时间段对应截取所述听课视频，得到多个走神高发视频片段。

具体地，所述自动语音识别模型（Automatic Speech Recognition，ASR）可以选用隐马尔可夫模型（HMM），Deep Speech模型或LAS（Listen，Attend and spell）模型，DeepSpeech模型的原理是基于深度学习的序列到序列(sequence-to-sequence)模型，通过端到端的方式将语音转换成文本。LAS模型是一种用于自动语音识别(ASR)任务的神经网络模型。LAS模型可以将语音信号转换为相应的文本表示。LAS模型基于序列到序列(sequence-to-sequence)的架构，它首先使用注意力机制(Attention Mechanism)来对语音特征进行建模和对齐，然后通过一个解码器来生成相应的文字序列。LAS模型在语音识别中被广泛应用，它能够分离出语音中的不同音素、发音和单词，并将其转化为文本。所述关键词提取模型采用的关键词提取方法可以是无监督关键词提取方法，而无监督关键词提取方法又可以选用基于统计特征的关键词提取算法(TF-IDF)、基于词图模型的关键词提取算法(TextRank)或基于主题模型的关键词提取算法(LDA)等。语言大模型是指在自然语言处理领域中的一类大模型，通常用于处理文本数据和理解自然语言。这类大模型的主要特点是它们在大规模语料库上进行了训练，以学习自然语言的各种语法、语义和语境规则，能够提炼或者总结语言中的主要内容，因此可以用于提炼走神高发视频片段中老师主要讲授的关键知识点，从而能够得知在本节课中，大部分学生走神时讲授的知识点，在后续复习或者回顾或者提问时，主要针对该部分知识点进行，从而能够帮学生加深巩固知识点。

在本发明的可选实施例中，在初始调整阶段，根据第一个所述听课视频，提取每个学生的个人面部视频之后，所述基于大模型的数据处理方法还包括：

从所述个人面部视频中提取每个学生的个人面部照片，保存为个人面部验证照片，并将所述个人面部验证照片与座位固定匹配，用于身份验证。

从每个座位的所述实时个人面部视频中提取每个座位上学生的个人面部实时照片，并将所述个人面部实时照片与该座位对应的个人面部验证照片对比，执行S101判断该座位上的学生是否发生变化。

若所述个人面部实时照片与该座位对应的个人面部验证照片相同，判定该座位上的学生未发生变化，则继续执行稳定运行阶段。

若所述个人面部实时照片与该座位对应的个人面部验证照片不相同，判定该座位上的学生发生变化，则重新进行初始调整阶段，在此之后获得的第一个听课视频作为初始调整阶段使用的听课视频，更新该座位上学生的最大脸部面积和最大双眼面积。

在本实施例中，主要针对学生位置调换之后，有些位子上的学生会发生变动，此时需要重新对该位置学生的实际面部活动区域进行重新定位，当学生位置发生变动，由于在视频中的角度发生变化，识别分析出的面积也会发生变化，因此也需要重新确定每个学生的最大脸部面积和最大双眼面积，以适应改变后的位置，也就是说当一个位子的学生发生调换之后，需要重新进行初始调整阶段，更新该座位上学生的最大脸部面积和最大双眼面积，提高该方法的适应性。

在本发明的可选实施例中，如图3所示，本发明提供了一种基于大模型的数据处理系统，包括：

视频获取模块100，用于获取摄像设备上传的听课视频，其中，多个摄像设备设置在学生前方，多个所述摄像设备与教室内划分的多个监控区域匹配，每个所述摄像设备用于采集对应的所述监控区域内的多个学生的听课视频；

初始调整模块200，用于在初始调整阶段，根据第一个所述听课视频，提取每个学生的个人面部视频；将每个学生的第一个所述个人面部视频输入至视觉大模型，得到每个学生在每个时刻的脸部面积和双眼面积；根据每个学生在每个时刻的脸部面积和双眼面积，确定每个学生的最大脸部面积和最大双眼面积；

稳定运行模块300，用于在稳定运行阶段，将实时个人面部视频输入至视觉大模型，获得每个学生的实时脸部面积和实时双眼面积；

第一监测模块400，用于判断每个学生的所述最大脸部面积与所述实时脸部面积的差值是否大于第一预设面积差值；当一个学生的所述最大脸部面积与所述实时脸部面积的差值小于或等于第一预设面积差值时，判定该学生目视前方；

第二监测模块500，用于当该学生的所述最大脸部面积与所述实时脸部面积的差值大于第一预设面积差值时，判断该学生的所述最大双眼面积与所述实时双眼面积的差值是否大于第二预设面积差值；当该学生的所述最大双眼面积与所述实时双眼面积的差值大于第二预设面积差值时，判定该学生低头未看向前方；当该学生的所述最大双眼面积与所述实时双眼面积的差值小于或等于第二预设面积差值时，判定该学生目视前方。

本发明实施例中的基于大模型的数据处理系统与上述基于大模型的数据处理方法的技术效果相近似，在此不再进行赘述。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种基于大模型的数据处理方法，其特征在于，包括：

2.根据权利要求1所述的基于大模型的数据处理方法，其特征在于，所述在初始调整阶段，根据第一个所述听课视频，提取每个学生的个人面部视频包括：

3.根据权利要求2所述的基于大模型的数据处理方法，其特征在于，所述在稳定运行阶段，将所述实时个人面部视频输入至视觉大模型，获得每个学生的实时脸部面积和实时双眼面积包括：

4.根据权利要求1所述的基于大模型的数据处理方法，其特征在于，还包括：

5.根据权利要求1所述的基于大模型的数据处理方法，其特征在于，还包括：

判断所述低头时长是否小于预设低头时长；

6.根据权利要求5所述的基于大模型的数据处理方法，其特征在于，还包括：

7.根据权利要求5所述的基于大模型的数据处理方法，其特征在于，还包括：

8.根据权利要求7所述的基于大模型的数据处理方法，其特征在于，当走神学生比例大于或等于第一学生比例时，生成第二提醒信息，以便于提醒老师改进教学方式之后，还包括：

9.根据权利要求3所述的基于大模型的数据处理方法，其特征在于，所述在初始调整阶段，根据第一个所述听课视频，提取每个学生的个人面部视频之后，还包括：

所述在稳定运行阶段，根据所述实际面部活动区域，从获取的实时听课视频中提取每个学生的实时个人面部视频之后，还包括：

10.一种基于大模型的数据处理系统，其特征在于，包括：