CN112861809A

CN112861809A - 基于多目标视频分析的课堂抬头检测系统及其工作方法

Info

Publication number: CN112861809A
Application number: CN202110301132.8A
Authority: CN
Inventors: 谢磊; 伏子育; 陆桑璐
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2021-05-28
Anticipated expiration: 2041-03-22
Also published as: CN112861809B

Abstract

本发明公开了一种基于多目标视频分析的课堂抬头检测系统及其工作方法，包括：人脸检测模块，根据获取的课堂视频数据，使用卷积神经网络模型得到每个视频帧中的人脸集合；人脸姿态估计模块，对上述人脸集合中的每一个人脸进行特征点检测，基于特征点进行姿态估计，得到其在空间中的姿态角，并根据俯仰角的大小作为学生是否听课的判断依据，统计课堂听课率；云边协同调度模块，根据系统当前的资源状态以及用户需求，对上述卷积神经网络模型及集成回归树模型的最优配置进行求解，以提高人脸检测和人脸姿态估计的精度。本发明解决了现有技术不能高精度、低时延地同时对多目标进行分析、以及无法充分利用边缘设备和云服务器计算资源的问题。

Description

基于多目标视频分析的课堂抬头检测系统及其工作方法

技术领域

本发明属于多目标视频分析和边缘计算领域，具体指代一种基于多目标视频分析的课堂抬头检测系统及其工作方法。

背景技术

课堂教学评估是一种有效激励教师有目的性、针对性地不断改进并提高自己教学方式的手段，简要来说，开展课堂教学评价具有以下几点重要作用：

1)课堂教学评价具有导向功能，能够促进课堂教学改革；

2)课堂教学评价具有激励功能，可以加强教师之间的互相交流；

3)课堂教学评价是促进教师专业发展的重要途径；

4)课堂教学评价具有决策和鉴定功能，是学校管理工作的重要组成部分。

传统的课堂教学评价方式可以分为：1)现场观察评价：评价者进入课堂，实时实地听教师讲课并及时进行评价；2)监视监听评价：评价者不直接进入课堂，可以很大程度上避免给师生带来压力，使得获取的信息更加真实；3)量表评价：采用事先编制好的评价量表，由教师和学生根据他们对教学过程和效果的感受进行回答。以上几种评价方式都存在一定的缺点，首先它们都需要大量的人力与时间成本，其次都存在很大程度上的主观性。

如今，一些基于深度学习的方法开始被用于进行课堂教学评估，这类方法通常通过部署在教室中的监控摄像头获取视频数据，之后通过表情识别、动作识别等方式对学生的听课状态进行分析，判断学生的听课状态。这类方法可以比较准确地对单个学生的行为进行分析，然而，其缺点在于需要通过部署多个摄像头，才能够实现同时对多个目标的分析。另外，此类方法在实际部署时通常采用静态配置方法，无法根据当前资源状态以及用户需求进行自适应调整，导致边缘设备和云服务器的计算资源无法得到充分利用，从而无法实现精度和时延等关键指标的最优化。

因此，基于上述考虑，有必要提出一种基于多目标视频分析的课堂抬头检测系统，不仅可以节省大量的人力与时间成本，同时能够通过自适应的云边协同调度，充分利用边缘设备和云端的计算资源，满足高精度低时延的实时抬头检测需求。

发明内容

针对于上述现有技术的不足，本发明的目的在于提供一种基于多目标视频分析的课堂抬头检测系统及其工作方法，以解决现有技术不能高精度、低时延地同时对多目标进行分析、以及无法充分利用边缘设备和云服务器计算资源的问题。

为达到上述目的，本发明采用的技术方案如下：

本发明的一种基于多目标视频分析的课堂抬头检测系统，包括：人脸检测模块、人脸姿态估计模块及云边协同调度模块；

人脸检测模块，根据获取的课堂视频数据，使用卷积神经网络模型得到每个视频帧中的人脸集合；

人脸姿态估计模块，对上述人脸集合中的每一个人脸，使用集成回归树模型进行特征点检测，基于特征点进行姿态估计，得到其在空间中的姿态角，并根据俯仰角的大小作为学生是否听课的判断依据，统计课堂听课率；

云边协同调度模块，根据系统当前的资源状态以及用户需求，对上述卷积神经网络模型及集成回归树模型的最优配置进行求解，以提高人脸检测和人脸姿态估计的精度。

进一步地，所述系统当前的资源状态包括：当前可用的内存、处理器、以及带宽。

进一步地，所述用户需求为最大化抬头检测精度或最小化抬头检测时延。

进一步地，所述人脸检测模块包含以下步骤：

(11)将课堂视频的每一个视频帧作为卷积神经网络模型的输入，模型的输出为候选人脸集合；

(12)根据卷积神经网络模型的置信度，在候选人脸集合上执行非极大值抑制(Non-Maximum Suppression)，去除重叠的冗余人脸，得到最终的人脸集合。

进一步地，所述人脸姿态估计模块包含以下步骤：

(21)对人脸集合F中的每一个人脸f，基于集成回归树模型进行人脸特征点检测，得到多个人脸关键特征点，记为集合P_2d，其中，第i项(x_i，y_i)表示第i个特征点在二维空间中的坐标；

(22)根据三维人脸模型，将人脸特征点在三维空间中的坐标记为集合P_3d，三维特征点投影到二维平面通过公式P_2d＝[R|t]P_3d表示，其中，R表示3×3的旋转矩阵，t表示3×1的平移矩阵；

(23)基于若干个人脸特征点构建方程组，通过求解N点透视位姿问题得到旋转矩阵R和平移矩阵t，并将旋转矩阵转换成欧拉角表示，记为(yaw，pitch，roll)，即人脸在三维空间中的姿态角，通过其中的俯仰角pitch与预定义阈值θ的对比，判断学生是否抬头，从而得到整个课堂的听课人数比例。

进一步地，所述云边协同调度模块由评估器和调度器组成；

所述评估器具体为：

(31)离线状态下，针对卷积神经网络模型和集成回归树模型，测试二者使用不同配置C时，抬头检测的精度Acc(C)和时延Lat(C)，并生成模型配置文件；

C＝[e_cnn，r_cnn，b_cnn，θ_cnn，e_ert，n_ert，d_ert]；e_cnn，r_cnn，b_cnn，θ_cnn分别表示卷积神经网络模型的运行环境(边缘端或云端)，输入视频帧的分辨率、网络骨架(backbone)以及分类置信度；e_ert，n_ert，d_ert分别表示集成回归树模型的运行环境，回归树的数量以及深度；

(32)在线状态下，接收以约束形式表示的用户需求，包括时延约束或精度约束；约束以三元组<T ar get，op，value>的形式表示，T ar get∈{Acc，Lat}，表示约束目标，op∈{≤，≥}，表示大小关系，value表示具体数值；

(33)在线状态下，获取系统当前的资源状态R_rem；R_rem＝[R_mem，R_cpu，R_band]，分别表示当前可用的内存、处理器以及带宽；

调度器具体为：

(34)在线状态下，基于评估器生成的模型配置文件、系统当前的资源状态以及用户需求，求解以下带约束的优化问题：

s.t. (2)

优化问题中，式(1)表示优化目标为最大化抬头检测精度，式(3)表示精度约束，式(4)表示时延约束，式(5)表示资源约束(模型所占资源需要小于可用资源)，式(6)表示模型配置约束(只能选择一种配置)，具体求解方式为：在模型配置文件中遍历搜索，保留满足上述约束的配置，然后从中选择精度最高的配置C^*，C^*中包含了卷积神经网络模型和集成回归树模型的运行环境的配置，调度器根据C^*将模型分别部署到指定的运行环境(边缘端或云端)。

本发明的一种基于多目标视频分析的课堂抬头检测系统的工作方法，其包括以下步骤：

1)通过安装在教室中的边缘设备，获取实时课堂教学视频数据；

2)对获取的视频数据，使用卷积神经网络模型每隔固定帧进行人脸检测，得到视频帧中的所有人脸；

3)对上述得到每个人脸，使用集成回归树模型进行人脸特征点提取，并结合对应特征点在三维空间中的位置，求解得到人脸特征点从三维空间投影到二维空间的旋转矩阵；

4)将上述旋转矩阵转换为欧拉角，即人脸在三维空间中的姿态角，通过比较俯仰角和预定义阈值，判断学生是否抬头，从而统计整个课堂的听课人数比例；

5)将实时课堂视频数据及听课人数比例呈现给用户，同时接收用户需求输入：精度需求以及时延需求，以约束的形式表示；

6)实时获取系统的资源状态，结合输入的用户需求，通过云边协同调度模块，对人脸检测以及人脸姿态估计过程中所用模型的最优配置进行求解，提高人脸检测和人脸姿态估计的精度。

进一步地，所述步骤6)中的最优配置，对应以下部署模式：

61)边缘模式：此模式下，人脸检测模块、人脸姿态估计模块运行在边缘端，对应用户需求为低时延的场景；

62)云端模式：此模式下，人脸检测模块、人脸姿态估计模块运行在云端，对应用户需求为高精度的场景；

63)云边协同模式：此模式下，人脸检测模块和人脸姿态估计模块分别运行在边缘端和云端。

进一步地，所述步骤6)中系统的资源状态，包括：当前可用的内存、处理器以及带宽；所述步骤6)中的最优配置包括：人脸检测模块中卷积神经网络的运行环境、网络骨架、输入视频帧的分辨率、分类的置信度，以及人脸姿态估计模块中集成回归树模型的运行环境、回归树的数量以及深度。

进一步地，所述步骤6)中云边协同调度模块的求解方法为：

基于模型配置文件、系统当前资源状态以及用户需求，得到以下带约束的优化问题：

s.t.

求解方式为：在模型配置文件中遍历搜索，保留满足上述约束的配置，然后从中选择精度最高的配置C^*，C^*中包含了卷积神经网络模型和集成回归树模型的运行环境的配置。

进一步地，所述步骤6)中云边协同调度模块在每次得到最优配置后，都需要根据最优配置进行重新部署，将人脸检测任务和姿态估计任务重新分配到边缘端或云端。

进一步地，所述步骤1)、步骤2)至4)、步骤5)、步骤6)分别使用单独的线程来并行处理；具体地，使用4个线程分别进行视频数据获取、人脸检测及人脸姿态估计、结果显示及用户输入获取、以及云边协同调度。

本发明的有益效果：

1、高精度、低时延的抬头检测：本发明通过多目标视频分析和云边协同调度，弥补了现有深度学习方法无法同时处理多个目标、无法动态改变模型配置的不足，实现高精度、低时延的抬头检测；

2、充分利用计算资源：本发明通过自适应的云边协同调度，弥补了现有深度学习方法使用静态配置导致计算资源无法得到充分利用的不足；

3、实时反馈：本发明提供网页应用供用户访问，可以根据课堂听课率的实时变化得到反馈；

4、部署方便：只需要在成本低于1000元的边缘设备上集成摄像头，安装系统后部署在课堂中即可，不需要额外部署其它硬件设备。

附图说明

图1为本发明系统架构图；

图2为三维人脸特征点投影至二维平面原理图；

图3为本发明方法流程图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

参照图1所示，本发明的一种基于多目标视频分析的课堂抬头检测系统，包括：人脸检测模块、人脸姿态估计模块及云边协同调度模块；

人脸检测模块，根据边缘设备获取的课堂视频数据，使用卷积神经网络模型得到每个视频帧中的人脸集合；

所述人脸检测模块包含以下步骤：

(11)将课堂视频的每一个视频帧作为卷积神经网络模型的输入，模型的输出为候选人脸集合

参照图2所示，所述人脸姿态估计模块包含以下步骤：

(21)对人脸集合F中的每一个人脸f，基于集成回归树模型进行人脸特征点检测，得到眼睛、鼻子、嘴巴等多个人脸关键特征点(实际应用中的人脸特征点数量为通常68)，记为集合P_2d，其中，第i项(x_i，y_i)表示第i个特征点在二维空间中的坐标；

(23)基于若干个人脸特征点构建方程组，通过求解N点透视位姿(Perspective-N-Point)问题得到旋转矩阵R和平移矩阵t，并将旋转矩阵转换成欧拉角表示，记为(yaw，pitch，roll)，即人脸在三维空间中的姿态角，通过其中的俯仰角pitch与预定义阈值θ的对比，判断学生是否抬头，从而得到整个课堂的听课人数比例。

云边协同调度模块，根据系统当前的运行状态以及用户需求，对上述卷积神经网络模型及集成回归树模型的最优配置进行求解，以提高人脸检测和人脸姿态估计的精度；

所述系统当前的资源状态包括：当前可用的内存、处理器、以及带宽。

所述用户需求以约束的形式表示，包括时延需求和精度需求。

所述云边协同调度模块由评估器和调度器组成；

所述评估器具体为：

31)离线状态下，针对卷积神经网络模型和集成回归树模型，测试二者使用不同配置C时，抬头检测的精度Acc(C)和时延Lat(C)，并生成模型配置文件；其中C＝[e_cnn，r_cnn，b_cnn，θ_cnn，e_ert，n_ert，d_ert]，e_cnn，r_cnn，b_cnn，θ_cnn分别表示卷积神经网络模型的运行环境(边缘端或云端)，输入视频帧的分辨率、网络骨架(backbone)以及分类置信度。e_ert，n_ert，d_ert分别表示集成回归树模型的运行环境，回归树的数量以及深度。

(32)在线状态下，接收以约束形式表示的用户需求，包括时延约束或精度约束；约束以三元组<T ar get，op，value>的形式表示，T ar get∈{Acc，Lat}，表示约束目标，op∈{≤，≥}，表示大小关系，value表示具体数值；例如，约束<Acc，≥，0.8>表示用户需求为精度大于0.8。

(33)在线状态下，获取系统当前的资源状态R_rem；其中R_rem＝[R_mem，R_cpu，R_band]，分别表示当前可用的内存、处理器以及带宽。

调度器具体为：

s.t.

优化问题中，第一行表示优化目标为最大化抬头检测精度，第三行表示精度约束，第四行表示时延约束，第五行表示资源约束(模型所占资源需要小于可用资源)，第六行表示模型配置约束(只能选择一种配置)。具体求解方式为：首先在模型配置文件中遍历搜索，保留满足上述约束的配置，然后从中选择精度最高的配置C^*，C^*中包含了卷积神经网络模型和集成回归树模型的运行环境等配置，调度器根据C^*将模型分别部署到指定的运行环境(边缘端或云端)；例如，当C^*＝[local，720p，ResNet，0.8，remote，5，2]时，表示最优配置下，卷积神经网络模型的运行环境为边缘端，视频帧输入分辨率为720p，网络骨架为残差网络(ResNet)，人脸分类置信度为0.8，集成回归树模型的运行环境为云端，回归树的数量为5，树的深度为2。

参照图3所示，本发明的一种基于多目标视频分析的课堂抬头检测系统的工作方法，其包括以下步骤：

所述步骤6)中的最优配置，对应以下部署模式：

所述步骤6)中系统的资源状态，包括：当前可用的内存、处理器以及带宽；所述步骤6)中的最优配置包括：人脸检测模块中卷积神经网络的运行环境、网络骨架、输入视频帧的分辨率以及分类结果的置信度，及人脸姿态估计模块中集成回归树模型的运行环境、集成回归树的数量以及深度。

所述步骤6)中云边协同调度模块的求解方法为：

基于模型配置文件、系统当前资源状态以及用户需求，可以得到以下带约束的优化问题：

s.t.

求解方式为：首先在模型配置文件中遍历搜索，保留满足上述约束的配置，然后从中选择精度最高的配置C^*，C^*中包含了卷积神经网络模型和集成回归树模型的运行环境等配置。

所述步骤6)中云边协同调度模块在每次得到最优配置C^*后，根据其中的具体配置，将人脸检测模块和姿态估计模块重新部署到指定的运行环境；例如，C^*中e_cnn＝local，e_ert＝remote时，表示人脸检测模块和人脸姿态估计模块的运行环境分别为边缘端和云端。

所述步骤6)中云边协同调度模块在每次得到最优配置后，都需要根据最优配置进行重新部署，将人脸检测任务和姿态估计任务重新分配到边缘端或云端。

所述步骤1)、步骤2)至4)、步骤5)、步骤6)分别使用单独的线程来并行处理；具体地，使用4个线程分别进行视频数据获取、人脸检测及人脸姿态估计、结果显示及用户输入获取、以及云边协同调度。

本发明具体应用途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种基于多目标视频分析的课堂抬头检测系统，其特征在于，包括：人脸检测模块、人脸姿态估计模块及云边协同调度模块；

2.根据权利要求1所述的基于多目标视频分析的课堂抬头检测系统，其特征在于，所述系统当前的资源状态包括：当前可用的内存、处理器、以及带宽。

3.根据权利要求1所述的基于多目标视频分析的课堂抬头检测系统，其特征在于，所述人脸检测模块包含以下步骤：

(12)根据卷积神经网络模型的置信度，在候选人脸集合上执行非极大值抑制，去除重叠的冗余人脸，得到最终的人脸集合。

4.根据权利要求1所述的基于多目标视频分析的课堂抬头检测系统，其特征在于，所述人脸姿态估计模块包含以下步骤：

(22)根据三维人脸模型，将人脸特征点在三维空间中的坐标记为集合P_3d，三维特征点投影到二维平面通过公式P_2d＝[R|t]P_3d表示，其中，R表示33的旋转矩阵，t表示31的平移矩阵；

5.根据权利要求1所述的基于多目标视频分析的课堂抬头检测系统，其特征在于，所述云边协同调度模块由评估器和调度器组成；

所述评估器具体为：

C＝[e_cnn，r_cnn，b_cnn，θ_cnn，e_ert，n_ert，d_ert]；e_cnn，r_cnn，b_cnn，θ_cnn分别表示卷积神经网络模型的运行环境，输入视频帧的分辨率、网络骨架以及分类置信度；e_ert，n_ert，d_ert分别表示集成回归树模型的运行环境，回归树的数量以及深度；

(32)在线状态下，接收以约束形式表示的用户需求，包括时延约束或精度约束；约束以三元组<Target，op，value>的形式表示，Target∈{Acc，Lat}，表示约束目标，op∈{≤，≥}，表示大小关系，value表示具体数值；

调度器具体为：

s.t. (2)

优化问题中，式(1)表示优化目标为最大化抬头检测精度，式(3)表示精度约束，式(4)表示时延约束，式(5)表示资源约束，式(6)表示模型配置约束，具体求解方式为：在模型配置文件中遍历搜索，保留满足上述约束的配置，然后从中选择精度最高的配置C^*，C^*中包含了卷积神经网络模型和集成回归树模型的运行环境的配置，调度器根据C^*将模型分别部署到指定的运行环境。

6.一种基于多目标视频分析的课堂抬头检测系统的工作方法，其特征在于，包括以下步骤：

7.根据权利要求6所述的基于多目标视频分析的课堂抬头检测系统的工作方法，其特征在于，所述步骤6)中的最优配置，对应以下部署模式：

8.根据权利要求6所述的基于多目标视频分析的课堂抬头检测系统的工作方法，其特征在于，所述步骤6)中系统的资源状态，包括：当前可用的内存、处理器以及带宽；所述步骤6)中的最优配置包括：人脸检测模块中卷积神经网络的运行环境、网络骨架、输入视频帧的分辨率、分类的置信度，以及人脸姿态估计模块中集成回归树模型的运行环境、回归树的数量以及深度。

9.根据权利要求6所述的基于多目标视频分析的课堂抬头检测系统的工作方法，其特征在于，所述步骤6)中云边协同调度模块的求解方法为：

基于模型配置文件、系统当前的资源状态以及用户需求，得到以下带约束的优化问题：

s.t.