CN111275592A

CN111275592A - 一种基于视频图像的课堂行为分析方法

Info

Publication number: CN111275592A
Application number: CN202010049742.9A
Authority: CN
Inventors: 邱飞岳; 章国道; 刘苗; 陈博文; 王丽萍
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-12
Anticipated expiration: 2040-01-16
Also published as: CN111275592B

Abstract

本发明公开了一种基于视频图像处理的课堂行为分析方法，包括如下步骤：步骤1：构建视频目标分析网络VTAN,并结合训练数据集Sample通过BP反向传播算法对其进行训练；步骤2：读入视频帧数量、宽度和高度分别为Q_k、W_k和H_k的视频段V；步骤3：对视频段V进行预处理；步骤4：将视频段V_s输入到训练好的视频目标分析网络VTAN中进行前向传播；步骤5：取集合C中最大置信度c_max，判断其对应的行为act_max为最可能行为类型；本发明的有益效果是：通过双流结构的神经网络对视频中的目标行为进行快速准确地判断。

Description

一种基于视频图像的课堂行为分析方法

技术领域

本发明涉及视频图像处理方法技术领域，具体涉及一种基于视频图像的课堂行为分析方法。

背景技术

人工神经网络由于其准确率高、通用性强的特点，受到各行各业学者的持续关注和研究。它是一个能够通过已知实验数据来学习训练和归纳分类的系统。

近年来，随着智慧教室和平安校园等概念的提出，教室中摄像头的应用得到普及，加之学生的学业预警更加重视，课堂行为的监测和分析问题也变得尤其突出。学生课堂行为是课堂专注度的外在体现，然而传统课堂行为分析多是通过自我报告法、人工观察手动编码等方法来进行行为采集，这些传统方法都存在着滞后的弊端，不能分析以报告老师和及时干预。为了解决课堂教学中学生的学习行为实时分析问题，国内外学术界、工业界提出了很多方案。其中与本发明较为接近的技术方案包括：穆肃,左萍萍(信息化教学环境下课堂教学行为分析方法的研究[J].电化教育研究,2015,36(09):62-69.)该方法选取来源广泛的课堂教学实时视频录像数据进行分析试验，从教师和学生的教学行为、课堂师生互动行为以及媒体在课堂教学中的应用等三个方面进行分析，能够客观反映信息化教学环境中课堂教学行为的主要类型和作用方式。但是该方法主要是用于课堂后的反思和总结，不能实时进行反馈和干预。刘清堂(基于人工智能的课堂教学行为分析方法及其应用[J].中国电化教育,2019(09):13-21.)该方法基本上实现了课堂行为分析的自动化、常态化、规模化。该方法中的行为分析方法分为特征提取和行为识别：特征提取主要通过OpenCV提供的相关算法获取图像特征再进行特征选择；行为识别是通过J48决策树分类器方法。该方法初步实现了课堂行为分析，但是该方法准确率和效率都不高，难以实际应用。发明专利(申请号：CN201811534533.2，名称：课堂学生行为分析方法及装置)公开了一种教师课堂行为分析系统，提供一种课堂学生行为分析方法及配置，基于OpenPose为基础去实现对学生的课堂行为进行分析，但是分析都是课后进行，无法进行实时的反馈和干预。发明专利(申请号：CN201910588415.8，名称：一种云台摄像智能分析教学录播一体机)公开了一种能智能分析教学录播一体机，能实现课堂场景下目标与行为的自动分析并完成师生的运动实时跟踪。但是需要对实验室进行重新配置，需要增加额外的硬件成本。且该方法只能识别师生的基础行为，如教师板书、教师提问、教师徘徊、学生举手、学生起立、学生坐下，无法将其行为进一步进行分析以全面体现课堂状态。

综上所述，当前课堂行为识别方法中存在如下不足：

1)传统的课堂行为识别主要依赖教师观察、自我报告法、人工观察手动编码等方法，除了教师在教学中实时观察都存在滞后的弊端。而课堂是一个复杂环境，教师要兼顾教师的教和学生的学，注意力和精力有限，尤其是在实训实操课堂中，一人一机，更突出了课堂行为识别的难度。

2)多数方法中是对课堂行为的监测效用在课后，在教室教研分析和教学评估上，但是无法实时反馈实时课堂情况以报告老师和学生，更无法促使老师做出课堂干预和提醒学生自觉收敛；

3)部分方法对硬件设备软件环境要求较高，对现有的信息化教室环境需要改造的力度大，如需要指定的一体机和设备才能实现相应功能，实际情况下应用成本过高，并且实现行为分析的准确性和效率还有待提高；

信息化课堂的越来越普及，给予我们方法充分的应用环境和空间，同时也拉伸了教师和学生的距离，特别是一些信息化实训智慧教室(一人一机)，因为教师教学演示所需，大部分精力都在于实操演示上，无法随时观测到每个学生的课堂行为情况。学生课堂行为是课堂专注度的外在体现，课堂上的问题行为若不及时干预，不仅会加剧不良学习行为，也会影响到周围同学，使得课堂教学效果大打折扣。而本发明中的方法可以实时对学生的课堂行为进行监测分析，并实时向教师和学生反馈，便于教师及时进行干预。

发明内容

针对现有技术中存在的问题，本发明提供了一种基于视频图像处理的课堂行为分析方法，准确快速地实现课堂行为分析。

本发明的技术方案如下：

一种基于视频图像处理的课堂行为分析方法，其特征在于，包括如下步骤：

步骤1：构建包括视频分流模块、灰度视频模块、缩放视频模块、backbone模块、softmax层及Concat层的视频目标分析网络VTAN，并结合训练数据集Sample通过BP反向传播算法对其进行训练，其中Sample＝{(V_i,label_i)|i＝1,2,3,…,n_s}，V_i＝{I_ij|j＝1,2,3,…m_ij}，V_i表示第i段课堂行为训练视频，label_i为视频V_i对应的行为标签，n_s为训练样本的数量，I_ij表示视频V_i中第j帧视频帧图像，m_ij表示第i段视频中包含的视频帧数；

步骤2：读入视频帧数量、宽度和高度分别为Q_k、W_k和H_k的视频段V；

步骤3：对视频段V进行预处理，对视频段V进行均匀采样，得到长度为l_v的视频段V_s；

步骤4：将视频段V_s输入到训练好的视频目标分析网络VTAN中进行前向传播，具体步骤如下：

步骤4.1：将视频段V_s中的所有视频帧图像按缩放比例α进行缩放得视频段U，将V_s中所有的视频帧图像进行灰度化得视频段W；其中α表示预先给定的视频图像缩放比例；

步骤4.2：将视频段U输入到网络VTAN中的缩放视频模块中，并进行前向传播，并输出网络中间特征F_u；

步骤4.3：将视频段W输入到网络VTAN中的灰度视频模块中，并进行前向传播；该视频段W依次通过2个三维卷积层和三维最大池化层组成的块结构，以及1个一维卷积层，并输出网络中间特征F_w；

步骤4.4：将网络中间特征F_u和F_w通过Concat层进行融合，并将融合特征输入1个三维卷积层中，进行前向传播得融合网络特征F_f；

步骤4.5：将F_f输入到由8层残差层组成的backbone网络结构进行前向传播，并将其输出结果输入到Softmax层中，输出各个行为的置信度集合C＝{(act_i,c_i)|i＝1,2,3,…,n_a}，其中act_i表示第i类行为，c_i表示行为act_i对应的置信度，n_a代表分类行为的类别数；

步骤5：取集合C中最大置信度c_max，判断其对应的行为act_max为最可能行为类型；若满足式(1)，则视频段V的行为为act_max，反之，视频段V的行为无法判断；

c_max≥θ (1)

θ表示实现给定的行为判断阈值。

所述的一种基于视频图像处理的课堂行为分析方法，其特征在于，所述步骤1中的缩放视频模块包含3个三维卷积层，灰度视频模块包含2个块结构和1个一维卷积层，其中块结构包括三维卷积层和三维最大池化层组成。

本发明的有益效果是：通过双流结构的神经网络对视频中的目标行为进行快速准确地判断；将输入视频段进行压缩之后，输入到视频行为分类的双流人工神经网络之中，并将网络中的两段数据流在特征大小相同的情况下进行融合，在不牺牲视频特征的情况下实现快速的目标行为判断，解决了课堂行为分析不准确的问题。

附图说明

图1为本发明用于课堂行为分析的VTAN(VideoTargetAnalysisNetwork)神经网络结构图；

图2为本发明应用场景的模拟图。

具体实施方法

下面结合实施例，来对本发明进行详细阐述。

如图1-2所示，本发明是基于信息化实训智慧教室，一人一机的基础设施前提下，来对学生课堂行为进行有效分析；

一种基于视频图像处理的课堂行为分析方法，具体步骤如下：

步骤1：构建包含视频分流模块、灰度视频模块、缩放视频模块、backbone模块、一个softmax层及一个Concat层的视频目标分析网络VTAN，并结合训练数据集Sample通过BP反向传播算法对其进行训练，其中Sample＝{(V_i,label_i)|i＝1,2,3,…,n_s}，V_i＝{I_ij|j＝1,2,3,…m_ij}，V_i表示第i段课堂行为训练视频，label_i为视频V_i对应的行为标签，n_s为训练样本的数量，I_ij表示视频V_i中第j帧视频帧图像，m_ij表示第i段视频中包含的视频帧数；

步骤2：从摄像头读入视频帧数量、宽度和高度分别为Q_k、W_k和H_k的视频段V；

步骤3：对视频段V进行预处理，即对视频段V进行均匀采样，得到长度为l_v的视频段V_s；

步骤4：将视频段V_s输入到训练好的视频目标分析网络VTAN中进行前向传播，具体流程如下：

步骤4.1：将视频段V_s中的所有视频帧图像按缩放比例α进行缩放得视频段U，将V_s中所有的视频帧图像进行灰度化得视频段W；其中α表示预先给定的视频图像缩放比例，在本示例中，α＝4；

c_max≥θ (1)

θ表示实现给定的行为判断阈值。在本示例中，θ取0.5。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于视频图像处理的课堂行为分析方法，其特征在于，包括如下步骤：

步骤3：对视频段V进行均匀采样，得到长度为l_v的视频段V_s；

步骤4.3：将视频段W输入到网络VTAN中的灰度视频模块中，并进行前向传播；该视频段W依次通过2个三维卷积层和三维最大池化层组成的块结构和1个一维卷积层，并输出网络中间特征F_w；

c_max≥θ (1)

θ表示实现给定的行为判断阈值。

2.根据权利要求1所述的一种基于视频图像处理的课堂行为分析方法，其特征在于，所述步骤1中的视频目标分析网络VTAN中缩放视频模块包含3个三维卷积层，灰度视频模块包含2个块结构和1个一维卷积层，其中块结构包括三维卷积层和三维最大池化层组成。