CN114898460B

CN114898460B - 一种基于图卷积神经网络的教师非言语行为检测方法

Info

Publication number: CN114898460B
Application number: CN202210438914.0A
Authority: CN
Inventors: 庞世燕; 张安然; 杨玉芹; 王涛; 左志奇
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2024-04-26
Anticipated expiration: 2042-04-22
Also published as: CN114898460A

Abstract

本发明属于人工智能教育应用领域，具体设计了一种基于图卷积神经网络的教师非言语行为识别方法，旨在解决课堂场景下教师非言语行为检测问题。该方法以课堂录播视频数据作为输入，以“象征性动作”、“会意性动作”、“指示性动作”、“评价性动作”和“适应性动作”等五种教师非言语行为检测结果作为输出。首先使用目标算法确定教师位置并提取教师图像；然后采用人体姿态估计算法对教师图像分析，获取教师骨架点坐标；最后根据骨架点坐标信息及骨架点间的物理连接和逻辑连接关系，构建图卷积神经网络模型，实现教师非言语行为识别。本发明能够有效提升教师非言语行为识别的精度，有助于解决教师非言语行为自动识别难题，助力教师优化教学策略。

Description

一种基于图卷积神经网络的教师非言语行为检测方法

技术领域

本发明属于人工智能教育应用领域，具体设计了一种基于图卷积神经网络的教师非言语行为识别方法，可用于解决教师非言语行为检测的问题。

背景技术

随着人工智能技术的发展，将人工智能技术应用于教育和教学过程，促进教育事业的发展，提升教学质量已成为教育领域研究的热点问题。在教育信息化2.0时代，教育信息化已然步入了新的发展进程，移动互联网、大数据、人工智能等新兴教育技术手段的大规模应用正在积极推进智慧校园的建立和完善。在教育信息化的众多应用中，利用人工智能技术识别教师非言语行为，促进教师改善教学方式，是一个值得研究的课题。目前对教师非言语行为的研究大多通过人工随堂听课、问卷调查或量表等方法进行实证研究，该方法实时性差、人工作业量大。得益于智慧教室中录像、直播设备的普及，基于课堂视频数据的教师非言语行为硬件条件已经成熟。依托大量可获取的教学视频，结合具体教学场景，探究基于深度学习技术的教师非言语行为自动识别，能够及时评估教师教学状态，改善教师教学质量。

教师行为是指在教师教学过程中，为了达到预期的教学目的，通过语言或者非语言的动作、表情乃至声调等向学生传递信息的具体行为[1]，主要有言语行为与非言语行为两种形式。从教师非言语行为的已有研究中发现，其研究思路主要为从实证出发进行研究。研究者常用手段包括问卷调查、课堂参与性观察、授课教师访谈等，对于收集到的教师数据一般采用统计学方法进行分析[2-3]。随着录像技术的不断普及，研究者们越来越关注课堂教学视频在教育研究中的应用 [4]。同时，由于课堂视频包含信息量过于丰富，通过观看完整视频录像并准确地选出重点教学行为会耗费教师过多的时间与精力[5-8]，急需利用人工智能等技术提升教师非言语行为识别的自动化程度。在当前的人工智能教育应用领域中，大多数学者以学生为研究对象[9-12]，而对教师非言语行为的研究较少。在已有的研究中，闫晓炜[13]等使用了YOLO算法完成了教师肢体动作的识别，丁宁[14] 采用VGG-16卷积神经网络对教师的讲授、板书、指令等动作进行检测。在复杂的课堂场景中，准确有效地识别教师非言语行为还存在一定的困难。一是拍摄时容易受到摄像机型号、架设位置和角度以及光照的影响，视频质量难以保障；二是教室场景复杂度高，教师易被遮挡。针对上述问题，本发明基于视频数据构建了教师非言语行为识别数据集，综合目标检测、骨架点提取和图卷积神经网络等算法来提升教师非言语行为识别的精度。

[1]林正范,徐丽华.对教师行为研究的认识[J].教师教育研究,2006(02):23-26.

[2]于淮.大学教师课堂非言语行为对课堂气氛的影响[J].新西部(下半月),2009(01):215+210.

[3]白学军,梁菲菲,张涛,田丽娟,文宇翔,陈宗阳.不同获奖等级青年教师手势语的量化研究[J].宁波大学学报(教育科学版),2009,31(04):48-53.

[4]王佳莹,郭俊杰.视频标注工具:支持教师的教学反思[J].中国电化教育,2013(07):111-117.

[5]Gaudin Cyrille,Chaliès Sébastien.Video viewing in teachereducation and professional development:A literature review[J].EducationalResearch Review， 2015,16:41-67.

[6]Deidre M Le Fevre.Designing for teacher learning:Video-basedcurriculum design[M]//BROPHY JERE.Using Video in Teacher Education.2004: 235-258.

[7]Kang Hosun，Elizabeth van Es.Articulating design principles forproductive use of video in preservice education[J].Journal of TeacherEducation， 2018:1-14.

[8]Geoffrey A.Wright.How does video analysis impact teacherreflection-for-action[D].Brigham Young University，2008.

[9]孙曙辉,刘邦奇,李鑫.面向智慧课堂的数据挖掘与学习分析框架及应用[J].中国电化教育,2018(02):59-66.

[10]B.M.Monjurul Alom,Matthew Courtney.Educational Data Mining:A CaseStudy Perspectives from Primary to University Education in Australia[J].International Journal of Information Technology and Computer Science,2018,2(2): 1-9.

[11]Andino Maseleno,Noraisikin Sabani,Miftachul Huda,et al.Demystifying learning analytics in personalised learning[J].InternationalJournal of Engineering and Technology,2018,7(3):1124-1129.

[12]蒋卓轩,张岩,李晓明.基于MOOC数据的学习行为分析与预测[J].计算机研究与发展,2015,52(03):614-628.

[13]闫晓炜,张朝晖,赵小燕,贾鹂宇.用于课堂教学评估的教师肢体动作检测[J].中国教育信息化,2019(16):88-91.

[14]丁宁.中学课堂教学视频中的教师肢体动作智能分析与识别[D].华中师范大学,2020.DOI:10.27159/d.cnki.ghzsu.2020.000925.

发明内容

针对现有技术存在的不足，本发明的目的是结合目标检测算法和人体姿态估计算法的优势，设计一种基于图卷积神经网络(Graph Convolutional Network, GCN)的教师非言语行为识别模型，提升教师非言语行为识别的准确率和可靠性。该方法通过截取课堂录播视频的图像帧，通过目标检测算法Faster Rcnn确定教师位置，并通过OpenPose算法获取教师的关节点信息，最后以教师的关节点信息作为处理单元，基于图卷积神经网络获取教师教学行为识别结果，分为象征性动作、会意性动作、指示性动作、评价性动作或者适应性动作。包含以下步骤：

步骤1，每隔一定的帧数截取课堂录播视频的图像帧，获取图像数据；

步骤2，采用目标检测的方法FasterRCNN处理复杂的课堂场景的图像数据，构建二分类任务，将教师与背景分开，获取教师所在的矩形区域的坐标，以此获取教师图像，此处只包含教师的图像是后续骨架信息提取的基础；

步骤3，对于只包含教师影像数据，采用现有的基于深度卷积神经网络的人体姿态估计算法OpenPose实现骨架检测，得到骨架坐标信息，坐标信息包含18 个关节点，编号如下：鼻子-0,脖子-1，右肩-2，右肘-3，右手腕-4，左肩-5，左肘-6，左手腕-7，右臀-8，右膝盖-9，右脚踝-10，左臀-11，左膝盖-12，左脚踝-13，右眼-14，左眼-15，有耳朵-16，左耳朵-17，这是构建图卷积神经网络模型进行行为分类基础；

步骤4，对OpenPose获取的骨骼坐标数据进行正则化处理，构建对应的人体关节自然连接图，关节点为图的节点，关节点之间的自然连接为图的自然连接边，根据教师的行为特点以及骨骼关节点之间的关系区分物理连接和逻辑连接，获得人体关节自然连接图对应的邻接矩阵；

其中，a_ij表示邻接矩阵A中第i行第j列的值；

步骤5，构建图卷积神经网络模型，对待识别骨架图对应的人体关节连接图进行图卷积操作，获取待识别骨架图的行为类别，分为象征性动作、会意性动作、指示性动作、评价性动作或者适应性动作。

进一步的，步骤1进一步包括以下子步骤；

1.1，获取智慧教室内摄像头的监控数据。

1.2，使用OpenCV每隔30帧截取一次图像数据。

进一步的，步骤2进一步包括以下子步骤；

2.1，使用已经训练好的目标检测网络Faster RCNN对步骤1中获取的图像数据进行二分类的目标检测，获取目标检测的结果；

2.2，由于在整堂课中，教师不会时时刻刻出现在摄像头的可见范围中，所以在此步骤摒弃检测不出结果的图像，只保存画面中有教师的数据；

2.3，对Faster RCNN输出的坐标，从原图中获取教师存在的矩形框，并且裁切出来，此时获得的图像数据排除了复杂的课堂场景中其它物体的干扰。

进一步的，步骤3的具体实现方式如下；

3.1，对于步骤2中获取的数据，使用OpenPose算法提取教师的骨架关节点信息，骨架关节点信息由18组三维数据构成，分别是关节点在当前图像中的(x,y) 的坐标及置信度；

3.2，考虑课堂场景复杂，会导致3.1中检测关节点时，存在无法完全检测的情况，此时若检测到的关节点数量大于等于12个，则空白的关节点使用其他检测到的关节点的均值进行填充，否则舍弃此条数据。

进一步的，步骤4中正则化处理的实现方式如下；

将教师关节点的从整幅图的坐标位置转换为相对位置，对关节坐标处理的公式如下：

其中，P是教师在以原始图像为坐标系的位置，P′为原始坐标经过转换后的坐标，P[1]为是序号1-脖子的关节位置，由此将所有图像上关节点的绝对位置坐标转换成了以1号关节点为中心的相对坐标数据。

进一步的，步骤5中图卷积神经网络模型中图卷积层的处理公式如下：

H^l+1＝σ(L^symH^lW^l)

其中，H⁰＝x为第一层的输入，l为当前层数，x∈R^18×2为输入的坐标点数据，是包含18个关节点的二维坐标，σ(·)为非线性激活层，W^l为第l层的权重矩阵，L^sym为对称标准化拉普拉斯矩阵，其中D为度矩阵，根据连接关系获得，/>由此上述公式可以写为：

其中，A为邻接矩阵。

进一步的，通过全连接层对图卷积神经网络的最后一层图卷积层进行分类，并利用softmax函数转化为0-1之间，概率最高的值即为对应的教师非言语行为类别，softmax的具体公式如下：

其中p(z_i)为第i个节点的概率值，z_i为第i个节点的输出值，C为输出节点的个数，即分类的类别个数，通过Softmax分类器将多分类的输出值转换为范围在[0,1]之间的和为1的概率分布，概率最大的类别为输出结果。

与现有的方法相比，本发明充分利用了目标检测算法和人体姿态估计算法各自的优势来提高教师非言语行为的精度和可靠性，具有如下特点：

本发明提出了一种基于图卷积神经网络的教师非言语行为检测方法，它以教师的人体骨架信息处理单元，将人体视为一个由铰接关节和刚性骨骼组成的铰接系统，其固有的结构是以图形为基础的此外，并以此为基础构建图G(x,W)为骨架模型。本发明利用了图卷积神经网络可以对非欧空间的图结构数据进行处理的特点，充分考虑到关节点在运动过程中的物理连接和逻辑连接，给坐标点(关节点)的连接之间赋予了权重，充分地提取到了教师非言语行为动作表现在人体骨架结构上的动作特征，排除了复杂的课堂场景下的其他物体的干扰，精度高、可靠性强。

本发明以课堂录播视频为输入，以不同类别的教师非言语行为检测结果作为输出，在截取的图像帧数据的基础上，使用目标检测方法确定教师位置，排除复杂课堂场景中其他物体的干扰，以人体姿态估计算法获取教师的骨架信息，最终使用图卷积方法实现不同教师非言语行为的检测。本发明针对课堂录播数据数据，以图像帧为处理单元，利用了目前鲁棒性较强的人体姿态估计算法对图像进行处理，获得更可靠的骨架坐标信息，最后，利用图卷积方法处理人体骨架信息，最终获得准确可靠的教师非言语行为检测结果。

附图说明

图1为本发明方法的具体流程图；

图2为本发明中的人体骨架图；

图3为本发明中的物理连接和逻辑连接关系图；

图4课堂数据样例；

图5为五种教师非言语行为类别示意图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步的具体说明。

本发明属于人工智能教育应用领域，具体设计了一种基于图卷积神经网络的教学非言语行为识别方法，旨在解决课堂场景下教师非言语行为检测问题，该方法以课堂录播视频数据作为输入，以“象征性动作”、“会意性动作”、“指示性动作”、“评价性动作”和“适应性动作”等五种教师非言语行为检测结果作为输出，采用图卷积方法获得分类最优解。以科学课堂录播数据为例，本发明提供了一种基于图卷积神经网络的教师非言语行为检测方法，包括以下步骤：

步骤1，获取智慧教室内摄像头的监控数据，使用OpenCV每隔30帧截取一次图像数据；

步骤2，利用目前较为成熟的目标检测算法定位教师位置，包括以下子步骤：

步骤2.1，使用已经训练好的目标检测网络(Faster RCNN)对步骤1中获取的图像数据进行二分类的目标检测，获取教师的位置；

步骤2.2，由于在整堂课中，教师不会时时刻刻出现在摄像头的可见范围中，所以在此步骤摒弃检测不出结果的图像，只保存画面中有教师的数据；

步骤2.3，对Faster RCNN输出的坐标，从原图中获取教师存在的矩形框，并且裁切出来，此时获得的图像数据排除了复杂的课堂场景中其它物体的干扰；

步骤3，获取教师骨架坐标数据，骨架坐标数据包含18个关节点，关节点编号如下：鼻子-0,脖子-1，右肩-2，右肘-3，右手腕-4，左肩-5，左肘-6，左手腕 -7，右臀-8，右膝盖-9，右脚踝-10，左臀-11，左膝盖-12，左脚踝-13，右眼-14，左眼-15，有耳朵-16，左耳朵-17，这是构建图卷积神经网络进行行为分类基础；包括以下子步骤：

步骤3.1，使用OpenPose算法提取教师的骨架信息，骨架信息由18组三维数据构成，分别是关节点在当前图像中的(x,y)的坐标及置信度。

步骤3.2，考虑课堂场景复杂，如教师走到讲台后面、教师走下台与学生互动等行为的存在，会导致3.1中检测关节点时，存在无法完全检测的情况。此时若检测到的关节点数量大于等于12个，则空白的关节点使用其他检测到的关节点的均值进行填充，否则舍弃此条数据。

步骤4，对所有关节位置进行处理，由于本文从目标检测获取到的教师图像的尺寸大小是不固定的，因此教师在不同图像中的比例是存在一定问题的。所以在获取骨架坐标信息之后要对所有关节的坐标点进行正则化处理。包括以下子步骤：

步骤4.1，将教师关节点的从整幅图的坐标位置转换为相对位置，对关节坐标处理的公式如下：

其中，P是教师在以原始图像为坐标系的位置，P′为原始坐标经过转换后的坐标，P[1]为是序号1-脖子的关节位置。由此将所有图像上关节点的绝对位置坐标转换成了以1号(脖子)关节点为中心的相对坐标数据。

步骤4.2，根据18个节点的序号，构建对应的人体关节自然连接图，关节点为图的节点，关节点之间的自然连接为图的自然连接边，边信息如下：

E＝[(4，3)，(3，2)，(7，6)，(6，5)，(13，12)，(12，11)， (10，9)，(9，8)，(11，1)，(8，1)，(5，1)(2，1)，(0，1)， (15，0)，(14，0)，(17，15)，(16，14)]；

步骤4.3，将关节点之间的关系区分为物理连接和逻辑连接。物理连接即人体关节之间的硬性连接，属于强连接，即无论在什么动作下，边信息的权重都不会改变，附图3中虚线所示。逻辑连接则是某些动作下，关节点之间虽然没有直接连接，但是依然存在关系，这也是动作过程中的一个重要因素，如附图3中实线所示。例如，左手和右手在物理上是断开的，但它们的关系对于识别“鼓掌”动作具有重要意义，甚至在鼓掌这一动作中左右手的逻辑连接关系变化幅度要远远大于物理连接关系。在本文所述图卷积方法中，在邻接矩阵中用α表示物理连接的边的权重，用β表示逻辑连接的边的权重：

其中，a_ij表示邻接矩阵A中第i行第j列的值；

步骤5，根据以上的物理和逻辑连接关系构建邻接矩阵A和度矩阵D，图卷积神经网络模型中的任何一个图卷积层可以用非线性函数来表示，不同模型的差异点在于函数f的实现。图卷积层的公式如下：

H^l+1＝f(H^l,A)

其中，H⁰＝x为第一层的输入，l为当前层数，x∈R^N×M，N为节点个数，M 为节点的特征向量维度，A为邻接矩阵，在本发明中x，x∈R^18×2为输入的坐标点数据，是包含18个关节点的二维坐标。

本文实现图卷积的方式如下公式：

H^l+1＝σ(L^symH^lW^l)

其中σ(·)为非线性激活层，W^l为第l层的权重矩阵，初始值通过随机赋值获得，通过训练迭代优化获得最终的权重矩阵，L^sym为对称标准化拉普拉斯矩阵 (Symmetricnormalized Laplacian)，其中D为度矩阵，根据连接关系获得，/>由此上述公式可以写为：

对图卷积神经网络的最后一层图卷积层H进行分类(一个全连接层实现)，并利用softmax函数转化为0-1之间，概率最高的值即为对应的教师非言语行为类别；利用Softmax分类器对图卷进行分类的具体公式如下：

其中p(z_i)为第i个节点的概率值，z_i为第i个节点的输出值，C为输出节点的个数，即分类的类别个数。通过Softmax分类器可以将多分类的输出值转换为范围在[0,1]之间的和为1的概率分布，概率最大的类别为输出结果。最终得出象征性动作、会意性动作、指示性动作、评价性动作以及适应性动作五种类别的分类结果，具体类别的含义如表1所示。

表1教师非言语行为类别定义

上述五种类别的分类示意图如图5所示，其中象征性动作表示教师用手势示意图形或数字，会意性动作表示教师示意学生起立、请坐、举手或保持安静，指示性动作表示教师用手指向黑板或屏幕，评价性动作表示教师鼓掌、竖大拇指；适应性动作表示教师为了适应某种心理、生理或客观环境的需要，在较长时间内逐渐形成的身体动作或姿态。

实施例：

首先按照本发明的方法获取训练样本数据，通过观看大量的课堂视频实录，综合考虑了教师类别的定义，将训练样本标记为五种教师非言语行为类别：象征性动作、会意性动作、指示性动作、评价性动作以及适应性动作，附图1是真实课堂场景的影像，影像上的目标包括教师和背景；然后使用目标检测算法构建二分类任务确定教师位置，提取教师图像；将获取到的教师影像使用Openpose算法提取教师骨架坐标数据。

获取训练样本数据后，使用图卷积神经网络进行迭代训练，模型训练完成后，将待检测的数据送入训练好的模型进行训练，即可得出分类结果。下表是本发明所用方法与其他方法精度对比结果。

表2本发明方法与其它神经网络方法目标检测精度比较

对于基于骨架坐标信息的行为分类，可以看出支持向量机(Support VectorMachine，SVM)、决策树(Decision Tree，DT)、随机森林(Random Forest， RF)、K近邻算法(K-Nearest Neighbor，K-NN)这四种机器学习算法的准确率远低于深度学习方法。全连接神经网络无法接收非欧空间的数据，因此能够输入到网络的数据只有单纯的坐标点，无法将坐标点之间的空间连接信息输入模型进行解算，因此效果也不如本方法。

本文中所描述的具体实施例仅仅是对本发明作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于图卷积神经网络的教师非言语行为检测方法，其特征在于，包括以下步骤：

步骤2，采用目标检测的方法Faster RCNN处理复杂的课堂场景的图像数据，构建二分类任务，将教师与背景分开，获取教师所在的矩形区域的坐标，以此获取教师图像，此处只包含教师的图像是后续骨架信息提取的基础；

步骤3，对于只包含教师影像数据，采用现有的基于深度卷积神经网络的人体姿态估计算法OpenPose实现骨架检测，得到骨架坐标信息，坐标信息包含18个关节点，编号如下：鼻子-0,脖子-1，右肩-2，右肘-3，右手腕-4，左肩-5，左肘-6，左手腕-7，右臀-8，右膝盖-9，右脚踝-10，左臀-11，左膝盖-12，左脚踝-13，右眼-14，左眼-15，有耳朵-16，左耳朵-17，这是构建图卷积神经网络模型进行行为分类基础；

其中，a_ij表示邻接矩阵A中第i行第j列的值；

2.根据权利要求1所述的一种基于图卷积神经网络的教师非言语行为检测方法，其特征在于：步骤1进一步包括以下子步骤；

1.1，获取智慧教室内摄像头的监控数据；

1.2，使用OpenCV每隔30帧截取一次图像数据。

3.根据权利要求1所述的一种基于图卷积神经网络的教师非言语行为检测方法，其特征在于：步骤2进一步包括以下子步骤；

4.根据权利要求1所述的一种基于图卷积神经网络的教师非言语行为检测方法，其特征在于：

3.1，对于步骤2中获取的数据，使用OpenPose算法提取教师的骨架关节点信息，骨架关节点信息由18组三维数据构成，分别是关节点在当前图像中的(x,y)的坐标及置信度；

5.根据权利要求1所述的一种基于图卷积神经网络的教师非言语行为检测方法，其特征在于：步骤4中正则化处理的实现方式如下；

6.根据权利要求1所述的一种基于图卷积神经网络的教师非言语行为检测方法，其特征在于：步骤5中图卷积神经网络模型中图卷积层的处理公式如下：

H^l+1＝σ(L^symH^lW^l)

其中，A为邻接矩阵。

7.根据权利要求6所述的一种基于图卷积神经网络的教师非言语行为检测方法，其特征在于：通过全连接层对图卷积神经网络的最后一层图卷积层进行分类，并利用softmax函数转化为0-1之间，概率最高的值即为对应的教师非言语行为类别，softmax的具体公式如下：

8.根据权利要求1所述的一种基于图卷积神经网络的教师非言语行为检测方法，其特征在于：所述物理连接即人体关节之间的硬性连接，属于强连接；逻辑连接则是某些动作下，关节点之间虽然没有直接连接，但是依然存在关系。