CN110837947B

CN110837947B - 一种基于音视频分析技术的教师授课专注度的评估方法

Info

Publication number: CN110837947B
Application number: CN201910960894.1A
Authority: CN
Inventors: 姜周曙; 葛照楠; 董勇; 王砚威; 程科远
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2022-05-31
Anticipated expiration: 2039-10-11
Also published as: CN110837947A

Abstract

本发明公开了一种基于音视频分析技术的教师授课专注度的评估方法。本发明对人脸的灰度和LBP图像分别采用VGG16和浅层CNN网络进行人脸的特征提取，两种方法进行互补，采用加权融合策略，将两种特征融合到一起，从而提高的识别的精度，使得分类结果更加准确。在对教师专注度评价方面，从视频分析和音频分析两个角度进行定量分析，从而有效的避免了某一角度的局限性，使得基于机器方面对教师专注度评价方面更加客观、准确、快速，解决了传统方法对于教师上课投入度的分析的主观性强，实时率低等缺点。

Description

一种基于音视频分析技术的教师授课专注度的评估方法

技术领域

本发明属于现代教育或教学评估领域，主要是一种基于音视频分析技术的教师授课专注度的评估方法。

背景技术

面部表情识别技术是机器理解人类情绪变化的重要任务。但是，对于每个人的面部差异和自身情绪强度的不同，难以提取出手动设计的特征，因此，本发明转向通过学习的方式，基于视频流的面部表情识别技术。

对于面部图像，首先需要面部检测和旋转校正的预处理，然后从面部区域内提取出面部表情特征，选取学习好的分类器提取面部特征来识别出不同的面部表情。

传统对于教师上课投入度的分析是通过其他教师听课评价和学生问卷调查的方式进行，这种方法具有主观性强，实时率低等缺点。

发明内容

为了使教师上课投入度的评价更加客观，本发明根据教师上课时的心理活动，教师上课时是否情绪饱满、态度是否认真、授课内容是否熟悉、注意力是否集中等均与教师授课质量直接相关，能够从面部表情的变化特征中反映出来。

本发明包括以下步骤：

步骤A1、人脸采集：基于教室中教师面对的摄像头采集教师上课的视频，将此视频作为样本输入。

步骤A2、人脸检测：采用人脸检测实时处理框架进行面部检测，并且确定授课教师的身份，与后台数据库进行关联。

步骤A3、旋转校正：采用面部区域的旋转校正来对齐，然后将检测到的面部区域缩放到72*72的尺寸。

步骤A4、利用局部二值模式，描述图像的局部纹理特性：在3*3的尺寸中，若周围像素值大于中心像素值，则该像素点的位置记为1，反之则为0。然后计算出每个像素的LBP值，从而得到LBP面部图像；

步骤A5、采用VGG16提取灰度面部图像的特征：将VGG16中的卷积层和池化层进行组合；去掉VGG16的两个密集层，来简化灰度面部图像的特征提取；

步骤A6、LBP面部图像的特征提取：对于LBP面部图像，构建一个浅层CNN模型，包括输入层，两个卷积层、子采样层和特征向量层。

在第一卷积层中主要是识别面部的主要信息，使用64个滤波器用于输入LBP图像，使用7*7卷积核并且输出72*72像素的64张图片，然后第一子采样层使用2*2内核的最大池将图片大小变成一半。

第二个卷积层用3*3卷积核进行256次卷积，来映射之前的层，第二子采样层也使用2*2的内核，在两个子采样层之后添加ReLu激活函数；

然后，输出一个具有500个神经元的隐藏层，隐藏层与两个子采样层相连，保证提取的特征保持不变。

步骤A7、加权融合：加权融合对象为从灰度图像提取的特征向量h₁和从浅层CNN模型的LBP面部图像提取的特征向量h₂。

在融合特征向量的基础上，采用Softmax分类方法进行识别。

步骤A8、视频的定量分析：根据步骤A7中Softmax分类方法识别出人脸表情的8种表达和教师授课专注度与人脸表情的内在联系，设计权重系数，评估教师教学投入度W_s。

步骤A9、音频的定量分析：使用OpenEAR工具包，用Z标准化对语音进行归一化，识别出教师授课音频中教师内心情感的分类，设计权重系数，评估教师授课专注度W_y。

步骤A10、综合指数计算：在得到W_s和W_y之后，设计两者的权重系数都设为0.5。这样得到教师授课专注度W：

W＝0.5*W_s+0.5*W_y

本发明的优点在于：对人脸的灰度和LBP图像分别采用VGG16和浅层CNN网络进行人脸的特征提取，两种方法进行互补，采用加权融合策略，将两种特征融合到一起，从而提高的识别的精度，使得分类结果更加准确。在对教师专注度评价方面，从视频分析和音频分析两个角度进行定量分析，从而有效的避免了某一角度的局限性，使得基于机器方面对教师专注度评价方面更加客观、准确、快速，解决了传统方法对于教师上课投入度的分析的主观性强，实时率低等缺点。

附图说明

图1表示本发明的方法框架图；

图2为面部灰度图像提取特征的VGG16网络示意图；

图3为LBP面部图像提取特征的浅层CNN结构示意图；

图4加权融合网络示意图。

具体实施方式

在大学的智慧教室里，有高清晰度的摄像头对着讲台，可以实时跟踪教师授课时的脸部，有录音设备记录授课教师的语音内容。

授课时，用摄像头进行人脸识别，识别出此刻授课教师，与后台数据库进行匹配，之后识别之后得出的授课教师专注度实时的上传到数据库，与教务和人事系统实现数据共享。

授课时长内，摄像头得到的视频根据每秒30帧的频率得到一序列的视频图像，对图像进行旋转矫正得到局部纹理特性，识别出面部特征进而进行加权融合，进而得到教学过程中的教师的面部表情，根据对各个帧图片的面部表情的识别结果得到各个表情的出现的频率。根据出现的频率，对加权系数进行设计，从而得到依据视频得出的教师授课投入度的分数。

然后进行音频分析，使用OpenEAR工具包对音频进行处理分类，根据分类结果进行加权，得到从音频方面得出的教师授课投入度的分数。

将音频和视频两个方面得到的授课投入度进行加权得到从音视频分析技术的教师授课投入度。

实施例：本实施例提出教学过程中根据教师授课时面部表情的变化和音频的变化来对教师上课专注度进行评估的方法。图1描述了基于一种基于音视频分析技术的教师授课专注度的评估方法的总体流程图。

本实施例包括以下步骤：

步骤A2、人脸检测：对视频进行每秒30帧的速度进行处理，采用传统的Viola-Jones的人脸检测实时处理框架进行面部检测。并且确定授课教师的身份，与后台数据库进行关联。

步骤A3、旋转校正：真实环境中的面部图像可能会引起面部表情识别的准确性，采用面部区域的旋转校正来对齐。旋转矩阵见式(1)

其中，R_x，R_y是面部图像的初始坐标，R_x′，R_y′是经过旋转校正后得到的坐标，θ是双眼之间连线与水平轴的夹角，将检测到的面部区域缩放到72*72的尺寸。

步骤A4、利用局部二值模式，描述图像的局部纹理特性。在3*3的尺寸中，若周围像素值大于中心像素值，则该像素点的位置记为1，反之则为0。然后根据式(2)计算出每个像素的LBP值

其中，s是符号函数，i_c和i_p分别表示中心像素的灰度值和相邻像素的灰度值，从而得到LBP面部图像。

步骤A5、灰度面部图像的特征提取：采用基于Simonyan和Zisserman提出的对于视觉检测和快速收敛方面的非常有效的VGG16方法。VGG16的特点是简单，且卷积核的参数相同，池化核参数也相同，采用卷积层和池化层进行组合。去掉了VGG16的两个密集层，来简化灰度面部图像的特征提取。如图2，输入为A3中的1*72*72的图片，前四个块不变，学习率为0.01。改变第五个块的结构，该块的参数如表1所示，并且将该块的学习率设为0.005，虽然学习时间会变长，但是可以学习到更有效的信息。每个卷积层之后用ReLu函数激活，最终只保留一个1*500的密集层。

表1

步骤A6、LBP面部图像的特征提取：对于LBP面部图像，构建一个浅层CNN模型。如图3所示，包括输入层，两个卷积层和子采样层和特征向量层。在第一卷积层(C₁)中主要是识别面部的主要信息，使用64个滤波器用于输入LBP图像，使用7*7卷积核并且输出72*72像素的64张图片，然后子采样层(S₁)使用2*2内核的最大池将图片大小变成一半。第二个卷积层(C₂)用3*3卷积核进行256次卷积，来映射之前的层，子采样层(S₂)也使用2*2的内核，在S₁和S₂子采样层之后添加ReLu激活函数，从而具有处理非线性数据的能力。表2显示了浅层CNN的各个参数。然后，输出一个具有500个神经元的隐藏层(H)，H层与子采样层S₁和S₂相连，保证提取的特征保持不变。

表2

	C1	S1	C2	S2
					个数	64		256
尺寸	7x7	2x2	3x3	2x2
					步	1	2	1	2
填充	3	0	0	0

步骤A7、加权融合：图4显示了加权融合网络，从灰度图像提取的特征向量为h₁，从浅层CNN的LBP面部图像提取特征向量为h₂。在经过两个级联的全连接层，实现特征向量的降维，使得维度变为8。最终得到h₁里的全连接层fc1_1＝{k₁，k₂，...，k_m}(m＝100)和全连接层fc1_2＝{k₁，k₂，...，k₈}，h₂里的全连接层fc2_1＝{l₁，l₂，...，l_m}(m＝100)和全连接层fc2_2＝{l₁，l₂，...，l₈}。将fc1_2和fc2_2加权融合构成最终的特征向量fl＝{p₁，p₂，...，p₈}。其中，p_i计算式子如式(3)：

p_i＝α*k_i+(1-α)*l_i (3)

其中α对人脸灰度图像和LBP面部图像的特征向量进行加权操作，通过交叉验证对α进行实验计算。在融合特征向量的基础上，采用Softmax分类方法进行识别。

步骤A8、视频的定量分析：步骤A7中Softmax分类方法识别出人脸表情的8种表达(快乐，悲伤，惊讶，厌恶，恐惧，愤怒，蔑视和中立)，相比其他方法来说，具有非常高的识别率。教师在教学课堂中的专注度与面部表情有着密切的关系，根据教师授课专注度(以百分记)与人脸表情的内在联系，一节课中各个表情所出现的频次记为δ_i，设计所对应表情的权重系数∈_i。如出现厌恶、蔑视、悲伤权重系数设为0；出现恐惧、愤怒时权重系数设为0.3；出现惊讶、中立时权重系数设为0.6；出现快乐时权重系数设为1。如式(4)所示，从视频这一方面评估教师教学投入度W_s(0-100)。

步骤A9、音频的定量分析：根据授课时，教师的音频也可以判断出教师上课专注度，使用OpenEAR工具包，可以增强音高和语音强度，使用Z标准化对语音进行归一化。在识别出教师授课音频中教师内心情感的6个分类：愤怒、高兴、恐惧、平静、悲伤、惊奇。一节课中各个分类出的内心情感所出现的频次记为δ_i，设计所对应情感的权重系数E_i。如出现恐惧、愤怒、悲伤、惊奇时权重系数设为0；出现平静时权重系数设为0.5；出现高兴时权重系数设为1。然后根据式(4)，从音频这一方面，对于教师授课专注度的内心情感的比重来进行加权，这样就能从音频这一方面评估教师授课专注度W_y(0-100)。

步骤A10、综合指数计算：在得到A7的W_s和A8的W_y之后，由于视频分析和音频分析评价教师授课专注度同样重要，则他们的权重系数都设为0.5。这样得到教师授课专注度W如式(4)所示：

W＝0.5*W_s+0.5*W_y (4)

以上内容是结合具体的实例给出的实施方式对本发明的进一步说明，不能认定本发明的具体实施只限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离发明构思的前提下还可以做出一定程度的简单推演或者替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于音视频分析技术的教师授课专注度的评估方法，包括以下步骤：

步骤A1、人脸采集：基于教室中教师面对的摄像头采集教师上课的视频，将此视频作为样本输入；

步骤A2、人脸检测：采用人脸检测实时处理框架进行面部检测，并且确定授课教师的身份，与后台数据库进行关联；

步骤A3、旋转校正：采用面部区域的旋转校正来对齐，然后将检测到的面部区域缩放到72*72的尺寸；

步骤A4、利用局部二值模式，描述图像的局部纹理特性：在3*3的尺寸中，若周围像素值大于中心像素值，则像素点的位置记为1，反之则为0；然后计算出每个像素的LBP值，从而得到LBP面部图像；

其中LBP值计算如下：

其中，s是符号函数，i_c和i_p分别表示中心像素的灰度值和相邻像素的灰度值；

步骤A6、LBP面部图像的特征提取：对于LBP面部图像，构建一个浅层CNN模型，包括输入层，两个卷积层、子采样层和特征向量层；

在第一卷积层中主要是识别面部的主要信息，使用64个滤波器用于输入LBP图像，使用7*7卷积核并且输出72*72像素的64张图片，然后第一子采样层使用2*2内核的最大池将图片大小变成一半；

然后，输出一个具有500个神经元的隐藏层，隐藏层与两个子采样层相连，保证提取的特征保持不变；

步骤A7、加权融合：加权融合对象为从灰度图像提取的特征向量h₁和从浅层CNN模型的LBP面部图像提取的特征向量h₂；在融合特征向量的基础上，采用Softmax分类方法进行识别；

步骤A8、视频的定量分析：根据步骤A7中Softmax分类方法识别出人脸表情的8种表达和教师授课专注度与人脸表情的内在联系，设计权重系数，评估教师教学投入度W_s；

步骤A9、音频的定量分析：使用OpenEAR工具包，用Z标准化对语音进行归一化，识别出教师授课音频中教师内心情感的分类，设计权重系数，评估教师授课专注度W_y；

步骤A10、综合指数计算：在得到W_s和W_y之后，设计两者的权重系数都设为0.5；这样得到教师授课专注度W：

W＝0.5*W_s+0.5*W_y。

2.根据权利要求1所述的一种基于音视频分析技术的教师授课专注度的评估方法，其特征在于：步骤A3中旋转校正采用以下公式：

其中，R_x，R_y是面部图像的初始坐标，R_x′,R_y′是经过旋转校正后得到的坐标，θ是双眼之间连线与水平轴的夹角。

3.根据权利要求1所述的一种基于音视频分析技术的教师授课专注度的评估方法，其特征在于：步骤A5中输入为1*72*72的图片，前四个块不变，学习率为0.01；改变第五个块的结构，并且将该块的学习率设为0.005，每个卷积层之后用ReLu函数激活，最终只保留一个1*500的密集层。