CN106878677B

CN106878677B - 基于多传感器的学生课堂掌握程度评估系统和方法

Info

Publication number: CN106878677B
Application number: CN201710049075.2A
Authority: CN
Inventors: 那彦; 乔文婷; 陈建春
Original assignee: Xian University of Electronic Science and Technology
Current assignee: Xian University of Electronic Science and Technology
Priority date: 2017-01-23
Filing date: 2017-01-23
Publication date: 2020-01-07
Anticipated expiration: 2037-01-23
Also published as: CN106878677A

Abstract

本发明公开了一种基于多传感器的学生课堂掌握程度评估系统与方法，其实现包括：学生数据采集；学生面部图像序列和语音序列分别预处理；面部表情和语音特征提取；面部表情、语音、考试成绩分类处理；使用高斯混合模型融合分类结果；融合结果分析给出课堂评估及建议。本发明语音情感处理中，采用了深度学习中卷积神经网络，避免了复杂的人工特征提取；采用高斯混合模型使各分类器分类置信度随样本分布而定，自适应融合。本发明本着学生面部表情、学生语音、学生考试成绩相结合的思路，设计出基于多传感器的学生课堂掌握程度评估新方案。更客观、准确的评估课堂学生掌握状况，对学生掌握状况作出判断并给出教学评估结果及相应建议。

Description

基于多传感器的学生课堂掌握程度评估系统和方法

技术领域

本发明属于图像与语音处理技术领域，更进一步涉及模式识别技术,具体是一种基于多传感器的学生课堂掌握程度评估系统和方法。用于教学、心理、人机交互等领域。

背景技术

现有的教学评估系统多以人的主观判断为准，评估结果因人而异，造成影响，因此对学生在听课时的面部表情和语音进行情感分析，使评估结果尽可能公平准确已成为教育的追求。教学管理者也可以及时掌握教师教学效果和学生学习情况，调整教学管理与决策的目标、方法和策略。

河海大学提出的专利申请“一种基于模糊支持向量机的汉语语音情感识别方法”(专利申请号CN201210494888.X，公开号CN103258532A)公开了一种汉语语音情感识别方法。公开了一种基于模糊支持向量机的汉语语音情感识别方法，用于汉语语音的情感识别。识别过程包括粗分类和细分类两个阶段：第一阶段，粗分阶段提取待识别样本的全局统计情感特征，根据基音范围、平均基音值，基音变化和声音强度，使用模糊支持向量机，使用粗分类模糊支持向量机将情感分为三大粗分类；第二阶段，细分阶段增加类内情感的区分度，使用细分类模糊支持向量机对粗分类内部进行更细划分，从而识别每种情感。其中，情感特征与说话人和文本内容无关，支持向量机训练受模糊因子指导，细分特征经PCA降维增加区分度。采用全局统计音质特征实现与说话人和文本内容无关的汉语语音情感表示；采用模糊支持向量机，在混杂语音情感条件下，获得更好的识别精度，但是，该方法仍然存在的不足是：SVM的最终决策函数只由少数的支持向量所确定，由于SVM是借助二次规划来求解支持向量，而求解二次规划将涉及矩阵的计算，当数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间；支持向量机算法只给出了二类分类的算法，而在实际应用中，一般要解决多类的分类问题，不利于实时处理。

芜湖乐锐思信息咨询有限公司提出的专利申请“一种教学评估系统”(专利申请号201510932067.3)公开了一种教学评估系统，包括：教学评估统计单元、教学评估分析单元、用户端、数据存储单元和显示单元；教学评估统计单元包括教学课程质量统计单元、教学老师讲课详细度统计单元、教学课后辅导统计单元；教学评估分析单元包括：教学质量评估分析单元、教学成绩分析单元和教学升学率评估分析单元；教学评估统计单元、数据存储单元和显示单元分别与教学评估分析单元相连接，用户端和教学质量评估分析单元相连接；教学评估统计单元和数据存储单元相连接；用于统计分析教学质量以及整个学校的教学质量评估。

但是该教学评估系统存在的不足是：未考虑学生在教学过程中扮演的角色，使教学质量评估数据来源显得单一，且处理单一化。

目前针对课堂教学尚未有机器化的评估方法。现有技术中，语音情感处理中仍然存在人工特征选择的环节，而人工特征选择存在偏差，该偏差将直接影响最终分类结果；在多源数据融合处理中，为了简便多采用乘积规则、均值规则等，存在多模态信息融合不准确的问题。

发明内容

本发明公开了一种自动提取语音特征和评估更加客观的基于多传感器的学生课堂掌握程度评估系统和方法。

本发明是一种基于多传感器的学生课堂掌握程度评估系统,其特征在于，信息来源模块有3个，分别是视频采集模块、音频采集模块、成绩录入模块，其中视频采集模块和面部表情分类器模块连接输出面部表情分类结果，音频采集模块和语音分类器模块连接输出语音分类结果，成绩录入模块和成绩分类器模块连接输出成绩分类结果，上述3个分类结果均输入到决策融合模块中，决策融合模块的输出连接到课堂教学学生反映评估及建议模块中，课堂教学学生反映评估及建议模块给出学生课堂反映评估结果及建议，其中各模块分述如下：

视频采集模块，用于对课堂上学生的正面人脸图像采集，发送到面部表情分类器模块；

面部表情分类器模块，用于对采集到的学生人脸图像进行情感分类，首先对所有的人脸头像使用基于Gabor特征的增强分类器方法对人脸特征点自动定位，然后提取10个特征向量，最后使用面部表情分类器对同一人的不同人脸表情进行分类，给出面部表情分类结果，结果表述为烦躁、喜悦和平静，作为样本输入到决策融合模块；

音频采集模块，采用麦克风实时录制课堂上学生的语音信息，并发送到语音分类器模块；

语音分类器模块，对语音信号进行情感分类，给出语音分类结果，结果表述为烦躁、喜悦和平静，作为样本输入到决策融合模块；

成绩录入模块，用于暂存采集到的学生考试成绩，并发送到成绩分类器模块，在每次学生视频和音频同步录制中，进行一次课堂考试作为采集的学生考试成绩；

成绩分类器模块，用于对学生的成绩进行分类，使用成绩分类器给出成绩分类结果，作为样本输入到决策融合模块；

决策融合模块，将面部表情分类结果、语音分类结果、成绩分类结果进行自适应权值融合，是针对各分类结果依据样本空间分布得到分类器的分类置信度的自适应权值融合，融合结果表述为烦躁、喜悦和平静，此结果输入到课堂教学学生反映评估及建议模块；

课堂教学学生反映评估及建议模块，用于对融合结果进行分析，并给出学生在课堂掌握情况的反映和建议。

本发明还是一种基于多传感器的学生课堂掌握程度评估方法，需要录制学生课堂正面人脸视频和音频信息，其特征在于，包括有以下步骤：

(1)学生数据采集，其中学生面部表情通过摄像头视频采集、学生语音通过麦克风音频采集、学生考试成绩手工录入，视频数据和音频数据同步采集；

(2)对采集到的学生视频和音频数据分别作初步处理，其中对学生视频数据初步处理是以均等时间间隔为单位提取图像序列，如均等时间间隔表示为t₀,t₁,...t_n；学生音频数据初步处理是从音频中提取语音序列，该语音序列包含已采集图像序列对应时间间隔点的语音，其中第一个语音序列包含t₀点的语音，第二个语音序列包含t₁点的语音......，第n+1个语音序列包含t_n点的语音；

(3)针对学生面部图像序列和语音序列分别进行预处理，其中，对学生面部图像序列的预处理是：

(3a)对学生图像序列灰度化；

(3b)对灰度图像序列进行直方图均衡化操作；

(3c)对均衡化后的图像序列使用迭代弱分类器(adaboost)方法获取学生人脸头像序列；

对学生语音序列的预处理是：

(3d)对语音序列进行采样并量化，得到时间离散且幅度离散的语音序列；

(3e)对离散语音序列分帧并加汉明窗，完成语音预处理；

(4)分别对学生面部表情特征向量和语音特征提取，其中对学生面部表情特征向量提取是：

(4a)使用基于Gabor特征的增强分类器对学生人脸头像序列中的每一帧图像找出人脸器官中的13个特征点，并一一标识；

(4b)从图像标识出的特征点中获取10个人脸表情特征向量；

对学生语音特征提取是：

(4c)对语音序列作离散傅里叶变换(DFT)，获取语音序列各帧的频谱，对频谱取模平方得到语音信号的能量谱；

(4d)语音信号能量谱通过一组Mel尺度的三角形滤波器组；

(4e)针对滤波器组输出结果，计算对数能量并归一化，再进行反离散余弦得到Mel频率倒谱系数(MFCC)，获取语音特征；

(5)分别对学生面部表情、学生语音、学生考试成绩分类处理

(5a)将人脸表情特征向量输入到支持向量机(SVM)判段表情的类别，输出面部表情分类结果；

(5b)将Mel频率倒谱系数(MFCC)即语音特征，输入到卷积神经网络(CNN)判断语音的类别，输出学生语音分类结果；

(5c)对学生考试成绩分类，总成绩按百分制计算，分成三个区间，分别对应三种情况：[80～100]代表喜悦；[60～80]代表平静；[0～60]代表烦躁，记输出矩阵为(S_Dis,S_Hap,S_Qui),表示成绩识别中输出烦躁、喜悦和平静3种分类的概率；

(6)将学生面部表情分类结果、学生语音分类结果、学生考试成绩分类结果使用高斯混合模型(GMM)融合，输出融合结果表述为烦躁、喜悦和平静；

(7)融合结果分析，给出课堂学生反映情况及教学建议。

本发明首先采集学生课堂视频、音频和考试成绩，然后使用支持向量机(SVM)和卷积神经网络(CNN)分别处理学生面部表情和学生语音，最后使用高斯混合模型(GMM)融合面部表情分类结果、学生语音分类结果、学生成绩分类结果，来分析学生的心理状况，进而了解学生对所授课程的掌握情况，可应用于教学评估。

本发明与现有的技术相比具有以下优点：

1.本发明在语音情感识别中为避免复杂的人工特征向量提取操作，采用了深度学习中的卷积神经网络(CNN)，选择的Mel频率谱系数(MFCC)，将人耳的听觉感知特性和语音信号的产生机制有机结合，使用卷积神经网络来进行情感分类。

2.本发明在最终各分类器融合时采用了高斯混合模型(GMM)，由于各分类器分类置信度恒定是不符合事实的，当存在噪声干扰时,语音分类器的性能会发生下降；当视频传感器受到抖动、碰撞时,脸部表情分类器的性能会发生下降，所以本发明采用了高斯混合模型(GMM)方法使各分类器分类置信度随样本分布而定。

3.本发明主要应用于课堂教学学生反映评估，它的实际意义是更客观、更准确的评估课堂学生掌握状况。本发明本着学生面部表情、学生语音、学生考试成绩相结合的思路，设计出一种基于多传感器的学生课堂掌握程度评估系统和方法。能对课堂上学生的掌握状况作出判断并给出教学评估结果及相应建议。

附图说明

图1本发明基于多传感器的学生课堂掌握程度评估系统构成框图；

图2本发明基于多传感器的学生课堂掌握程度评估方法流程框图；

图3本发明语音分类处理卷积神经网络(CNN)图；

图4本发明多分类器融合高斯混合模型(GMM)；

图5本发明融合结果分析流程框图。

具体实施方式

下面结合附图对本发明详细描述。

现有技术中，语音情感处理中仍然存在人工特征选择的环节，该环节将直接影响最终分类结果；另外在多源数据融合处理中，存在多模态信息融合不准确的问题。为此，本发明展开了研究与探讨，提出了基于卷积神经网络的语音分类处理，以及基于GMM模型的分类器决策融合方法。

实施例1：

本发明是一种基于多传感器的学生课堂掌握程度评估系统,参见图1，包括视频采集模块、面部表情分类器模块、音频采集模块、语音分类器模块、成绩录入模块、成绩分类器模块、决策融合模块、课堂教学学生反映评估及建议模块；

信息来源模块有3个，分别是视频采集模块、音频采集模块、成绩录入模块，其中视频采集模块和面部表情分类器模块连接输出面部表情分类结果，音频采集模块和语音分类器模块连接输出语音分类结果，成绩录入模块和成绩分类器模块连接输出成绩分类结果，上述3个分类结果均输入到决策融合模块中，决策融合模块的输出连接到课堂教学学生反映评估及建议模块中，课堂教学学生反映评估及建议模块给出学生课堂反映评估结果及建议，其中各模块分述如下：

视频采集模块，用于对课堂上学生的正面人脸图像采集，将采集到的数据发送到面部表情分类器模块，视频采集模块包括有CCD摄像头和视频解码芯片TVP5146进行模/数转换，变成符合ITU-BT.656标准的数字视频信号。

面部表情分类器模块，用于对采集到的学生人脸图像进行情感分类，首先对所有的人脸头像使用基于Gabor特征的增强分类器方法对人脸特征点自动定位，然后提取人脸图像的10个特征向量，最后使用面部表情分类器对同一个人的不同人脸表情进行分类，采用方法为支持向量机(SVM)，给出面部表情分类结果，结果表述为烦躁、喜悦和平静，作为样本输入到决策融合模块。

音频采集模块，采用麦克风实时录制课堂上学生的语音信息，每一个学生旁均有一个麦克风，将由麦克风采集的语音信号并发送到语音分类器模块，音频采集模块包括麦克风和音频编解码芯片TLV320AIC3101模拟音频信号量化成数字量。

语音分类器模块，对采集到的语音信号进行情感分类，给出语音分类结果，结果表述为烦躁、喜悦和平静，作为样本输入到决策融合模块。

成绩录入模块，用于暂存采集到的学生考试成绩，并发送到成绩分类器模块，在每次学生视频和音频同步录制中，进行一次课堂考试作为采集的学生考试成绩。

成绩分类器模块，用于对学生的成绩进行分类，使用成绩分类器给出成绩分类结果，作为样本输入到决策融合模块。

决策融合模块，将面部表情分类结果、语音分类结果、成绩分类结果进行自适应权值融合，是针对各分类结果依据样本空间分布得到分类器的分类置信度的自适应权值融合，使用高斯混合模型(GMM)对各分类器结果进行融合,融合结果表述为烦躁、喜悦和平静，此结果输入到课堂教学学生反映评估及建议模块。

课堂教学学生反映评估及建议模块，用于对决策融合模块的融合结果进行分析，并给出学生在课堂掌握情况的反映和建议。

本发明在信息来源上，从学生面部表情、学生语音、学生学习成绩3个方面入手，比较全面的了解学生课堂上的情况，其中分类器模块(面部表情分类器模块、语音分类器模块、成绩分类器模块)分别用来对学生面部表情、学生语音、学生学习成绩分类，并行处理，节约时间，处理效率高。本发明的3个分类器的输出在决策融合模块融合，自适应融合获取结果，对融合结果分析给出学生在课堂掌握情况的反映和建议。

实施例2：

基于多传感器的学生课堂掌握程度评估系统的总体构成同实施例1，决策融合模块中所述的基于样本空间分布情况得到分类器的分类置信度，具体是当分类器中各情感类别的高斯混合模型(GMM)似然度基本相等时，认为该样本处于概率分布模型的重叠区域，该分类器的判决置信度较低；当分类器给出的各情感类别似然度值分散时，则认为样本处于概率分布模型的非重叠区域，该分类器的判决置信度较高。

GMM中的参数是利用训练样本{x₁,x₂,...x_m}，通过计算p(x,z)最大似然估计的方法得到，m为高斯混合密度的混合数，z为隐含随机变量。这种最大似然估计可以利用期望值最大化算法EM，通过迭代得到。p(x,z)最大似然估计为

每一个训练模型都用一个唯一的λ来表示，即l_i＝{a_i,μ_i,Σ_i}i＝1,2,...M，a_i表示混合权值，u_i表示均值矢量，Σ_i表示协方差矩阵。宽窄、走向和函数形状的中心等这些密度函数的特性都由这些参数确定。GMM似然度分别记为p(X|λ)，EM算法的基本思想是把初始模型与新模型，按照下式重复迭代

p(x|λ^*)≥p(x|λ) (2)

直到它们满足

δ＝{p(x|λ^*)-p(x|λ)}≤η (3)

时为止，这时的λ^*为最优值，其中η为期望误差。

这就是EM迭代算法估计GMM参数的过程，通常情况下要得到一个稳定的GMM需要经过五到十次的迭代。

当各情感分类类别的高斯混合模型(GMM)似然度基本相等时，该分类器的判决置信度较低；当分类器给出的各情感分类类别似然度值分散时，该分类器的判决置信度较高。本发明中情感分类简称分类。

实施例3：

基于多传感器的学生课堂掌握程度评估系统的总体构成同实施例1-2，其中的语音分类器模块是首先获取语音信号的能量谱，语音信号的能量谱通过梅尔尺(Mel-scale)的三角形滤波器组，计算其对数能量并归一化，输入到卷积神经网络进行语音特征映射分类，使用方法为卷积神经网络(CNN)，给出语音分类结果，结果表述为烦躁、喜悦和平静，作为样本输入到决策融合模块。

本发明在语音情感分类识别中为避免复杂的人工特征向量提取操作，选择Mel频率谱系数(MFCC)，将人耳的听觉感知特性和语音信号的产生机制有机结合，使用卷积神经网络来进行情感分类。首先从音频中提取学生的语音序列，对语音预处理后获取能量谱，使其通过一组Mel尺度的三角形滤波器组，使原始频域保留了更多信息，对滤波器输出结果进行反离散余弦得到Mel频率倒谱系数(MFCC)，将MFCC输入到卷积神经网络，网络中的卷积和池化操作更有利于处理语音的多变性，更新参数，最终输出语音情感分类结果。

实施例4：

本发明还是一种基于多传感器的学生课堂掌握程度评估方法，需要录制学生课堂正面人脸视频和音频信息，本方法可以依赖基于多传感器的学生课堂掌握程度评估系统实现，也可以不依赖，本例是在基于多传感器的学生课堂掌握程度评估系统上实现，基于多传感器的学生课堂掌握程度评估系统同实施例1-3。

参见图2，包括有以下步骤：

(1)学生数据采集：利用视频采集模块，对课堂上学生的正面人脸图像采集，其中学生面部表情通过摄像头视频采集；利用音频采集模块，实时录制课堂上学生的语音信息，其中采集设备为麦克风；利用成绩录入模块，暂存采集到的学生考试成绩，学生考试成绩手工录入，要求视频数据和音频数据同步采集，在每次学生视频和音频同步录制中，进行一次课堂考试作为采集的学生考试成绩。

(2)数据采集后接着就对采集到的学生视频和音频数据分别作初步处理，其中对学生视频数据初步处理是以均等时间间隔为单位提取图像序列，如均等时间间隔表示为t₀,t₁,...t_n；学生音频数据初步处理是从音频中提取语音序列，该语音序列包含已采集图像序列对应时间间隔点的语音，其中第一个语音序列包含t₀点的语音，第二个语音序列包含t₁点的语音......第n+1个语音序列包含t_n点的语音。

(3)针对学生面部图像序列和语音序列分别进行预处理介绍如下，面部表情分类器模块和语音分类器模块首先需要学生面部图像序列和语音序列预处理。其中，对学生面部图像序列的预处理是：

(3a)对学生图像序列灰度化。

(3b)对灰度图像序列进行直方图均衡化操作,就是把原始图像的灰度直方图进行非线性拉伸，使原来在某一个灰度区间分布的图像变成在整个灰度区间上都有分布的图像。

(3c)对均衡化后的图像序列使用迭代弱分类器(adaboost)方法获取学生人脸头像序列，首先提取样本图像中的Haar特征，然后通过在训练过程中选取出最优的Haar特征，再将训练得出的Haar特征转换成弱分类器，最后将得到的所有弱分类器进行优化组合用于人脸检测。

对学生语音序列的预处理是：

(3d)对语音序列进行采样并量化，得到时间离散且幅度离散的语音信号序列。原始的语音信号是一个连续的模拟信号，因此必须对原始信号进行采样，使其转化成为时间轴上离散的数据，语音信号经过采样后得到了时间离散但是幅度连续的信号，因此必需对这个语音信号再进行量化处理。

(3e)对离散的语音信号序列分帧并加汉明窗，完成语音预处理，分帧之后的信号通过加窗处理来降低泄露，本发明使用汉明窗。

以上过程是面部表情分类器模块和语音分类器模块的预处理过程。

对学生面部图像序列和语音序列的预处理不分先后顺序，可以先行预处理学生面部图像序列，也可以先行预处理学生语音序列。

(4)面部表情分类器模块和语音分类器模块预处理结束后，要分别进行学生面部表情特征向量和语音特征提取。

其中对学生面部表情特征向量提取是对所有的人脸图像使用基于Gabor特征的增强分类器方法对人脸特征点自动定位，然后提取10个特征向量。

对学生语音特征的提取是先获取语音信号的能量谱，然后使其通过梅尔尺度(Mel-scale)的三角形滤波器组，计算对数能量并归一化，获取Mel频率倒谱系数(MFCC)。

学生面部表情特征向量是：

(4a)使用基于Gabor特征的增强分类器对学生人脸头像序列中的每一帧图像找出人脸器官中的13个特征点，并一一标识，这13个特征点分别是：左眼和右眼的内眼角位置(x₁,y₁),(x₂,y₂)，左眼和右眼的外眼角位置(x₃,y₃)，(x₄,y₄)，左眼和右眼的最高点位置(x₅,y₅),(x₆,y₆)，左眼和右眼的最低点位置(x₇,y₇),(x₈,y₈)，鼻尖位置(x₉,y₉)，嘴角的最左端和最右端位置(x₁₀,y₁₀),(x₁₁,y₁₁)，唇部中心线与嘴唇轮廓相交的最上端和最下端(x₁₂,y₁₂),(x₁₃,y₁₃)。

(4b)从图像标识出的特征点种获取10个人脸表情特征向量，代表尺寸特征的特征向量为：

两眼宽度的平均值，用f₁表示，f₁＝(|x₁-x₃|+|x₂-x₄|)/2；

两眼高度的平均值，用f₂表示，f₂＝(|y₅-y₇|+|y₆-y₈|)/2；

嘴张开的宽度，用f₃表示，f₃＝(|x₁₀-x₁₁|)/2；

嘴张开的高度，用f₄表示，f₄＝(|y₁₂-y₁₃|)；

鼻尖与左右嘴角的垂直距离，用f₅表示，f₅＝(|y₉-y₁₀|+|y₉-y₁₁|)/2；

外眼角与左右嘴角的垂直距离，用f₆表示，f₆＝(|y₃-y₁₀|+|y₄-y₁₁|)/2；

代表相对位置特征的向量为：

右外眼角与鼻尖组成的向量b₁,

右内眼角与鼻尖组成的向量b₂,

右外眼角与右嘴角组成的向量b₃,

鼻尖与右嘴角组成的向量b₄,

使所有特征向量分别和左外眼角与右外眼角之间的水平距离m作比值，避免因距离变化而产生不同的分类结果,得到10个人脸表情特征向量。

对学生语音特征提取是：

(4c)对语音序列作离散傅里叶变换，获取语音序列各帧的频谱，对频谱取模平方得到信号的能量谱，其中时域信号经过离散傅里叶变换(DFT)后得到线性频谱X_a(k)：

(4d)使能量谱通过一组Mel尺度的三角形滤波器组，滤波器共有40个，其中心频率为f(m),m＝1,2,...M，M为滤波器的个数，每个带通滤波器的传递函数为H_m(k)。

(4e)根据滤波器组的输出计算对数能量并归一化，并进行反离散余弦得到Mel频率倒谱系数(MFCC)，其中对数能量为

H_m(k)表示滤波器的传递函数，X_a(k)表示语音信号的DFT。

对学生面部图像特征向量和语音的特征提取不分先后顺序。

(5)面部表情分类器模块和语音分类器模块在学生面部表情特征向量和语音特征提取结束后，分别对学生面部表情和学生语音分类处理，其中学生面部表情分类处理方法为支持向量机(SVM)；学生语音分类处理方法为卷积神经网络(CNN)；使用成绩分类器模块对学生考试成绩进行分类。

对学生面部表情、学生语音、学生考试成绩分类处理如下：

(5a)将人脸表情特征向量输入到支持向量机(SVM)判断表情的类别，输出面部表情分类结果，这里参数确定包括两步，一步是模型训练，需要求解支持向量和分类偏置来表示最优判别函数，另一步是模型测试。

(5b)将Mel频率倒谱系数(MFCC)即语音特征，输入到卷积神经网络(CNN)判断语音的类别，输出学生语音分类结果。

(5c)对学生考试成绩分类，总成绩按百分制计算，分成三个区间，分别对应三种情况：[80～100]代表喜悦；[60～80]代表平静；[0～60]代表烦躁，记输出矩阵为(S_Dis,S_Hap,S_Qui),表示成绩识别中输出烦躁、喜悦和平静3种分类的概率。

对学生面部表情、学生语音、学生考试成绩分类处理不分先后顺序。

(6)在决策融合模块中，将学生面部表情分类结果、学生语音分类结果、学生考试成绩分类结果使用高斯混合模型(GMM)融合，输出融合结果表述为烦躁、喜悦和平静。

(7)课堂教学学生反映评估及建议模块给出融合结果分析，给出课堂学生反映情况及教学建议。

(7a)当融合结果为烦躁时，对应学生没掌握所教内容，其建议是：教师掌握教学技巧使学生对学习产生兴趣，从效果律入手，学生培养自己的学习习惯，从准备律和练习律入手。

(7b)当融合结果为喜悦时，对应学生对课堂内容掌握得很好，建议：教师总结课堂的亮点，学生争取保持一个良好的学习习惯。

(7c)当融合结果为平静时，对应学生对课堂内容掌握一般，似懂非懂，建议：教师反思自己所采用的教学方从效果律入手，学生从准备律和练习律入手，配合教师的课堂互动。

本发明应用于课堂教学学生反映评估，它具有更广泛的实际意义，更客观、更准确、更高效地评估课堂学生掌握状况。本发明本着学生面部表情、学生语音、学生考试成绩相结合的思路，设计出一种基于多传感器的学生课堂掌握程度评估系统和方法。能对课堂上学生的掌握状况作出判断并给出教学评估结果及相应建议。

实施例5：

基于多传感器的学生课堂掌握程度评估方法同实施例4，步骤(5a)中判断学生面部表情所属类别使用SVM分类,包括有以下步骤：

(5a1)SVM核函数选择，本发明使用径向基核函数(RBF)

其中x_j表示径向基函数中心，||x_i-x_j||²为向量x_i-x_j的欧几里德范数。

(5a2)使用网格搜索法确定核函数的参数σ²及错误代价系数C的最佳取值。网格搜索法(grid—search)是一种试凑方法,适合从不同的增长方向并行搜索最优解。使用网格搜索法寻找最优核参数的方法如下：

对C和σ²的指数增长序列C＝2-²,2-¹,...2-¹²,σ²＝2-⁵,2-⁴,...2⁸,2⁹进行遍历,对每一对参数组合(C,σ²)用5折交叉验证法计算识别率。最终选择最优的参数组合。

(5a3)训练SVM模型，使用函数的参数σ²及错误代价系数C的最佳取值，利用分层抽样法从视频中抽取学生人脸图像，并利用图像序列中提取的面部表情特征向量，训练SVM模型，得出面部表情分类投票结果。

(5a4)测试SVM模型，得到识别率，如果识别率低于预期的识别率，则转向(5a3)继续训练，否则，如果识别率高于或等于预期的识别率，继续执行进行下一步，模型最终的识别率为

其中RA表示训练模型的识别率，ta表示测试数据分类正确的个数，tb表示测试数据集样本个数。

(5a5)识别分类，对投票结果归一化，记SVM算法的面部表情分类输出矩阵为(V_Dis,V_Hap,V_Qui),表示学生面部表情识别中输出烦躁、喜悦和平静3种分类的概率，得出面部表情表情分类结果。

实施例6：

基于多传感器的学生课堂掌握程度评估方法同实施例4-5，步骤(5b)中判断学生语音分类结果所属类别使用卷积神经网络(CNN)的分类方法,如图3所示，包括有以下步骤：

(5b1)卷积神经网络(CNN)的输入层：40*40，对学生音频按帧数进行裁剪，裁剪的音频帧数为40，每一帧得到40组梅尔滤波器组特征。

(5b2)第1卷积层c1共有20个滤波器，滤波器大小为3*3，得到20个大小为36*36的特征映射，卷积层的操作可被描述为包含一个非线性函数(即激活函数)的映射操作。

(5b3)第1池化层s1特征映射中2*2的窗口中采样1个点,也就是4个数中最大的，最终的特征映射数目为18*18。

(5b4)第2卷积层c2共有40个滤波器，滤波器大小为3*3，特征映射的数目为16*16。

(5b5)第2池化层s2采用2*2的池化操作,特征映射数目为8*8。

(5b6)第3卷积层c3采用的滤波器大小为3*3,采用60组滤波器,最终特征映射的数目为6*6。

(5b7)第3池化层s3得到特征映射数目为3*3。

(5b8)第4卷积层采c4用滤波器大小为2*2,采用80组滤波，特征映射数目为2*2。

(5b9)全联接层可看成是卷积核大小为1*1的卷积层。

(5b10)通过softmax回归算法将特征映射到目标的c个分类，即烦躁、高兴、平静，记使用CNN算法的语音分类输出矩阵为(A_Dis,A_Hap,A_Qui),表示语音分类识别中输出烦躁、喜悦和平静的概率。

实施例7：

基于多传感器的学生课堂掌握程度评估方法同实施例4-6，步骤(6)中利用高斯混合模型(GMM)的方法对各分类器分类结果进行融合,包括有以下步骤：

本发明中的面部表情分类器、语音分类器、成绩分类器模块3种分类器,均采用高斯混合模型(GMM)来进行每种情感类别的概率模型训练。完整的高斯混合密度由所有成员密度的均值矢量、协方差矩阵和混合权值参数化而成。

(6a)获取GMM模型参数，将各分类器的分类输出作为训练样本，通过最大似然估计和EM算法针对训练样本得到GMM模型参数，GMM模型参数表示如下：λ_i＝{a_i,μ_i,Σ_i}i＝1,2,...M其中，a_i表示混合权值，μ_i表示均值矢量，Σ_i表示协方差矩阵。

(6b)利用得到的GMM模型参数来获取各分类器的融合权值w_j

式中,GMM似然度分别记为p(X|λ_k)，其中k、m、n取值1,2,3时分别对应了三种分类类别，其中1表示烦躁，2表示喜悦，3表示平静；j为分类器编号,j＝1,2,3，其中1表示面部表情分类器，2表示语音分类器，3表示考试成绩分类器。

(6c)对每个分类器分类结果加权融合,得到总的融合输出为

最终的三种分类输出为

式中o_Dis是分类中烦躁的概率；o_Hap分类中喜悦的概率；o_Qui是分类中平静的概率，取其中最大的值为最终的分类输出结果。

当输出结果为烦躁时，对应学生没掌握所教内容；当输出结果为喜悦时，对应学生对课堂内容掌握得很好；当输出结果为平静时，对应学生对课堂内容掌握一般，似懂非懂。

本发明在各分类器融合时采用了高斯混合模型(GMM)，由于各分类器分类置信度恒定是不符合事实的，当存在噪声干扰时,语音分类器的性能会发生下降；当视频传感器受到抖动、碰撞时,面部表情表情分类器的性能会发生下降；当语音分类器和脸部表情分类器分类结果一致时，就需要人工录入的考试成绩来更客观地评价学生的状况，所以本发明采用了高斯混合模型(GMM)方法使各分类器分类置信度随样本分布而定。

下面再给出一个更加详尽的例子对本发明进一步说明，本例不依赖基于多传感器的学生课堂掌握程度评估系统。

实施例8：

基于多传感器的学生课堂掌握程度评估系统和方法同实施例1-7，本发明本着学生面部表情、学生语音、学生考试成绩相结合的思路，设计出一种基于多传感器的学生课堂掌握程度评估方法。能对课堂上学生的掌握状况作出判断并给出教学评估结果及相应建议。

参见图2，步骤包括有：

1.学生数据采集，其中学生面部表情通过摄像头视频采集、学生语音通过麦克风音频采集、学生考试成绩手工录入，视频数据和音频数据同步采集。

(1.1)自建数据集容量为(m+n)×s×3×3，m表示被测试人员中的男学生，n表示被测试人员中的女学生，s表示每个学生在每一种情感状态下回答的问题个数，情感状态包括烦躁、高兴、平静3种，m和n取值在20～40之间，s取值在40～60之间。数据集中包含三种内容，分别是学生面部表情、学生语音信号以及学习成绩。一学期中任意抽取3个时间段进行学生课堂情况的录制，并在每次录制过程中进行课堂考试，共记录学生成绩3次。取同一时间段所有学生对应的脸部表情、同步的语音数据及学生考试成绩作为训练集和作为测试集，以下为同一时间段所有学生的处理过程，多个时间段的处理过程按一个时间段的处理方法多次重复。

(1.2)从每一个学生的正面视频以均等的时间间隔提取图像，构成一个正面视角图像序列，如均等时间间隔表示为t₀,t₁,...t_n，其余m+n+1个学生以同样的方法处理。

(1.3)从每一个学生的音频中提取语音序列，该语音序列包含已采集图像序列对应时间间隔点的语音，其中第一个语音序列包含t₀点的语音，第二个语音序列包含t₁点的语音......第n+1个语音序列包含t_n点的语音，其余m+n+1个学生以同样的方法处理。

2.针对学生面部图像序列和语音序列分别进行预处理

(2.1)学生面部图像序列的预处理

(2.1.1)对学生图像序列灰度。

(2.1.2)对灰度图像序列进行直方图均衡化操作

直方图均衡化就是把原始图像的灰度直方图进行非线性拉伸，使原来在某一个灰度区间分布的图像变成在整个灰度区间上都有分布的图像。

(2.1.3)对均衡化后的图像序列使用迭代弱分类器(adaboost)方法获取学生人脸头像序列。

(2.2)学生语音序列的预处理

(2.2.1)对学生语音序列进行采样并量化，得到时间离散且幅度离散的语音序列。语音序列信号经过采样后得到了时间离散但是幅度连续的信号，因此必需对这个语音序列信号再进行量化处理,得到时间离散且幅度离散的语音序列。

(2.2.2)对离散的语音序列分帧并加汉明窗。在一个很短的时间段里面，语音信号可以看作是一个稳定的状态。通常，会把语音信号进行分帧。分帧之后的语音信号变成了有限信号，导致在调用傅立叶变换函数的时候会致使高频部分泄露，因此，分帧之后的信号通过加窗处理来降低泄露。信号加窗使用的窗函数一般有矩形窗以及汉明窗。本发明使用汉明窗。

3.分别对学生面部表情特征向量和语音特征提取

(3.1)学生面部表情特征向量

使用基于Gabor特征的增强分类器对学生人脸头像序列中的每一帧图像找出人脸器官中的13个特征点，并一一标识，这13个特征点分别是：左眼和右眼的内眼角位置(x₁,y₁),(x₂,y₂)，左眼和右眼的外眼角位置(x₃,y₃)，(x₄,y₄)，左眼和右眼的最高点位置(x₅,y₅),(x₆,y₆)，左眼和右眼的最低点位置(x₇,y₇),(x₈,y₈)，鼻尖位置(x₉,y₉)，嘴角的最左端和最右端位置(x₁₀,y₁₀),(x₁₁,y₁₁)，唇部中心线与嘴唇轮廓相交的最上端和最下端(x₁₂,y₁₂),(x₁₃,y₁₃)。

(3.1.1)代表尺寸特征的特征向量

嘴张开的宽度，用f₃表示，f₃＝(|x₁₀-x₁₁|)/2；

嘴张开的高度，用f₄表示，f₄＝(|y₁₂-y₁₃|)；

(3.1.2)代表相对位置特征的向量

右外眼角与鼻尖组成的向量b₁,

右内眼角与鼻尖组成的向量b₂,

右外眼角与右嘴角组成的向量b₃,

鼻尖与右嘴角组成的向量b₄,

由于以上特征值所对应的线段可以代表特征点组成的特征三角形的形状，所以原特征向量之间的夹角也可以由这些特征值确定，不需再计算特征向量之间的角度特征。

(3.1.3)输入的向量

在同一个人的不同尺寸的人脸图片中，分类器会因距离变化而产生不同的分类结果。利用五官的尺寸和相对距离会产生较大变化，但是这些特征向量模值之间的比例是保持不变的特性，作出以下调整作为输入特征向量：

取左外眼角和右外眼角之间的水平距离作为标准，记为m,m＝|x₃-x₄|使代表尺寸特征的特征向量和代表相对位置特征的向量分别和m作比值,具体如下：

两眼宽度的平均值与两眼外眼角的比值记为d₁,d₁＝f₁/m；

两眼高度的平均值与两眼内眼角的比值记为d₂,d₂＝f₂/m；

嘴张开的宽度与两眼内眼角的比值记为d₃,d₃＝f₃/m；

嘴张开的高度与两眼内眼角的比值记为d₄,d₄＝f₄/m；

鼻尖与左右嘴角的垂直距离与两眼内眼角的比值记为d₅,d₅＝f₅/m；

外眼角与左右嘴角的垂直距离与两眼内眼角的比值记为d₆,d₆＝f₆/m；

右外眼角与鼻尖组成的向量与两眼内眼角的比值记为d₇,d₇＝f₇/m；

右内眼角与鼻尖组成的向量与两眼内眼角的比值记为d₈,d₈＝f₈/m；

右外眼角与右嘴角组成的向量与两眼内眼角的比值记为d₉,d₉＝f₉/m；

鼻尖与右嘴角组成的向量与两眼内眼角的比值记为d₁₀,d₁₀＝f₁₀/m；

(3.2)学生语音的特征提取

(3.2.1)对加窗语音序列作离散傅里叶变换(DFT)

时域信号经过离散傅里叶变换(DFT)后得到线性频谱X_a(k)。

(3.2.2)获取能量谱

通过一组Mel尺度的三角形滤波器组。在频域对能量谱进行带通滤波，其中Mel频率滤波器组在语音的频谱范围内设置若干个带通滤波器H_m(k)，每个滤波器具有三角形滤波特性。

(3.2.3)计算滤波器组输出的对数能量。

(3.2.4)获取Mel频率谱系数(MFCC)

4.对学生面部表情情感、学生语音情感、学生学习成绩分类处理，本发明中情感分类也称为分类。

(4.1)学生面部表情分类处理

面部表情分类处理采用支持向量机的方法。支持向量机主要用于分类，是一种监督学习的应用程序，即通过样本训练建立输入输出映射规则。由于实际输入输出的映射关系常常是非线性的，因此常常需要先利用核函数将样本映射到高维空间再训练。综上，支持向量机可以用如下的优化问题表示：

其中w是超平面的参数向量，ζ_i是松弛变量，C＞0是对松弛变量的惩罚因子，

是特征量的映射函数，b是门槛值。

面部表情情感分类处理具体流程如下：

(4.1.1)支持向量机核函数选择。本发明使用径向基核函数(RBF)，具体公式参见公式(5)。

作为一种对应于非线性映射的核函数,RBF能够处理非线性可分的情况且只有一个可调参数,为以后的参数选择提供了方便。

(4.1.2)确定核函数的参数σ²及惩罚因子C的最佳取值。基于一对一分类方法进一步对惩罚因子C及RBF核函数的参数σ²进行参数搜索和交叉验证法获得性能较为优秀的支持向量机参数组合。这个问题本身是一个优化问题，变量是C和σ²,目标函数是SVM对应的测试集的识别率，这里使用网格搜索法来选择合适的参数。

网格搜索法(grid—search)就是这样一种试凑方法,适合从不同的增长方向并行搜索最优解。基于网格搜索法的参数选择方法需要事先给定参数的选择范围,即解区间,在此区间内以一定的步长逐个试验,找到适应度最高的参数作为算法输出(这里的适应度值一般取K折交叉验证的均方差)。使用网格搜索法寻找最优核参数的方法如下：

对C和σ²的指数增长序列C＝2^-2,2^-1,...2^-12,σ²＝2^-5,2^-4,...2⁸,2⁹进行遍历,对每一对参数组合(C,σ²)用5折交叉验证法计算识别率。最终选择最优的参数组合。

(4.1.3)训练SVM模型，使用函数的参数σ²及错误代价系数C的最佳取值，利用分层抽样法从视频中抽取学生人脸图像，训练SVM模型，得出人脸表情分类投票结果。

(4.1.4)测试SVM模型，得到识别率，如果识别率低于预期的识别率，则转向(4.1.3)继续训练，否则，进行下一步。识别率可参见公式(6)。

(4.1.5)识别分类，对投票结果归一化，记SVM算法的面部表情分类输出矩阵为(V_Dis,V_Hap,V_Qui),表示学生面部表情情感识别中输出烦躁、喜悦和平静3种情感的概率，得出面部表情分类结果。

(4.2)学生语音情感分类处理

利用滤波器组处理每一帧得到梅尔滤波器组特征，归一化操作后，对音频进行裁剪，语音情感分类具体过程详见实施例6。

(4.3)学生考试成绩分类处理

学生考试成绩按百分制记录，分成三个区间，分别对应三种情况：[80～100]代表喜悦；[60～80]代表平静；[0～60]代表烦躁。记输出矩阵为(S_Dis,S_Hap,S_Qui),表示成绩识别中输出烦躁、喜悦和平静的概率，例如，小王的总成绩为85，则输出矩阵为(0,1,0)。

5.决策层融合

基于多传感器的学生课堂掌握程度评估方法的目标是更客观的评价教学质量，本发明将学生的面部表情、学生语音和学生考试成绩各分类处理的输出结果融合，判断学生的情感。

当存在噪声干扰时,语音分类器的性能会发生下降；当视频传感器受到抖动、碰撞时,脸部表情分类器的性能会发生下降；当语音分类器和脸部表情分类器的判决结果一致时，就需要人工录入的考试成绩来更客观地评价学生的状况。这就需要在选择判决层融合算法时,考虑评价各个分类器在某一时刻的置信度，并根据分类器的输出置信度来进行融合判决。这里采用一种样本自适应的方法来衡量分类器对当前样本的判决是否可靠，对置信度高的分类器给予较高的融合权值，对于置信度低的分类器赋予较低的融合权值。

本发明中待识别的情感类别包括烦躁、喜悦和平静3个类别。对于3种分类器，均采用高斯混合模型(GMM)来进行每种情感类别的概率模型训练。

每个成员密度均为一维变量的关于均值矢量U_i和协方差矩阵Σ_i的高斯函数,GMM模型的参数估计采用EM算法迭代计算获得。

分类器(语音分类器、脸部表情分类器、成绩分类器)给出的3种情感类别GMM似然度分别记为,p(X|λ_k)其中k＝1,2,3时分别对应了这3种情感类别，其中1表示烦躁，2表示喜悦，3表示平静。当属于各个类别的GMM似然度基本相等时，认为该样本处于概率分布模型的重叠区域，该分类器的判决置信度较低；当分类器给出的似然度值较为分散时，则认为样本处于概率分布模型的非重叠区域，该分类器的判决置信度较高。因此,每个分类器的融合权值可参见公式(7)。

定义了分类器的融合权值后,对每个分类器的判决进行加权融合,则最终的分类器融合判决输出为参见式(8)。

最终的三种情感输出为

o_Dis＝w₁V_Dis+w₂A_Dis+w₃S_Dis

o_Hap＝w₁V_Hap+w₂A_Hap+w₃S_Hap

o_Qui＝w₁V_Qui+w₂A_Qui+w₃S_Qui

式中o_Dis是分类中烦躁的概率；o_Hap分类中喜悦的概率；o_Qui是分类中平静的概率，取其中最大的值作为学生的情感输出结果。

(6)教学评估

教学过程是师生双边活动过程，就是教与学的过程。教师的教和学生的学构成了教学过程的两个方面，一个方面是传授知识，一个方面是接受知识。近年来，中外许多教育心理学专家十分关心师生之间的关系对教学效果的影响，并进行了许多研究工作。

在实验的基础上，心理学家桑代克提出了三条学习定律：

(1)准备律。准备律是反应者的一种内部心理状态。一切反应是由个人的内部状况和外部情境所共同决定的。因此学习不是消极地接受知识，而是一种活动。学习者必须要有某种需要，体现为兴趣和欲望。此外良好的心理准备还应包括对该情境起反应所必不可少的素养和能力准备。

(2)练习律。练习律的实质就是强化刺激与反应的感应结。反应在情境中用得越多，它与这个情境发生的联结越牢固。反之，长期不用这个反应，这种联结就趋于减弱。后来，桑代克修改了这条定律，指出单纯的重复练习，不如对这个反应的结果给以奖赏取得的效果更大些。

(3)效果律。效果律强调个体对反应结果的感受将决定个体学习的效果。即如果个体对某种情境所起的反应形成可变联结之后伴随着一种满足的状况，这种联结就会增强；反之，如果伴随的是一种使人感到厌烦的状况，这种联结就会减弱。桑代克在20世纪30年代进一步考察了这条定律，发现，感到满足比感到厌烦能产生更强的学习动机，因此他修正了效果律，更强调奖赏，而不大强调惩罚。

该定律强调刺激与反应形成的一切联结都以应用和满足而增强，以失用和烦恼而减弱。因此教育必须遵循这两条主要的学习定律。

结合以上桑代克的实验结果，分析本发明的融合结果并给出教学建议，参见图5：

(1)学生听懂时：从教师和学生的角度讲，说明二者在教学过程中配合得很好。学生喜欢民主、平等型的课堂，期待得到老师的赞扬和鼓励。营造民主、平等，放得开、收得拢的课堂才能成为学生吸取知识张扬个性的场所，课堂才会涌动出师生生命的活力。学生应从准备律和练习律入手，争取保持一个良好的学习习惯；教师应从准备律、练习律和效果律入手，为引导学生做好准备。

(2)学生没听懂时：从教师角度来说，教师应当了解有效的学习必须建立在学生对学习有强烈的兴趣和喜悦上。有鉴于此，教师应当先将作业中的乐趣讲给学生听，或以自己的热情激起学生的准备；要仔细地规定和严格地控制反应的顺序，通过不断的练习，最终形成所需的习惯；要注意学生在练习过程中是否疲劳和厌倦；要注意学习内容的难易程度，不可使学生感到十分困难，因而导致气馁。从学生角度来说，要培养自己的学习习惯，如课前预习，课上积极与老师互动，课后及时复习等，这些微不足道的学习习惯其实在学习中发挥着很重要的作用；学习兴趣兴趣是最好的老师，在学习过程中，培养对学习内容的兴趣，就不会觉得学习是件苦差事才会学得真实，学得牢固，掌握灵活的方法。

(3)学生似懂非懂时：无论教师还是学生，应借鉴学生没听懂时的建议。对教师而言，要反思自己所采用的教学方法是否有利于培养学生的创新能力，教学设计是还切合实际，行之有效。目的在于不断更新教学观念，改善教学行为，提升教学水平，同时养成教师对自己教学现象、教学问题的独立思考和创新性见解，真正成为教学和教研的主人。对学生来说，做好课前准备工作，课上与老师积极互动，课后有问题及时解决。培养良好的学习习惯及学习兴趣，对自身很重要。

实施例9：

基于多传感器的学生课堂掌握程度评估系统和方法同实施例1-8，如图4所示GMM的参数初始化和参数训练，包括有以下步骤：

(1)GMM的参数初始化

在使用GMM模型之前,需要对模型的参数λ＝[a,μ,Σ]进行初始化设置。算法的输入：聚类个数K，以及分类器输出结果。其中K为3(3种情感分类状态)，输出：满足方差最小标准的K个聚类。

处理流程：

(la)从分类器输出结果中任意选择K个对象作为初始聚类中心；

(1b)循环(1c)、(1d)步直到每个聚类不再发生变化为止；

(1c)根据每个聚类对象的均值(质心),计算每个对象与这些中心对象的距离，并根据最小距离重新对相应对象进行划分；

(1d)重新计算每个(有变化)的聚类的均值，至此，得到了GMM模型的初始参数

λ＝[a,μ,Σ]。

(2)GMM模型的参数训练

GMM模型的训练就是给定一组训练数据，依据某种准则确定模型的参数。常用的参数训练方法是最大似然(ML)估计。最大似然估计是把待估计的量看成固定但未知的量，然后求出能够使学习样本出现概率最大的参数值，并把它作为参数的估值。

对于一组长度为D的训练矢量序列X＝{x₁,x₂,...x_D},GMM的似然度可以表示为：

由于上式是参数λ的非线性函数，直接求出上式的最大值。因此，常常采用期望最大化EM算法估计参数λ。

EM过程包括以下两步：

(2a)E-step：计算训练数据落在状态i的概率p(i_t＝i|x_t,λ)；

(2b)M-step：以局部最大准则估计参数λ。

EM算法假设任一样本出自模型的哪个高斯成员这一信息是可知的，来简化极大似然的优化目标函数，分别经过E-step求出期望值和M-step调整模型参数最大化目标函数来逐步收敛。

EM算法的计算是从参数λ＝[a,μ,Σ]的初始值开始，采用EM算法估计出一个新的参数λ'，使得新的模型参数下的似然度p(x|λ')＞p(x|λ)。新的模型参数λ'再作为当前参数进行训练，这样迭代运算直到模型收敛。

本发明提供了一种基于多传感器的学生课堂掌握程度评估系统与方法，其实现包括，学生数据采集；学生面部图像序列和语音序列分别进行预处理；学生面部表情特征向量和语音特征提取；对学生面部表情、学生语音、学生考试成绩分类处理；使用高斯混合模型(GMM)融合分类结果；融合结果分析。本发明在语音，采用了深度学习中的卷积神经网络(CNN)，避免复杂的人工特征向量提取操作；采用了高斯混合模型(GMM)方法使各分类器分类置信度随样本分布而定，实现了自适应融合。本发明本着学生面部表情、学生语音、学生考试成绩相结合的思路，设计出一种基于多传感器的学生课堂掌握程度评估系统和方法。更客观、更准确的评估课堂学生掌握状况。能对课堂上学生的掌握状况作出判断并给出教学评估结果及相应建议。

Claims

1.一种基于多传感器的学生课堂掌握程度评估方法，需要录制学生课堂正面人脸视频和音频信息，其特征在于，包括有以下步骤：

(1)学生数据采集，其中学生面部表情通过摄像头视频采集、学生语音通过麦克风音频采集、学生考试成绩手工录入，视频数据和音频数据同步采集，在每次学生视频和音频同步录制中，进行一次课堂考试作为采集的学生考试成绩；

(2)对采集到的学生视频和音频数据分别作初步处理，其中对学生视频数据初步处理是以均等时间间隔为单位提取图像序列，均等时间间隔表示为t₀,t₁,...t_n；学生音频数据初步处理是从音频中提取语音序列，该语音序列包含已采集图像序列对应时间间隔点的语音，其中第一个语音序列包含t₀点的语音，第二个语音序列包含t₁点的语音......，第n+1个语音序列包含t_n点的语音；

(3a)对学生图像序列灰度化；

(3b)对灰度图像序列进行直方图均衡化操作；

(3c)对均衡化后的图像序列使用迭代弱分类器方法获取学生人脸头像序列；

对学生语音序列的预处理是：

(3e)对离散语音序列分帧并加汉明窗，完成语音预处理；

(4b)从图像标识出的特征点中获取10人脸表情特征向量；

对学生语音特征提取是：

(4c)对语音序列作离散傅里叶变换，获取语音序列各帧的频谱，对频谱取模平方得到语音信号的能量谱；

(4d)语音信号能量谱通过一组Mel尺度的三角形滤波器组；

(4e)针对滤波器组输出结果，计算对数能量并归一化，再进行反离散余弦得到Mel频率倒谱系数，获取语音特征；

(5)分别对学生面部表情、学生语音、学生考试成绩分类处理：

(5a)将人脸表情特征向量输入到支持向量机判段表情的类别，输出面部表情分类结果；

(5b)将Mel频率倒谱系数即语音特征，输入到卷积神经网络判断语音的类别，记使用卷积神经网络算法的语音分类输出矩阵为(A_Dis,A_Hap,A_Qui)，表示语音分类识别中输出烦躁、喜悦和平静的概率，输出学生语音分类结果；

(6)将学生面部表情分类结果、学生语音分类结果、学生考试成绩分类结果使用高斯混合模型融合，输出融合结果表述为烦躁、喜悦和平静；

(7)融合结果分析，给出课堂学生反映情况及教学建议。

2.根据权利要求1所述的基于多传感器的学生课堂掌握程度评估方法,其特征在于，步骤(5a)中判断学生面部表情所属类别使用的SVM分类,包括有如下步骤：

(5a1)SVM中的核函数选择，使用径向基核函数；

(5a2)使用网格搜索法确定核函数的参数σ²及错误代价系数C的最佳取值；

(5a3)训练SVM模型，使用函数的参数σ²及错误代价系数C的最佳取值，利用分层抽样法从视频中抽取学生人脸图像，训练SVM模型，得出学生面部表情分类投票结果；

(5a4)测试SVM模型，得到识别率，如果识别率低于预期的识别率，则转向(5a3)继续训练，否则，进行下一步；

(5a5)识别分类，对投票结果归一化，记SVM算法的面部表情分类输出矩阵为(V_Dis,V_Hap,V_Qui),表示学生面部表情识别中输出烦躁、喜悦和平静3种类别概率，得出面部表情分类结果。

3.根据权利要求2所述的基于多传感器的学生课堂掌握程度评估方法,步骤(6)中利用高斯混合模型的方法对各分类器分类结果融合,包括有如下步骤：

(6a)获取GMM模型参数，将各分类器的分类输出作为训练样本，通过最大似然估计和EM算法针对训练样本得到GMM模型参数，GMM模型参数表示如下：

λ_i＝{a_i,μ_i,Σ_i}i＝1,2,...M

其中，a_i表示混合权值，μ_i表示均值矢量，Σ_i表示协方差矩阵；

(6b)利用得到的GMM模型参数来获取各分类器的融合权值W_j

式中,GMM似然度分别记为p(X|λ_k)，其中k、m、n值为1,2,3时分别对应了三种分类类别，其中1表示烦躁，2表示喜悦，3表示平静；j为子分类器编号,j＝1,2,3，其中1表示面部表情分类器，2表示语音分类器，3表示考试成绩分类器；

(6c)对每个分类器分类结果加权融合,得到总的融合输出为

最终的三种分类输出为

o_Dis＝w₁V_Dis+w₂A_Dis+w₃S_Dis

o_Hap＝w₁V_Hap+w₂A_Hap+w₃S_Hap

o_Qui＝w₁V_Qui+w₂A_Qui+w₃S_Qui

4.一种基于多传感器的学生课堂掌握程度评估系统，该系统是在权利要求1、2、3所述方法的基础上搭建而成,其特征在于，信息来源模块有3个，分别是视频采集模块、音频采集模块、成绩录入模块，其中视频采集模块和面部表情分类器模块连接输出面部表情分类结果，音频采集模块和语音分类器模块连接输出语音分类结果，成绩录入模块和成绩分类器模块连接输出成绩分类结果，上述3个分类结果均输入到决策融合模块中，决策融合模块的输出连接到课堂教学学生反映评估及建议模块中，课堂教学学生反映评估及建议模块给出学生课堂反映评估结果及建议，其中各模块分述如下：

面部表情分类器模块，用于对采集到的学生人脸图像进行情感分类，首先对所有的人脸图像使用基于Gabor特征的增强分类器方法对人脸特征点自动定位，然后提取10个特征向量，最后使用面部表情分类器对同一人的不同人脸表情进行分类，给出面部表情分类结果，结果表述为烦躁、喜悦和平静，作为样本输入到决策融合模块；

语音分类器模块，对语音信号进行情感分类，给出语音分类结果，结果表述为烦躁、喜悦和平静，作为样本输入到决策融合模块；首先获取语音信号的能量谱，语音信号的能量谱通过梅尔尺度的三角形滤波器组，计算其对数能量并归一化，输入到卷积神经网络进行语音特征映射分类，给出语音情感分类结果，作为样本输入到决策融合模块；