CN116304973A

CN116304973A - 一种基于多模态融合的课堂教学情感识别方法和系统

Info

Publication number: CN116304973A
Application number: CN202310121267.5A
Authority: CN
Inventors: 郑伟发; 林聪�; 林韩辉; 程培宇
Original assignee: Guangdong University of Business Studies
Current assignee: Guangdong University of Business Studies
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-06-23

Abstract

本发明提供一种基于多模态融合的课堂教学情感识别方法，所述方法包括：首先收集文本、语音和视频数据，并分别对文本、语音和视频数据进行特征提取预处理；建立多模态情感识别模型，使用经过预处理的文本、语音和视频数据对多模态情感识别模型进行训练，获得训练好的多模态情感识别模型；采集课堂学生的文本信息、语音信号和视频信号并分别进行特征提取预处理；将预处理后的文本信息、语音信号和视频信号分别输入到训练好的多模态情感识别模型进行情感分析，获取情感状态分类结果；根据情感状态分类结果计算学生的课堂情感状态。与现有技术相比，本发明通过文本、语音和视频三个模态来训练模型和对课堂情感进行识别，提高了课堂情感识别的准确性。

Description

一种基于多模态融合的课堂教学情感识别方法和系统

技术领域

本发明涉及情感识别领域，更具体地，涉及一种基于多模态融合的课堂教学情感识别方法和系统。

背景技术

情感是人对客观的事物能否满足自己的需求而产生的心理认知或者体验态度，在人们的沟通交流过程中传递出十分重要的信息。人的情感包括生气(Anger)、厌恶(Disgust)、害怕(Fear)、高兴(Joy)、悲伤(Sadness)、惊奇(Surprise)、担心(Worry)和焦虑(Anxiety)等。教师在课堂教学过程中会因为学生的听课状态出现不同的情感；同样，学生在课堂学习过程中会因为教学的难易程度以及教师教学方式的不同而出现情感变化。通过对课堂上教师、学生情感表现进行识别，有利于分析课堂上教与学的协调程度。例如通过学生回答问题的语调可以判断学生是否能够掌握教师所教授的知识，通过对学生听课时的面部表情可以判断学生是否走神等。

随着人工智能技术的不断发展，近几年出现了文本情感识别、语音情感识别等单模态的情感识别。但是，人们在表达某种情感时通常会通过语言表达、表情、动作、语音语调等多种方式来表现，单模态的情感识别往往很难准确反映真实情感。因此，为提高课堂教学情感识别的准确率，本方案采用文本、语音、视频融合的多模态情感识别，在文本的基础上，加入了语音语气、面部表情等多模态信息，更加有效地分析判断教师和学生的情感。

发明内容

本发明旨在克服上述现有技术的至少一种缺陷，提供一种基于偶模态融合的课堂教学情感识别方法和系统，用于实现基于多模态对课堂情感状态进行分析，提高对课堂情感状态分析的准确率。

本发明采取的技术方案为：

一种基于多模态融合的课堂教学情感识别方法，其特征在于，所述方法包括：

S1：收集文本、语音和视频数据，并分别对文本、语音和视频数据进行特征提取预处理；

S2：建立多模态情感识别模型，使用经过特征提取预处理的文本、语音和视频数据对多模态情感识别模型进行训练，获得训练好的多模态情感识别模型；

S3：采集课堂学生的文本信息、语音信号和视频信号并分别进行特征提取和归一化预处理；

S4：将预处理后的文本信息、语音信号和视频信号分别输入到训练好的多模态情感识别模型进行情感分析，获取情感状态分类结果；

S5：根据情感状态分类结果计算学生的课堂情感状态；

其中，所述多模态情感模型包括BiGRU特征提取层、特征融合层和情感识别层；所述BiGRU特征提取层用于对输入的文本、语音和视频数据进行特征提取，所述特征融合层用于对由BiGRU特征提取层特征提取后的特征数据进行特征融合，所述情感识别层用于对由特征融合层特征融合后的数据进行情感识别；

所述情感识别层输出的情感状态分类结果为-1(消极)、0(中性)或1(积极)。

通过建立多模态情感模型的方式，从文本，语音和视频三个方面来对学生课堂的情感状态进行分析，并将多模态情感识别模型分为BiGRU特征提取层，特征融合层和情感识别层，BiGRU特征提取层对文本、语音和视频数据进行特征提取并统一数据格式，然后晶格特征融合层，将三种不同模态的数据进行融合进行数据的对齐，再由情感识别层进行情感识别，使训练好的模型能够更全面的准确的对学生的课堂状态进行分析。本发明的方案除了可以对课堂学生的情感状态进行分析，也可以使用本发明的方案分析教师的情感状态。

进一步的，所述收集文本数据和对文本数据预处理包括：

将文本数据对应的语音数据和视频数据中的语音转录为文本文字信息，并对文本进行对齐和归一化；

将所述预处理后的文本采用预训练文本编码模型进行向量编码处理，将文本转换为文本特征模型模态X_t。

优选的，本发明的技术方案中采用Google BERT-Base-Chinese预训练文本编码模型对文本进行编码。BERT模型采用了Transformer编码器，所以能够捕捉长距离的依赖特征。相比于以往的预训练模型，BERT模型具有非常大的优势。

进一步的，所述对语音进行特征提取预处理包括：

使用音频处理工具提取声学特征，形成声学特征模态X_a。

优选的，本发明的技术方案中采用Librosa语音工具包进行声学特征的提取。总共提取33个维度的帧级声学特征，包括1维对数基频(log F0)、20维梅尔倒频谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)和12维Constant-Q chromatogram(CQT)。将提取的声学特征形成声学特征模态X_a，X_a为33维的原始声学特征。

进一步的，所述对视频进行特征提取预处理包括：

采用人脸分析工具对视频中的人脸提取人脸特征，形成视频特征模态X_v。

优选的，本发明的技术方案以30Hz的频率从视频片段中提取帧，使用多任务卷积神经网络(Multi-task Convolutional Neural Network,MTCNN)人脸检测算法提取人脸，然后使用MultiComp OpenFace2.0工具包提取面部标志、面部形状参数、面部特征、头部姿势、头部方向和眼睛注视等信息，本方案提取68个面部地标、17个面部动作单元、头部姿势、头部方向和眼睛注视的集合，最后，共提取709个维度的帧级视觉特征。X_v为709维的原始视觉特征。

进一步的，所述BiGRU特征提取层包括：文本特征提取BiGRU层、语音特征提取BiGRU层和视频特征提取BiGRU层；

所述文本特征提取BiGRU层、语音特征提取BiGRU层和视频特征提取BiGRU层包括BiGRU模型，所述BiGRU模型由两个单相的且方向相反的门控制循环单元(GRU)构成。

将BiGRU特征提取层分为文本特征提取BiGRU层、语音特征提取BiGRU层和视频特征提取BiGRU层并分别对文本、语音和视频特征进行提取，可以分别对文本、语音和视频特征进行提取，分别针对文本、语音和视频的特点对文本特征提取BiGRU层、语音特征提取BiGRU层和视频特征提取BiGRU层的BiGRU模型进行设置，用以匹配对应的输入特征：

在文本特征提取BiGRU层将Pytorch的nn.GRU函数的bidirectional参数设置为true，GRU的层数设置为1，输入初始维度为768，隐藏层特征维度为50，结果输出长度为100的文本特征向量。

在语音特征提取BiGRU层将Pytorch的nn.GRU函数的bidirectional参数设置为true，GRU的层数设置为1，输入初始维度为33，隐藏层特征维度为50，结果输出长度为100的文本特征向量。

在视频特征提取BiGRU层将Pytorch的nn.GRU函数的bidirectional参数设置为true，GRU的层数设置为1，输入初始维度为709，隐藏层特征维度为50，结果输出长度为100的文本特征向量。

文本、语音和视频特征经过BiGRU特征提取层进行特征提取后的维度统一为100，方便了后续的融合分析。

进一步的，所述特征融合层包括加入注意力机制的神经网络结构。

通过加入注意力机制能够很好的优化文本、语音和视频特征的权重，使特征进行更好的融合，提高模型训练的精确度，进而提高模型预测的准确性。

进一步的，所述对多模态情感识别模型进行训练的具体步骤包括：

A1：通过注意力机制建立并初始化情感识别权重矩阵W；

A2：分别设置文本特征提取BiGRU层、语音特征提取BiGRU层和视频特征提取BiGRU层参数；

A3：将文本向量模态X_t输入文本特征提取BiGRU层，获得文本特征向量集F_t＝BiGRU(X_t)；

A4：将声学特征模态X_a输入语音特征提取BiGRU层，获得语音特征向量集F_a＝BiGRU(X_a)；

A5：将视频特征模态X_v输入视频特征提取BiGRU层，获得视频特征向量集F_v＝BiGRU(X_v)；

A6：将文本特征向量集F_t、语音特征向量集F_a和视频特征向量集F_v输入特征融合层进行拼接，获得初始特征融合向量

A7：将初始特征融合向量

与情感权重矩阵相乘后进行级联，更新情感识别权重矩阵W，输出特征融合向量F；

A8：将特征融合向量F输入情感识别层，计算特征融合向量F的情感状态分类结果；

A9：重复执行步骤A3-A8直至多模态情感识别模型的损失函数收敛，获得训练好的多模态情感识别模型。

进一步的，在步骤A7中的将级联后的矩阵输入特征融合层对特征融合层，并更新情感识别权重矩阵W，输出特征融合向量F具体包括：

B1：计算所述注意力机制的注意力分数：

式中，u_i表示第i个时刻不同特征所对应的注意力分数，

表示第i时刻的特征向量,tanh是激活函数，W_a是预设的权重系数矩阵，表示随机初始化的注意力矩阵，b_a是偏移向量；

B2：根据注意力分数更新情感识别权重矩阵：

式中，a_i表示第i个特征对应的权重，T为转置运算符，u_a为注意力向量，S是训练样本序列的数量；

B3：使用更新后的情感识别权重矩阵更新注意力机制的隐藏层状态值：

式中，C_i表示考虑权重的注意力机制的特征向量，S为是训练样本序列的数量；

B4：对C_i执行Dropout操作：

D_i＝Dropout(C_i)

B5：选用Sigmoid函数为激活函数，计算特征融合向量F：

F_i＝Sigmoid(W_oD_i+b_o)

式中，F_i为第i时刻考虑了权重的特征融合向量，W_o是当前的待训练的特征融合层的参数矩阵，b_o是当前的待训练的特征融合层的偏置向量。

通过注意力机制引入情感识别权重矩阵，以情感识别权重矩阵和

相乘后级联，然后通过对模型的训练，在不断优化模型的过程中，所述情感识别权重矩阵也在不断更新优化，最终会得到一个最优的情感识别权重矩阵，通过最优的情感识别权重矩阵，能够计算得到各个特征的最优的特征融合向量，获得最优的特征融合向量F，以该最优的特征融合向量F进行情感分析得到的结果更准确。

进一步的，所述计算特征融合向量F的情感状态分类结果为：

y＝Softmax(F_i)

式中，y是分类标签，Softmax函数为激活函数；

所述y为特征融合向量F的情感状态分类结果，表现为-1(消极)、0(中性)或1(积极)。

本发明还提供一种基于多模态融合的课堂教学情感识别系统，所述系统包括信息收集处理模块、模型计算模块和数据分析模块；

所述信息收集处理模块用于收集用于模型训练的课堂的视频数据和语音数据，将视频数据和语音数据中的语音转录为文本数据，并将文本数据，语音数据和视频数据分别进行预处理形成训练集；所述信息收集处理模块用于收集课堂实时视频信号和语音信号，将视频信号和语音信号中的语音转录为文本信号，并将文本信号，语音信号和视频信号分别进行预处理，形成识别信号供模型计算模块进行情感识别；

所述模型计算模块包括所述多模态情感识别模型，所述模型计算模块用于对所述情感识别模型进行训练，和对所述识别信号进行情感识别，输出课堂学生的情感状态分类结果到数据分析模块；

所述数据分析模块用于接收模型计算模块输出的情感状态分类结果来计算学生的课堂情感状态。

与现有技术相比，本发明的有益效果为：

1.通过对课堂文本、语音和视频信息进行分析，采用多模态的方式来分析学生的课堂情感状态，提高情感识别的准确度；

2.通过BiGRU特征提取层分别对文本、语音和视频特征进行特征提取后，再通过加入注意力机制的特征融合层进行特征融合，使文本、语音和视频特征更好的进行融合，使得到的结果更准确。

附图说明

图1为本发明的一种基于多模态融合的课堂教学情感识别方法步骤流程图。

图2为本发明的多模态情感识别模型的结构图。

图3为本发明的多模态情感识别模型进行训练的步骤流程图。

图4为本发明的特征融合层进行融合和输出的步骤流程图。

图5为本发明的一种基于多模态融合的课堂教学情感识别系统的系统结构图。

附图标注：BiGRU特征提取层1，文本特征提取BiGRU层11，语音特征提取BiGRU层12，视频特征提取BiGRU层13，特征融合层2，情感识别层3，信息收集处理模块4，模型计算模块5，数据分析模块6。

具体实施方式

本发明附图仅用于示例性说明，不能理解为对本发明的限制。为了更好说明以下实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

实施例1

如图1所示，本实施例提供一种基于多模态融合的课堂教学情感识别方法，所述方法包括：

在本步骤中收集文本、语音和视频数据是为了构建后续进行模型训练的训练集，在本实施例中，采用CH-SIMS来收集训练集，收集60个原始视频，这些视频来自不同的对人物情感识别具有参考价值的电影、电视剧和综艺。并通过这些视频进行裁剪，获取视频片段，这些视频片段需要包括人物的自发的表情、头部姿势、具有不同程度的遮挡、不同的照明效果、不同的语音语气和不同的台词内容，并对每个视频片段进行人工标志，将视频片段的对应情感状态分类结果标注为-1(消极)、0(中性)和1(积极)。在标志完成后，对对应视频片段中的文本、语音和视频数据进行收集。

其中，收集文本数据包括将文本数据对应的语音数据和视频数据中的语音转录为文本文字信息，为了提高训练的精度，转录过程可以通过人工进行。在获得了文本文字信息后，还需要对文本文字信息进行预处理，在本实施例中，对文本的预处理具体为，采用Google BERT-Base-Chinese预训练文本编码模型对文本进行向量编码，BERT模型采用了Transformer编码器，所以能够捕捉长距离的依赖特征，相比于以往的预训练模型，BERT模型具有更大的优势，更适合课堂环境下转录的文本特征。通过向量编码，将文本文字转为文本向量模态X_t。

在本实施例中，对音频数据的预处理具体为，采用Librosa语音工具包对语音数据进行声学特征的提取，总共提取33个维度的帧级声学特征，包括1维对数基频(log F0)、20维梅尔倒频谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)和12维Constant-Qchromatogram(CQT)。对声学特征提取后形成声学特征模态X_a，由于提取了33个维度的声学特征，所以X_a为维度为33维的原始声学特征。

在本实施例中，对视频数据的预处理具体为，采用多任务卷积神经网络(Multi-task Convolutional Neural Network,MTCNN)人脸检测算法提取人脸，以30Hz的频率从视频片段中提取帧，然后使用MultiComp OpenFace2.0工具包提取面部标志、面部形状参数、面部特征、头部姿势、头部方向和眼睛注视等信息，本实施例提取68个面部地标、17个面部动作单元、头部姿势、头部方向和眼睛注视的集合，最后，供提取709个维度的帧级视觉特征，形成视频特征模态X_v，所形成的X_v为维度为709维的原始视觉特征。

其中，如图2所示，所述多模态情感模型包括BiGRU特征提取层1、特征融合层2和情感识别层3；所述BiGRU特征提取层1用于对输入的文本、语音和视频数据进行特征提取，所述特征融合层2用于对由BiGRU特征提取层1特征提取后的特征数据进行特征融合，所述情感识别层3用于对由特征融合层2特征融合后的数据进行情感识别；

具体的，所述BiGRU特征提取层1包括：文本特征提取BiGRU层11、语音特征提取BiGRU层12和视频特征提取BiGRU层13；

所述文本特征提取BiGRU层11、语音特征提取BiGRU层12和视频特征提取BiGRU层13包括BiGRU模型，所述BiGRU模型由两个单相的且方向相反的门控制循环单元(GRU)构成。通过上述可以知道，经过预处理后的文本向量模态I、声学特征模态X_a和视频特征模态X_v分别具有不同的维度，并且数据结构也不相同，还不能够进行特征融合，所以通过BiGRU特征提取层1来分别对其进行进一步的特征提取，使其具有相同的维度，并统一数据格式，方便进行特征融合，为此，特地设置了文本特征提取BiGRU层11、语音特征提取BiGRU层12和视频特征提取BiGRU层13来分别对文本、语音和视频的特征分别进行特征提取，因为对不同的数据模态需要为其设置对应BiGRU模型的参数进行特征提取，具体的：

在文本特征提取BiGRU层11将Pytorch的nn.GRU函数的bidirectional参数设置为true，GRU的层数设置为1，输入初始维度为768，隐藏层特征维度为50，结果输出长度为100的文本特征向量。

在语音特征提取BiGRU层12将Pytorch的nn.GRU函数的bidirectional参数设置为true，GRU的层数设置为1，输入初始维度为33，隐藏层特征维度为50，结果输出长度为100的语音特征向量。

在视频特征提取BiGRU层13将Pytorch的nn.GRU函数的bidirectional参数设置为true，GRU的层数设置为1，输入初始维度为709，隐藏层特征维度为50，结果输出长度为100的视频特征向量。

由此，经过特征提取后，文本、语音和视频特征的维度都被统一为100，并且数据结构都相同，可以进行进一步的特征融合。

虽然文本、语音和视频特征的数据结构已经统一，但是实际上通过文本、语音和视频特征判断情感的倾向是不同的，所以在特征融合层2中加入了注意力机制，调整训练过程中文本、语音和视频特征的判断倾向，使最后获得的融合特征更精确。

在获得融合特征后，还需要在情感识别层3对融合特征进行分析，所述情感识别层3采用层数为1的卷积神经网络，激活函数选择Softmax激活函数。

使用经过特征提取预处理的文本、语音和视频数据形成的训练集对具有上述结构的多模态情感识别模型进行训练，如图3所示，具体步骤包括：

A1：通过注意力机制建立并初始化情感识别权重矩阵W；

A2：分别设置文本特征提取BiGRU层11、语音特征提取BiGRU层12和视频特征提取BiGRU层13参数；

A3：将文本向量模态I输入文本特征提取BiGRU层11，获得文本特征向量集F_t＝BiGRU(X_t)；

A4：将声学特征模态X_a输入语音特征提取BiGRU层12，获得语音特征向量集F_a＝BiGRU(X_a)；

A5：将视频特征模态X_v输入视频特征提取BiGRU层13，获得视频特征向量集F_v＝BiGRU(X_v)；

经过步骤A3、A4和A5后，获得统一数据结构和维度的F_t、F_a和F_v。

A6：将文本特征向量集F_t、语音特征向量集F_a和视频特征向量集F_v进行拼接，获得初始特征融合向量

A7：将初始特征融合向量

与情感权重矩阵相乘后进行级联，将级联后的矩阵输入特征融合层2对特征融合层2，并更新情感识别权重矩阵W，输出特征融合向量F；

具体的，如图4所示，该步骤包括：

B1：计算所述注意力机制的注意力分数：

式中，u_i表示第i个时刻不同特征所对应的注意力分数，/>

B2：根据注意力分数更新情感识别权重矩阵：

式中，a_i表示第i个时刻的注意力权重，T为转置运算符，u_a为注意力向量，S是训练样本序列的数量；

B3：使用更新后的情感识别权重矩阵更新特征向量：

B4：对C_i执行Dropout操作：

D_i＝Dropout(C_i)

B5：选用Sigmoid函数为激活函数，计算特征融合向量F：

F_i＝Sigmoid(W_oD_i+b_o)

在本实施例中，

由F_t、F_a和F_v拼接而成，而F_t、F_a和F_v各自的维度均为100，所以拼接后的/>

维度为300，计算生成的特征融合向量F的数据数量为300。

A8：将特征融合向量F输入情感识别层3，计算特征融合向量F的情感状态分类结果；

具体为根据下述公式计算：

y＝Softmax(F_i)

式中，y是分类标签，Softmax函数为激活函数；

根据上述描述，在进行模型训练的过程中，模型本身在不断的优化，同时，基于注意力机制的情感识别权重矩阵也在不断更新优化，当模型训练的损失函数收敛或得到最优的情感识别权重矩阵时，训练结束，获得训练好的多模态情感识别模型。然后使用训练好的模型来对课堂学生的情感状态进行识别。

采集课堂学生的文本信息、语音信号和视频信号为通过现有技术的对应采集工具对文本信息、语音信号和视频信号进行采集，其中文本信息为通过转录工具将语音信号和视频信号中的语音内容转录而成，而预处理的方法与上述预处理的方法相同。

S5：根据情感状态分类结果计算学生的课堂情感状态；

经过情感识别层3输出的情感状态分类结果为-1(消极)、0(中性)或1(积极)。根据情感识别层3输出的情感状态分类结果计算学生的课堂情感状态具体为：

在每堂课的时间t内，进行k次情感识别，统计时间t内出现情感状态分类结果为消极的次数Count_neg和积极的次数Count_pos，然后获得学生课堂情感状态：

当Class＝1表示为积极状态，Class＝-1表示为消极状态。

通过一定时间内多次进行情感识别的方式，对多次情感识别结果进行统计分析，使得到的学生课堂情感状态更准确。

实施例2

如图5所示，本实施例提供一种基于多模态融合的课堂教学情感识别系统，所述系统包括信息收集处理模块4、模型计算模块5和数据分析模块6；

所述信息收集处理模块4用于收集用于模型训练的课堂的视频数据和语音数据，将视频数据和语音数据中的语音转录为文本数据，并将文本数据，语音数据和视频数据分别进行预处理形成训练集；所述信息收集处理模块4用于收集课堂实时视频信号和语音信号，将视频信号和语音信号中的语音转录为文本信号，并将文本信号，语音信号和视频信号分别进行预处理，形成识别信号供模型计算模块5进行情感识别；

所述模型计算模块5包括所述多模态情感识别模型，所述模型计算模块5用于对所述情感识别模型进行训练，和对所述识别信号进行情感识别，输出课堂学生的情感状态分类结果到数据分析模块6；

所述数据分析模块6用于接收模型计算模块5输出的情感状态分类结果来计算学生的课堂情感状态。

显然，本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例，而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于多模态融合的课堂教学情感识别方法，其特征在于，所述方法包括：

S1：收集文本、语音和视频数据，并分别对文本、语音和视频数据进行特征提取预处理，形成时间序列数据；

S5：根据情感状态分类结果计算学生的课堂情感状态；

2.根据权利要求1所述的一种基于多模态融合的课堂教学情感识别方法，其特征在于，所述收集文本数据和对文本数据预处理包括：

将文本数据对应的语音数据和视频数据中的语音转录为文本文字信息，并对文本进行对齐和归一化预处理；

将所述预处理后的文本采用预训练文本编码模型进行向量编码处理，将文本转换为文本特征模态X_t。

3.根据权利要求2所述的一种基于多模态融合的课堂教学情感识别方法，其特征在于，所述对语音进行特征提取和归一化预处理包括：

使用音频处理工具提取声学特征，形成声学特征模态X_a。

4.根据权利要求3所述的一种基于多模态融合的课堂教学情感识别方法，其特征在于，所述对视频进行特征提取预处理包括：

采用人脸分析工具对视频中的人脸提取人脸特征并进行归一化处理，形成视频特征模态X_v。

5.根据权利要求4所述的一种基于多模态融合的课堂教学情感识别方法，其特征在于，所述BiGRU特征提取层包括：文本特征提取BiGRU层、语音特征提取BiGRU层和视频特征提取BiGRU层；

6.根据权利要求5所述的一种基于多模态融合的课堂教学情感识别方法，其特征在于，所述特征融合层包括加入注意力机制的神经网络结构。

7.根据权利要求6所述的一种基于多模态融合的课堂教学情感识别方法，其特征在于，所述对多模态情感识别模型进行训练的具体步骤包括：

A1：通过注意力机制建立并初始化情感识别权重矩阵W；

A3：将文本向量模态X_t输入文本特征提取BiGRU层，获得文本特征向量集

F_t＝BiGRU(X_t)；

A4：将声学特征模态X_a输入语音特征提取BiGRU层，获得语音特征向量集

F_a＝BiGRU(X_a)；

A5：将视频特征模态X_v输入视频特征提取BiGRU层，获得视频特征向量集

F_v＝BiGRU(X_v)；

A7：将初始特征融合向量

8.根据权利要求7所述的一种基于多模态融合的课堂教学情感识别方法，其特征在于，在步骤A7中的将级联后，更新情感识别权重矩阵W，输出特征融合向量F具体包括：

B1：计算所述注意力机制的注意力分数：

式中，u_i表示第i时刻不同特征对应的注意力分数，

表示第i时刻的特征向量，tanh是激活函数，W_a是预设的权重系数矩阵，表示随机初始化的注意力矩阵，b_a为偏移量；

B2：根据注意力分数更新情感识别权重矩阵：

式中，a_i表示第i时刻的注意力权重，T为转置运算符，u_a是注意力向量，s是训练样本序列的数量；

B3：使用更新后的情感识别权重矩阵更新特征向量：

B4：对C_i执行Dropout操作：

D_i＝Dropout(C_i)

B5：选用Sigmoid函数为激活函数，计算特征融合向量F：

F_i＝Sigmoid(W_oD_i+b_o)

9.根据权利要求1-8任一项所述的一种基于多模态融合的课堂教学情感识别方法，其特征在于，所述计算特征融合向量F的情感状态分类结果为：

y＝Softmax(F_i)

式中，y是分类标签，Softmax函数为激活函数；

10.一种基于多模态融合的课堂教学情感识别系统，其特征在于，所述系统包括信息收集处理模块、模型计算模块和数据分析模块；