CN113592251A

CN113592251A - 一种多模态融合的教态分析系统

Info

Publication number: CN113592251A
Application number: CN202110781512.6A
Authority: CN
Inventors: 卢宇; 余京蕾; 余胜泉
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2021-11-02
Anticipated expiration: 2041-07-12
Also published as: CN113592251B

Abstract

本发明提出一种多模态融合的教态分析系统，包括预处理模块、识别模块和教态输出模块；预处理模块，用于接收并预处理时间同步的音频信号与视频信号；识别模块，包括空间流模型、动作流模型、音频流模型和语义流模型，用于接收音频信号和视频信号预处理后的结果，并生成分类分数矩阵；教态输出模块，用于接收分类分数矩阵，通过多模态多标签分类器输出教态信息。本发明搭建的教态分析系统，可以有效避免大量人工对每堂课中此类底层具象(教师行为)与高层抽象(情绪、模态、教学环节分布)内容的标注与统计的过程，节省了大量枯燥的重复劳动时间以及标注的费用。

Description

一种多模态融合的教态分析系统

技术领域

本发明涉及人工智能领域，尤其涉及一种多模态融合的教态分析系统。

背景技术

本发明要解决的问题：搭建一个辅助教师教研的智能化教态分析系统，结合音频、视频信息识别讲授内容、情绪表情，通过多模态融合及多标签分类识别教研中关心的复合型教态，从而辅助教研人员进行教态中形态、心态、文态、语态的分析。

随着教育信息化的普及与推广，摄像头在教室中越来越普及。同时，基于视频的动作识别是计算机视觉的一个研究方向，通常分为直接利用视频进行动作识别与人体关键点识别后进行动作分类识别。从而，会有相关的针对学生学习或教师教学活动视频或语音的分析与研究。

(1)视频动作识别：《Two-Stream Convolutional Networks for ActionRecognition in Videos》，如图1所示，通过双流进行视频动作识别，分为空间流与时间流，空间流对一段视频的单帧图像提取特征并进行分类，时间流对多帧之间的光流提取特征并进行分类，双流在决策层进行融合，采用了两种方法融合，一种方法为直接取双流softmax分数的平均值，另一种方法则通过训练一个多类别的线性SVM模型。这种融合方式缺乏对先验场景条件的利用。

(2)语音识别方面，现有技术已可支持识别语音的语义、声纹、情绪等。

(3)多模态方面，包含图像、视频、音频、语义之间的多模态学习，其中多模态融合分为物理层融合、特征层融合、决策层融合几个类型。物理层融合即在数据采集部分进行融合，特征层融合指在模型特征部分进行融合，决策层融合即不同模态独立分别进行学习，在最终结果部分进行融合。

多模态动作识别，《Fusing Multi-Stream Deep Networks for VideoClassification》，结构如图2所示，通过空间流、动作流与语音流对视频分类。空间流利用ConvNet网络提取单帧空间特征，动作流对多帧之间的光流提取特征利用LSTM进行分类，语音流通过将单声道转为2D声纹图，利用ConvNet提取特征，最终将三流的预测结果利用可自适应的方式融合。

多标签分类与多类别分类不同，如图3所示。多类别的分类，每个分类模型的预测结果只有一个，但多标签分类的模型预测结果会产生多个，从而可以得到更多维度的预测信息。

现有的智能化课堂识别系统，其功能多为现有技术的组合，包括利用视频与语音的独立识别。在中国专利CN111967703A《课堂教学“言语——行为”大数据同步分析系统》中提到，通过人脸识别、体形识别、语音识别分别对教师教学进行评价。人脸识别系统对教师和学生的面部表情和眼神等进行跟踪监测，语言识别系统对教师和学生的有声语言作进行检测分析，行为识别系统对教师和学生的肢体神态、肢体动作进行跟踪分析并采集基本数据。可以看出该分析系统分别以人脸、体形和语音为根据进行评价，但缺少统一的评价标准。

同时，现有技术无法得到多标签的复合型教态识别结果，即无法通过一组数据输入得到一组多维度的教态识别结果。

现有智能化教室系统，由于只能独立处理音、视频信号，因此很难实现对复合型教态进行高准确率的识别，会有大量的过检或误识。例如，当仅通过图像进行动作识别，由于缺少时序信息与语音语义信息，只能在有明确含义和特征的手势上有高准确率的识别，例如“表扬手势”。当需要识别较为复杂的动作，例如“播放多媒体”时，则无法直接通过老师是否低头看电脑或手拿遥控器进行评断。

现有智能化教室系统，普遍一个输入信号只能进行一个浅显的显式信息的识别(例如：“表扬手势”，“点头”)，缺乏高阶多维度的教研意义(例如：“集体讲授”，“播放多媒体”)。然而，高阶多维度的教态无法通过单一动作进行判断，而是需要多模态信号输入进行判断。

发明内容

针对现有技术的不足，本发明提供一种多模态融合的教态分析系统，包括预处理模块、识别模块和教态输出模块；其中，

预处理模块，用于接收并预处理时间同步的音频信号与视频信号；

识别模块，包括空间流模型、动作流模型、音频流模型和语义流模型，用于接收音频信号和视频信号预处理后的结果，并生成分类分数矩阵；

教态输出模块，用于接收分类分数矩阵，通过多模态多标签分类器输出教态信息。

进一步的，所述预处理模块包括音频处理单元与视频处理单元；其中，音频处理单元用于对音频信号进行预处理，获得声纹图序列，以及通过语义识别，获得音频的语义信息；

视频处理单元用于对视频信息进行预处理，获得视频的空间流序列和光流序列。

进一步的，所述识别模块包括空间流模型、动作流模型、音频流模型和语义型模型，其中，

空间流模型的输入为视频信号的空间流序列，空间流模型为LSTM网络，其最后一层为Sigmoid激活函数，损失函数为二值交叉熵损失函数，输出为多标签的空间流模型分类分数矩阵S1；

动作流模型的输入为视频信号的光流序列，通过LSTM网络对图片序列进行特征提取，LSTM网络的最后一层采用Sigmoid激活函数后，利用二值交叉熵损失函数作为损失函数；输出为多标签的动作流模型分类分数矩阵S2；

音频流模型的输入为音频信号的声纹图序列，通过LSTM网络对声纹图序列进行特征提取，网络的最后一层采用Sigmoid激活函数后，利用二值交叉熵损失函数作为损失函数；输出为多标签的音频流模型分类分数矩阵S3；

语义流模型的输入为音频信号语音转写得到的文字，对文字进行嵌入操作，通过双向LSTM网络对文本进行特征提取，最后一层采用Sigmoid激活函数后，利用二值交叉熵损失函数作为损失函数，输出为多标签的语义流模型分类分数矩阵S4。

进一步的，教态识别模块包括语音融合单元和多模态多标签分类器；其中，语音融合单元，用于将S3与S4加权求和并归一化后得到语音融合分数矩阵S5；多模态多标签分类器，用于接收S1、S2与S5并将其组合成分数矩阵输入分类器，分类器包括顺次连接的分类分数融合卷积层和Sigmoid激活函数，输出为对每个标签的类别预测概率，其中卷积层的损失函数采用二值交叉熵损失函数。

进一步的，在语音融合单元中，S3权重的获取方法包括：

a、获取多标签类别的关键词列表；设置S3的权重初值W0；

b、将训练数据经过音频预处理后的结果输入音频流模型与语义流模型得到S3和S4；

c、计算融合后的多标签分类序列S5＝W·S3+S4，其中，W为S3的权重；

d、将S5与训练数据的真值序列进行比较，利用关键词损失函数计算本轮训练的损失值，进而调整权重W；

e、重复步骤b、c、d直到函数收敛，得到最终的权重。

进一步的，关键词损失函数为，

L_i＝-y_i×log(x_i)-(1-y_i)×log(1-x_i)+ap_i×(ap_i-y_i)log(x_i)，

其中i表示多标签类别，L_i为该多标签类别损失值，y_i为该多标签类别真实值，x_i为该多标签类别预测值，ap_i为该多标签类别关键词出现与否(0或1表示)。

进一步的，在所述b步骤中，还包括：遍历每个多标签类别i(i取1～n，n为多标签类别的数量)，并做如下判断：

1)当输入语义流模型的文字包括多类别标签的关键词，且关键词的类别为所述文字的正确类别，则ap_i＝1,y_i＝1；

2)当输入语义流模型的文字包括多类别标签的关键词，且关键词的类别不是所述文字的正确类别，则ap_i＝1,y_i＝0；

3)当输入语义流模型的文字不包含多类别标签的关键词，且所述多标签类别为所述文字的正确类别，则ap_i＝0,y_i＝1；

4)当输入语义流模型的文字不包含多类别标签的关键词，且所述多标签类别不是所述文字的正确类别，则ap_i＝0,y_i＝0。

进一步的，所述S1、S2、S3、S4均为n×1维向量，n为多标签类别的数量，值为属于多标签类别的概率。

进一步的，所述系统还包括表请识别模块，用于对视频中的教师进行表请识别，表情分类为：积极表情，中性表情，消极表情。

进一步的，所述系统还包括分析模块，用于结合识别的情绪表情、教授内容及教态，以图表形式可视化呈现，辅助教研人员进行心态、体态、文态、语态的教态分析。

本发明与现有技术相比的有益效果为：

(1)本发明充分利用各模态自身的特点得到分支结果，而不会相互干扰，同时利用了动作、语音及语义信息的识别结果，最终在决策层进行加权融合，实现复合型动作的识别。

(2)本发明增加了语义与语音流，在融合两者的过程中，提出一种针对关键词的损失函数，人为矫正语义流中由于过拟合于关键词而导致的错分问题。

(3)本发明通过多标签识别形式，可以提供多维度的信息(“集体讲授”+“播放多媒体”)，而不仅仅是一个动作识别(“播放多媒体”)。

附图说明

图1为现有技术视频识别的系统结构示意图；

图2为现有技术多模态动作识别的系统结构示意图；

图3为多标签分类和多类别分类的区别示意图；

图4为根据本发明一个实施例的多模态融合的教态系统的结构示意图；

图5为根据本发明一个实施例的数据流向示意图；

图6为根据本发明一个实施例的的分数矩阵的融合过程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清查、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图及具体实施方式详细介绍本发明。

教态指教师姿态，重点考察教师在授课过程中的教授情况，从而辅助教研分析。马树芳提出教态应当包括教师的心态、语态、文态、体态等方面。

针对教态分析的分类可以例如表1所示，包括类别维度和多标签类别两项，具体值或内容没有积极或消极之分。

表1教态表

类别	多标签类别
		教师行为	播放幻灯片，书写板书，提问等
教师手势	描绘型手势，指向型手势，节拍型手势等
		教学环节	集体讲授，个别指导，课堂管理等

表1中(仅为示例，包括但不限于此分类)，将标签分为三类，每类包含三种教态动作，实际应用中可依据教研所关心的教态动作进行扩充与缩减类别。

根据本发明，提出一种多模态融合的教态分析系统，如图4所示，包括：预处理模块、识别模块、教态输出模块；其中，

在预处理模块中包括音频处理单元和视频处理单元。其中，音频处理单元用于对音频信号进行预处理，获得声纹图序列，以及通过语义识别，获得音频的语义信息；具体步骤为：(1)获取音频片段，可以调用开放接口完成，例如科大讯飞的离线语音转写功能中便包括了声纹区分功能，包括依据说话断句位置，对连续音频文件进行切割，仅保留教师说话的片段；(2)依据音频片段，对语音内容进行识别，可以使用开放接口完成此操作，例如科大讯飞的离线语音转写接口，得到每段语音的转写内容；(3)对音频片段提取单声道信息(由于不考虑声音的空间信息)，利用短时傅里叶变换(STFT)将1-D音频转为2-D的声纹图，将声纹图保存为声纹图序列[t,x,y]，x与y为声纹坐标，t为时间，单位ms。

视频处理单元用于对视频信息进行预处理，获得视频的空间流序列和光流序列，具体步骤为：(1)由于课堂上，教师授课主要以说话为主，引导动作为辅助，因此将语音的分割与保留规则(即保留含教师说话的片段，从而与音频内容同步)作用于视频，得到视频片段，视频片段与音频片段的截取位置同步；(2)对于视频片段，按帧提取图片，组成空间流序列[f,x,y,c]，f代表视频中帧的数量，x代表该帧图像的横坐标像素点位置，y代表该帧图像的纵坐标像素点位置，c代表RGB通道；(3)为有助于动作识别，采用光流代表动作移动，视频片段对连续的帧之间分别计算横向与纵向的光流，组成光流序列[2f,x,y],x与y代表光流向量，f代表帧，2代表横向光流与纵向光流。获取光流序列为现有技术，不再多叙。

在识别模块中，数据流向如图5所示，具体描述如下。

(1)空间流模型的输入为视频信号的空间流序列[f,x,y,c]，对于每个视频片段，等间隔抽取固定帧数。空间流模型为LSTM网络，其最后一层为Sigmoid激活函数，损失函数为二值交叉熵损失函数，通过LSTM网络对空间流序列进行特征提取(提取图片序列用于做多标签分类的特征，用于连续的图片序列识别)，由于进行多标签分类，因此最后一层采用Sigmoid激活函数后，利用二值交叉熵损失函数作为损失函数，进行分类训练。空间流模型的输出为多标签的空间流模型分类分数矩阵，即[n,1]维向量，n为多标签类别的数量，向量中的值为该类别的预测概率。例如，将多维度的标签类别组成一个标签序列，如表1中所提出的例子，标签序列分别为[“播放幻灯片”，“书写板书”，“提问”，“描绘型手势”，“指向型手势”，“节拍型手势”，“集体讲授”，“个别指导”，“课堂管理”]，每一类别均为One Hot类别(即0或1表示)，当多标签结果为“播放幻灯片”、“描绘型手势”、“集体讲授”，那么结果该模型的Ground Truth(真值，即用于片段分类的标签)则为[1,0,0,1,0,0,1,0,0]。该模型需要单独训练。

(2)动作流模型的输入为视频信号的光流序列[2f,x,y]，该模型与空间流模型的结构相同，通过LSTM网络对图片序列进行特征提取，LSTM网络的最后一层采用Sigmoid激活函数后，利用二值交叉熵损失函数作为损失函数，进行分类训练。该模型的输出为多标签的动作流分类分数矩阵，即[n,1]维向量，n为多标签类别的数量，向量中的值代表为该类别的概率。该模型需要单独训练。

(3)音频流模型的输入为音频信号的声纹图序列[t,x,y]，其模型结构与前两个模型一样，通过LSTM网络对声纹序列进行特征提取，由于进行多标签分类，网络的最后一层采用Sigmoid激活函数后，利用二值交叉熵损失函数作为损失函数，进行分类训练。该模型的输出为多标签的音频流模型分类分数矩阵，即[n,1]维向量，n为多标签类别的数量，向量中的值代表为该类别的概率。该模型需要单独训练。

(4)语义流模型的输入为音频信号语音转写得到的转写内容(即文字)，对文字进行嵌入操作，该模型为双向LSTM网络，用于对文本进行特征提取，由于进行多标签分类，最后一层采用sigmoid激活函数后，利用二值交叉熵损失函数作为损失函数，该模型的输出为多标签的语义流模型分类分数矩阵，即[n,1]维向量，n为多标签类别的数量，向量中的值代表为该类别的概率。该模型需要单独训练。

上述模型的训练方法是现有技术，不再多述。

在教态识别模块中，接收空间流模型、动作流模型、音频流模型、语义流模型输出的分数矩阵，分别表示为S1、S2、S3、S4。由于语音声纹信息所能提供的环境信息有限，在教态应用中发挥的作用有限，因此调整其权重并与语义流模型分类分数矩阵进行初步融合。教态识别模块具体包括语音融合单元和多模态多标签分类器，如图6所示。其中，语音融合单元，用于将S3与S4分类加权求和并归一化后得到语音融合分数矩阵S5；多模态多标签分类器，用于接收S1、S2与S5并将其组合成分数矩阵，矩阵维度为[3,n]，n代表多标签类别数，分类器包括顺次连接的分类分数融合卷积层和Sigmoid激活函数，卷积层输出的矩阵维度为[n,1]，经过Sigmoid激活函数，然后将其输出结果转化为[0,1]的范围内(即归一化)，代表对每个标签的类别预测概率，也即分类器输出的结果，其中卷积层的损失函数采用二值交叉熵损失函数。

在训练好空间流模型、动作流模型、音频流模型、语义流模型后，先训练获取语音融合单元中S3的权重，再训练获取分类器中卷积层的参数。

在语音融合单元中，S3代表音频流输出的分类预测分数，S4代表语义流输出的分类预测分数，因此S3与S4加权的权重可针对不同分类类别分别进行加权，该权重由关键词损失函数训练得到。关键词损失函数为本发明的独特设计，能避免语义流分类中通过记住关键词将某类别分错，若音频流中结果正确，则尽量利用音频流中结果辅助纠正分类结果。通过判断关键词是否错误引导语义信息的类别分析，将语义信息的分类结果与语音声纹图的分类结果进行分类加权融合，从而利用关键词损失函数学习语义信息与语音声纹图分类结果的使用权重。关键词损失函数是基于二值交叉熵损失函数(BCE Loss)的在当前场景下的改进，即利用了语义的先验知识，人为辅助矫正模型由于过拟合于关键词导致的错分问题，利用语音环境分类结果进行辅助，一定程度上改善分类结果。具体步骤如下：

a.获取关键词列表：将音频信号语音转写的文字内容依据不同的多标签分类类别进行词云分析，得到每个类别的高频词汇(即该类别的关键词)，如不同类别的关键词有重复则直接剔除，即仅保留各个类别的特色关键词汇。

b.将训练数据经过音频预处理后的结果输入音频流模型与语义流模型得到S3和S4，遍历每个多标签类别i(i取1～n，n为多标签类别的数量)，并做如下判断：

c.设置S3的权重初值W₀(权重为n×n维矩阵，n为多标签类别的数量)，计算融合后的多标签分类序列S5＝W₀·S3+S4(W₀与S3为点乘)。

d.然后将S5与真值序列(训练数据自身携带分类结果)进行比较，利用关键词损失函数计算本轮训练的损失值，进而调整权重。

其中，关键词损失函数表达为，

L_i＝-y_i×log(x_i)-(1-y_i)×log(1-x_i)+ap_i×(ap_i-y_i)log(x_i)，

在一个实施例中，当语义流转写为“我们来仔细看一下这里”，且正确分类仅为“个别指导”时，仅凭借语义流信息，模型分类可能会混淆“个别指导”、“集体讲授”与“播放幻灯片”三个分类，S4语义流的分类结果在“个别指导”、“集体讲授”与“播放幻灯片”三个分类上的预测分值均会较高。但S3音频流更注重环境的影响，由于教师个别指导的音量较小，因此较容易分辨为“个别指导”，S3音频流的分类结果则会在“个别指导”类别上的预测分值较高。同时，“仔细看”通常包含在“播放幻灯片”类别的高频词汇中，因此ap_i＝1，y_i＝0，即步骤b中的情况(2)，此时损失函数的表达为L_i＝-log(1-x_i)+log(x_i)，相比BCE Loss，该损失值更大，融合权重在此类分类中会更倾向于音频流的识别结果，更有利于提升这类结果识别的准确性。

e.重复步骤b、c和d直到损失函数收敛，最终训练得到一个最佳融合权重W。

训练分类器的步骤包括：将训练数据中的音频和视频预处理后，将结果分别输入空间流模型、动作流模型、音频流模型、语义流模型，得到S1、S2、S3、S4，然后将S3、S4通过语音融合单元得到S5，进而将S1、S2、S5输入多模态多标签分类器，通过其输出与训练数据自带的分类结果进行比较，从而调整卷积层的参数。

在一个实施例中，系统还可以包括：表请识别模块，用于从图像维度对表情进行识别。由于表情为瞬时的表现，因此可每间隔3帧抽取一帧图像进行表情识别，首先利用检测模型检测到人脸位置，剪切人脸所在区域后检测人脸上用于定位的68个关键点信息，进而送入CNN模型结构进行表情分类，分为：积极表情，中性表情，消极表情。其中人脸关键点模型是现有的，例如可以使用Dlib，表情分类模型需要自行训练。表情识别也可调用第三方接口，例如：旷世Face++的表情识别接口(由于这个接口返回的情绪内容较为丰富，无法直接适用于教态场景，因此人为将不同表情归类为积极表情、中性表情、消极表情三类，积极表情包括“开心”、“惊讶”，中性表情包括“生气”、“沮丧”、“担忧”、“悲伤”，中性表情包括“自然”)。

在一个实施例中，系统还包括分析模块，用于将教态信息转化为呈现给用户的图表或文字。在分析模块中，结合以上识别到情绪表情、教授内容(即语音处理单元得到的转写内容)及复合型教态识别结果，以图表形式可视化呈现，辅助教研人员进行心态、体态、文态、语态的教态分析。内容包括：

(1)表情分布图，以饼状图形式呈现，可直观显示积极、中性、消极表情，同时包括以时间轴为横坐标的时间分布图。

(2)复合型教态图，依据不同类别维度，将多标签识别内容(横坐标位置为每段视频在整堂课中出现的时间点)以甘特图的形式呈现，以时间轴为横坐标。

(3)多模态分析图，分别依据音频中教师讲授的时间点(作为听觉通路)、视频中识别到复合型教态中的教师行为或手势出现的时间点，分析在时间维度上的分布，统计采用的模态数量，包括：听觉、视觉两通路，并计算听觉与视觉模态发生比(即两者出现时长的比例)。依据双通路理论，视觉与听觉双通路教学方式，在本场景中即在讲授的过程中有教态动作辅助，有助于学生理解教师讲授的内容。

(4)语言情绪分析图，依据教学中常见的正负性关键词，对教师语言情绪进行关键词检索与统计，积极情绪关键词包括：“非常好”,“很好”,“很棒”,“非常棒”,“特别好”,“好极了”,“太好了”,“太棒了”等，消极情绪关键词包括：“再想想”,“不准确”,“不够准确”,“不太好”等。以面积图形式呈现，以时间轴为横坐标，积极、消极情绪分别用正负值标注在纵坐标上。

通过本发明，可以对复合型教态进行识别，有效补充单独视频信息(仅图像)中缺失的语义信息，以及单独语音信息(仅音频)中缺失的动作信息，可以更为立体全面的描述教师的教态信息，可得到行为、手势上具象、抽象的教态信息。

本发明结合音频中的声纹信息与语义信息，针对情绪环境及语义两个方面获取有效信息，最大化利用音频中的信息。本发明提出了关键词损失函数，通过判断关键词是否错误引导语义信息的类别分析，将语义信息的分类结果与语音声纹图的分类结果进行分类加权融合，利用关键词损失函数学习语义信息与语音声纹图分类结果的使用权重。通过训练新卷积层及设置新损失函数，得到最优的融合方式。

本发明搭建了一个较为完善的教态分析系统，将视频、音频通过空间流、动作流、音频流、语义流分别进行分类后，进行分类分数融合，分类结果不局限于单纯的底层动作(例如：“表扬手势”，“点头”等)，而是增加了利用复合型教态识别模型实现的上层含有复杂语境信息的分类(例如：“播放幻灯片”、“描绘型手势”、“集体讲授”)。

本发明未详细阐述的部分属于本领域公知技术。

以上实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多模态融合的教态分析系统，其特征在于，包括预处理模块、识别模块和教态输出模块；其中，

2.根据权利要求1所述的教态分析系统，其特征在于，所述预处理模块包括音频处理单元和视频处理单元；

其中，音频处理单元用于对音频信号进行预处理，获得声纹图序列，以及通过语义识别，获得音频的语义信息；

3.根据权利要求1所述的教态分析系统，其特征在于，所述识别模块包括空间流模型、动作流模型、音频流模型和语义型模型，其中，

4.根据权利要求3所述的教态分析系统，其特征在于，教态识别模块包括语音融合单元和多模态多标签分类器；其中，语音融合单元，用于将S3与S4加权求和并归一化后得到语音融合分数矩阵S5；多模态多标签分类器，用于接收S1、S2与S5并将其组合成分数矩阵输入分类器，分类器包括顺次连接的分类分数融合卷积层和Sigmoid激活函数，输出为对每个标签的类别预测概率，其中卷积层的损失函数采用二值交叉熵损失函数。

5.根据权利要求4所述的教态分析系统，其特征在于，在语音融合单元中，S3权重的获取方法包括：

a、获取多标签类别的关键词列表；设置S3的权重初值W0；

e、重复步骤b、c、d直到所述关键词损失函数收敛，得到最终的权重。

6.根据权利要求5所述的教态分析系统，其特征在于，关键词损失函数为，

L_i＝-y_i×log(x_i)-(1-y_i)×log(1-x_i)+ap_i×(ap_i-y_i)log(x_i)，

其中i表示多标签类别，L_i为所述多标签类别损失值，y_i为所述多标签类别真实值，x_i为所述多标签类别预测值，ap_i为所述多标签类别关键词出现与否。

7.根据权利要求6所述的教态分析系统，其特征在于，在所述b步骤中，还包括：遍历每个多标签类别i，并做如下判断：

8.根据权利要求4所述的教态分析系统，其特征在于，所述S1、S2、S3、S4均为n×1维向量，n为多标签类别的数量，值为属于多标签类别的概率。

9.根据权利要求1所述的教态分析系统，其特征在于，所述系统还包括表请识别模块，用于对视频中的教师进行表请识别，表情分类为：积极表情，中性表情，消极表情。

10.根据权利要求9所述的教态分析系统，其特征在于，所述系统还包括分析模块，用于结合识别的情绪表情、教授内容及教态，以图表形式可视化呈现，辅助教研人员进行心态、体态、文态、语态的教态分析。