CN114926716A

CN114926716A - 一种学习参与度识别方法、装置、设备及可读存储介质

Info

Publication number: CN114926716A
Application number: CN202210367286.1A
Authority: CN
Inventors: 潘杰; 栾春; 谢德仁; 杜伟; 张雨辰
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2022-08-19

Abstract

本申请提供了一种学习参与度识别方法、装置、设备及可读存储介质，涉及多模态情感识别技术领域，包括：对获取的视频样本进行预处理，提取出多个模态下的单模态特征；将多个模态下的单模态特征进行特征融合，得到多模态融合特征；多模态融合特征经过全连接层降低维度并进行预测，得到多模态输出值；单模态特征映射到低维空间中，再运用线性回归得到单模态输出值；将单模态输出值和多模态输出值按照预设权重加权求和，得到融合输出值；基于多模态输出值、单模态输出值和融合输出值，确定用户的学习参与度，这样，通过联合多模态信息和单模态信息，将提取出的单模态特征映射到低维空间，再单独训练模型，可以提高学习参与度的识别准确率。

Description

一种学习参与度识别方法、装置、设备及可读存储介质

技术领域

本申请涉及多模态情感识别技术领域，特别涉及一种学习参与度识别方法、装置、设备及可读存储介质。

背景技术

本部分的陈述仅仅是提供了与本申请相关的背景技术，并不必然构成现有技术。

多模态情感识别是近年来模式识别的重要研究领域，情感表达的模态包括面部表情、行为、文字、语音、生理信号等，多模态情感分析在处理各种数据上会将更加全面，因而随着基于深度学习的情感分析技术的发展，融合多个模态信息来预测情感状态成为现阶段的研究热点。多模态学习应用涉及许多方面，在教育、医疗、自动驾驶等领域引起了研究人员的广泛关注。

会议在实际生活中起到重要作用，学习参与度是衡量参会人员的活动积极程度以及会议参与情况的重要指标。现有的学习参与度的识别方法，通常是采用图片识别技术，从会议现场图片中识别参会者的行为特征，如面部表情、行为动作等，并输入到预先训练的情绪识别模型，从而根据参会者的个体情绪识别结果确定参会人员的学习参与度，但是，仅通过参会者的行为特征进行参与度的识别，其信息不够全面，识别准确率不高。

发明内容

为了解决现有技术的不足，本申请的第一方面提供了一种学习参与度识别方法，通过联合多模态信息和单模态信息，将提取出的单模态特征映射到低维空间，再单独训练模型，以利用各个模态之间的差异性和互补性对参会人员行为进行全面分析，从而提高学习参与度的识别准确率。

为了实现上述目的，本申请采用如下技术方案：

本申请第一方面提供了一种学习参与度识别方法，包括：

对获取的视频样本进行预处理，提取出多个模态下的单模态特征；

将多个模态下的单模态特征进行特征融合，得到多模态融合特征；

多模态融合特征经过全连接层降低维度并进行预测，得到多模态输出值；单模态特征映射到低维空间中，再运用线性回归得到单模态输出值；将单模态输出值和多模态输出值按照预设权重加权求和，得到融合输出值；

基于所述多模态输出值、单模态输出值和融合输出值，确定用户的学习参与度。

作为可能的一些实现方式，多个模态下的单模态特征包括文本特征、视频特征和音频特征；

对于文本特征，特征提取过程包括：采用预设层数的BERT预训练模型进行编码，选取最后一层中的第一个词向量作为整句表示；

对于视频特征和语音特征，特征提取过程包括：经过新增加的网络层进行预训练后，再经过单向长短期记忆网络提取时序特征，将最后一个隐藏向量作为输出，通过一层卷积层提取出的初始特征与全连接层相连，输出低维向量进入单向长短期记忆网络，得到相应的特征表示。

作为可能的一些实现方式，将提取出的单模态特征进行拼接，得到多模态融合特征。

作为可能的一些实现方式，所述单模态特征映射到低维空间中，再运用线性回归得到单模态输出值，包括：将提取出的单模态特征映射到低维度空间之后，得到单模态特征向量；将所述单模态特征向量输入至训练好的单模态分类模型，得到单模态输出值。

作为可能的一些实现方式，所述单模态分类模型的训练方法包括：确定不同模态表示类的类中心；基于不同模态到类中心之间的距离，以及距离与预测值之间的关系，确定单模态监督值对多模态注释的偏移量，以L1损失函数作为优化目标训练单模态分类模型。

作为可能的一些实现方式，所述类中心包括消极中心和积极中心，分别计算不同模态到消极中心和积极中心的距离，定义用于衡量模态表示到负中心和正中心的相对距离，基于所述相对距离，以及相对距离与预测值之间的关系，确定单模态监督值对多模态注释的偏移量。

作为可能的一些实现方式，使用L2归一化作为模态表示与类中心之间的距离。

本申请第二方面提供了一种学习参与度识别装置，包括：

特征提取模块，用于对获取的视频样本进行预处理，提取出多个模态下的单模态特征；

特征融合模块，用于将多个模态下的单模态特征进行特征融合，得到多模态融合特征；

预测模块，用于多模态融合特征经过全连接层降低维度并进行预测，得到多模态输出值；单模态特征映射到低维空间中，再运用线性回归得到单模态输出值；将单模态输出值和多模态输出值按照预设权重加权求和，得到融合输出值；

参与度确定模块，用于基于所述多模态输出值、单模态输出值和融合输出值，确定用户的学习参与度。

本申请第三方面提供了一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述第一方面，以及上述第一方面可能的实现方式所述的学习参与度识别方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述第一方面，以及上述第一方面可能的实现方式所述的学习参与度识别方法的步骤。

与现有技术相比，本申请的有益效果是：

1、本申请联合多模态信息和单模态信息，将提取出的单模态特征映射到低维空间，再单独训练模型，利用各个模态之间的差异性和互补性对参会人员行为进行全面分析，提高了学习参与度的识别准确率。

2、采用早期融合和晚期融合的混合融合方法，对提取出的特征进行融合，早期融合具有训练简单的特点，而运用晚期融合，各个模态可以通过不同的模型进行训练，使得预测结果更加准确。

3、根据类中心的距离和模态表示提出了相对距离值与模型的输出呈正相关，并在此基础上，训练基于自监督学习的单模态分类模型，在三种数据集上验证了单模态分类模型的可靠性和稳定性，这种方法比现有的方法更先进。

附图说明

图1为本申请实施例所提供的学习参与度识别方法的流程图；

图2为本申请实施例所提供的学习参与度识别方法的网络架构图；

图3为本申请实施例所提供的24层BERT预训练模型的结构示意图；

图4为本申请实施例所提供的新增卷积层提取向量特征的流程示意图；

图5为本申请实施例所提供的生成的单模态标签结果示意图；

图6是本发明实施例的学习参与度识别装置的结构示意图；

图7是本发明实施例的一种计算机设备的示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一

多模态融合根据融合阶段可以分为以下三类：早期融合、中间融合、晚期融合。早期融合通常采用精细的注意力机制进行跨模态融合，常用方法是对提取出的特征进行简单的拼接操作；中间融合是将不同模态数据先转化为高维特征表示，再于模型中间进行融合；晚期融合是对每种模态数据单独训练一个模型，再采用融合机制对全部单模态模型的结果进行集成融合。由于早期融合只需要单一模型的训练，使得早期融合方法的训练相对容易，可以学习模态间的相似性。因此，利用早期晚期双融合能更好地将模态间的一致性与差异性进行表征学习，从而提高多模态情感计算的可靠性。下面结合附图对本申请提供的学习参与度识别方法进行介绍。

如图1和图2中所示，本申请实施例提供了一种学习参与度识别方法，包括以下步骤：

步骤101：对获取的视频样本进行预处理，提取出多个模态下的单模态特征。

在具体实施中，通过摄像头实时采集线上会议的画面，当视频输入网络，经过预处理后获得特征表示。输入的视频经过预处理后会被提取出三个模态：文本信息、视频信息、音频信息。

作为一可选实施例，多个模态下的单模态特征包括文本特征、视频特征和音频特征；

在具体实施中，由于预训练的语言模型取得了较大成功，所以在提取文本特征时，本申请采用预训练24层BERT预训练模型来提取句子特征，如图3中所示，BERT预训练模型主要是用来提取文本特征，本申请采用24层的BERT预训练模型，使用BERT预训练模型内部结构的Transformer Encoder部分，并选取最后一层中的第一个词向量作为整句表示F_t。

视频信息和语音信息分别经过新增加的网络层进行预训练之后，再经过单向的长短期记忆网络LSTM，将最后一个隐藏向量作为输出，通过一层卷积层提取出的初始特征与全连接层相连，输出低维向量进入单向LSTM，从而得到特征表示，如图4中所示，将预训练网络新增一层卷积层，提取特征之后，与4层全连接层相连，获得全部特征向量之后再输入单向LSTM。

提取出文本特征F_t、视频特征F_v、语音特征F_a可表示为：

由输入数据可得

和

l_v和l_a分别表示视频和音频的序列长度。

步骤102：将多个模态下的单模态特征进行特征融合，得到多模态融合特征。

在具体实施中，经过提取的单模态特征分为两个分支，一是经过早期融合进行多模态预测情感，二是将提取出的特征映射到低维空间中分别训练单模态模型，经过全连接层最后预测输出。

作为一可选实施例，将提取出的单模态特征进行拼接，得到多模态融合特征。

步骤103：多模态融合特征经过全连接层降低维度并进行预测，得到多模态输出值；单模态特征映射到低维空间中，再运用线性回归得到单模态输出值；将单模态输出值和多模态输出值按照预设权重加权求和，得到融合输出值。

在具体实施中，多模态特征表示如式(4)所示，经过全连接层降低维度并预测多模态输出，回归输出如式(5)所示。其次，为降低不同模态间的维度差异，将提取出的单模态特征映射到低维空间中，再运用线性回归得到单模态输出结果。最后，将三个单模态输出

与多模态输出

按权重为0.1、0.1、 0.1、0.7加权求和得到融合输出

通过这种融合机制可以使得模态间信息互补。

其中，σ表示Re l u激活函数，

表示低维向量，

和

代表偏置项。

特征分类模块分为多模态特征分类和单模态特征分类，本质上是线性回归问题。多模态任务和单模态任务全部使用全连接层进行分类，全连接层从本质上来说就是由一个特征空间线性变换到另一个特征空间，将学习到的分布式特征表示映射到样本标记空间中，以一维特征向量进行输出。全连接层较传统的分类器来说，会有高度提纯的特点，有利于最后结果的回归。

单模态任务和多模态任务提取全部使用Relu激活函数，引入激活函数是为了增加网络模型的非线性。Relu激活函数能够克服梯度消失问题，也可以加快训练速度。因此，本申请选用此激活函数。

作为一可选实施例，所述单模态特征映射到低维空间中，再运用线性回归得到单模态输出值，包括：将提取出的单模态特征映射到低维度空间之后，得到单模态特征向量；将所述单模态特征向量输入至训练好的单模态分类模型，得到单模态输出值。

可选的，所述单模态分类模型的训练方法包括：确定不同模态表示类的类中心；基于不同模态到类中心之间的距离，以及距离与预测值之间的关系，确定单模态监督值对多模态注释的偏移量，以L1损失函数作为优化目标训练单模态分类模型。

其中，所述类中心包括消极中心和积极中心，分别计算不同模态到消极中心和积极中心的距离，定义用于衡量模态表示到负中心和正中心的相对距离，基于所述相对距离，以及相对距离与预测值之间的关系，确定单模态监督值对多模态注释的偏移量。

在具体实施中，将提取出的单模态特征映射到低维度空间之后，三个单模态会分别进行任务，整个程序是通过自监督学习特征的，为了指导其训练过程，设计了单模态分类模型来获取分类标签，只存在于训练阶段。设计单模态分类模型的目的是通过多模态注释和模态表示来生成单模态监督值，因为更新网络参数会对其进行干扰，所以将单模态分类模型设计成一个非参数模块。在多数情况下，单模态监督值与多模态标签是高度相关的。因为不同的模态向量表示存在于不同的维度空间中，所以是不能使用绝对距离的。为此，提出了相对距离，它与空间维度无关。在前期训练阶段，主要训练不同模态表示类的消极中心

和积极中心

其中i∈{t,a,v,m}，N是训练的采样点，I(·)是指标函数，

是第j个样本在模态i中的全局表示。

在模态表示方面，使用L2归一化当作F_i ^*和类中心之间的距离。

其中，i∈{t,a,v,m}，d_i代表维度，是一个尺度因子。

从而可以定义相对距离，相对距离用来衡量模态表示到负中心和正中心的相对距离，表达式如(10)所示。

其中，i∈{t,a,v,m}，ε表示小数。

因为r_i与最终结果呈正相关关系，为得到自监督值与预测值之间的关系，考虑以下两种关系。

式中f∈{t,a,v}，y_m是人工标注的多模态标签，y_f是自监督产生的单模态监督，

和

是预测的多模态输出和单模态输出。

由式(13)和(14)可以得出：

y_f＝y_m+r_f-r_m (14)

联合式(11)和式(12)，可通过等权求和得到单模态监督值。

式中f∈{t,a,v}，

表示单模态监督值对多模态注释的偏移量。如图5(a)-(c)所示，多模态特征表示更接近正中心，单模态特征表示更接近负中心。因此，在多模态标签y_m的基础上，通过自监督学习生成的单模态标签y_f应该增加负偏移量δ_fm。

最后，以L1损失函数作为基本优化目标。在单模态任务阶段，使用人工标注的多模态标签和通过自监督生成的单模态标签之间的差异作为损失函数的权重。该损失函数表明该网络应当注重差异较大的样本：

其中N是训练时采样点数量，

是第i个样本对辅助模态任务f的权重。

步骤104：基于所述多模态输出值、单模态输出值和融合输出值，确定用户的学习参与度。

在具体实施中，当输入用户参加会议的20个视频时，相应的会有五组输出，分别是多模态早期融合输出值、单模态文本输出值、单模态语音输出值、单模态视频输出值和多模态晚期融合输出值，把这些数值分为5个分类：消极{-1.0， -0.8}，弱消极{-0.6，-0.4，-0.2}，中性{0.0}，弱积极{0.2，0.4，0.6}，积极{0.8，1.0}，从而判断与会人员的参与度。

为验证本发明在多模态情感分析方面的优势，本申请在MOSE I、MOS I、S IMS 三种数据集进行了大量的实验，实验结果表明，本申请所提出的一种基于语音、文本、视频三种模态的早期晚期混合融合识别参会人员线上教育的参与度可以达到很好的效果。该方法不仅可以识别用户参加线上教育的积极性，同时还具备准确率高的特点。由此可表明，本申请提出的基于自监督学习的多模态情感分析算法是有效的，并且符合会议信息化的要求。

实施例二

本申请实施例提供了一种学习参与度识别装置，如图6中所示，所述学习参与度识别装置600包括：

特征提取模块610，用于对获取的视频样本进行预处理，提取出多个模态下的单模态特征；

特征融合模块620，用于将多个模态下的单模态特征进行特征融合，得到多模态融合特征；

预测模块630，用于多模态融合特征经过全连接层降低维度并进行预测，得到多模态输出值；单模态特征映射到低维空间中，再运用线性回归得到单模态输出值；将单模态输出值和多模态输出值按照预设权重加权求和，得到融合输出值；

参与度确定模块640，用于基于所述多模态输出值、单模态输出值和融合输出值，确定用户的学习参与度。

实施例三

请参阅图7，图7是本发明实施例的一种计算机设备的示意图。如图7中所示，所述计算机设备700包括处理器710、存储器720和总线730。

所述存储器720存储有所述处理器710可执行的机器可读指令，当计算机设备700运行时，所述处理器710与所述存储器720之间通过总线730通信，所述机器可读指令被所述处理器710执行时，可以执行如上述图1以及图2所示方法实施例中的学习参与度识别方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

实施例四

基于同一申请构思，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述方法实施例中所述的学习参与度识别方法的步骤。

本发明实施例所提供的学习参与度识别方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述学习参与度识别方法的步骤，具体可参见上述方法实施例，在此不再赘述。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种学习参与度识别方法，其特征在于，所述识别方法包括：

2.如权利要求1所述的识别方法，其特征在于，多个模态下的单模态特征包括文本特征、视频特征和音频特征；

3.如权利要求1所述的识别方法，其特征在于，将提取出的单模态特征进行拼接，得到多模态融合特征。

4.如权利要求1所述的识别方法，其特征在于，所述单模态特征映射到低维空间中，再运用线性回归得到单模态输出值，包括：将提取出的单模态特征映射到低维度空间之后，得到单模态特征向量；将所述单模态特征向量输入至训练好的单模态分类模型，得到单模态输出值。

5.如权利要求4所述的识别方法，其特征在于，所述单模态分类模型的训练方法包括：确定不同模态表示类的类中心；基于不同模态到类中心之间的距离，以及距离与预测值之间的关系，确定单模态监督值对多模态注释的偏移量，以L1损失函数作为优化目标训练单模态分类模型。

6.如权利要求5所述的识别方法，其特征在于，所述类中心包括消极中心和积极中心，分别计算不同模态到消极中心和积极中心的距离，定义用于衡量模态表示到负中心和正中心的相对距离，基于所述相对距离，以及相对距离与预测值之间的关系，确定单模态监督值对多模态注释的偏移量。

7.如权利要求6所述的识别方法，其特征在于，使用L2归一化作为模态表示与类中心之间的距离。

8.一种学习参与度识别装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的学习参与度识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任意一项所述的学习参与度识别方法的步骤。