CN112541529A

CN112541529A - 表情与姿态融合的双模态教学评价方法、设备及存储介质

Info

Publication number: CN112541529A
Application number: CN202011407775.2A
Authority: CN
Inventors: 胡四泉; 李学翰; 石志国
Original assignee: University of Science and Technology Beijing USTB; Shunde Graduate School of USTB
Current assignee: University of Science and Technology Beijing USTB; Shunde Graduate School of USTB
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-03-23

Abstract

本发明公开了一种表情与姿态融合的双模态教学评价方法、设备及存储介质，该方法包括：获取学生的视频数据，并对视频数据进行预处理；通过预设的深度学习模型分别提取每一图像帧所包含的面部表情特征和身体姿态特征；将属于同一图像帧的面部表情特征和身体姿态特征进行融合，得到每一图像帧的融合特征，并根据连续图像帧所对应的融合特征序列，获取学生的情感状态；通过预设的情感与学习状态的关联坐标系，基于学生的情感状态映射得到学生学习状态，从而通过获取的学习状态进行教学评价。本发明通过动态分析教学场景中学生的面部表情和身体姿态来进行教学评价，可更准确地做出教学评价。

Description

表情与姿态融合的双模态教学评价方法、设备及存储介质

技术领域

本发明涉及人工智能技术领域，特别涉及一种表情与姿态融合的双模态教学评价方法、设备及存储介质。

背景技术

提高教学效率是新型学习场景的本质，也是课程改革的目标，而学生学习状态是提高教学效率的一个重要的参考指标；教师在课堂中对学生学习状态的掌控，有利于教师根据学生的学习状态调整教学进度、教学方法等，从而进一步调动学生学习的积极性。传统的获取学生学习状态的方式是教师通过课堂观察与提问的方式获取学生学习状态，但这种传统的方式会由于教师精力不足等原因，造成信息传递与反馈的片面性与滞后性。而目前信息技术的高速发展，特别是视频监控系统的智能化发展，为弥补上述问题提供了可能。

目前，现有的教学评价方法主要包含：(1)通过基本的课堂动作来判断学习状态建立教学评价系统；(2)通过建立标签关联的方式来进行判断；(3)通过特定的面部动作变化来计算专注度和活跃度；上述方法主要存在下列缺陷：

上述方法主要是单一模态的分析，存在检测失败或目标丢失时的局限性；且上述方法并没有针对分析其中蕴含的学习情感；此外，上述方法属于静态分析，忽略了学习状态之间的时间关联，缺乏时间特征导致分析结果存在偏差。

发明内容

本发明提供了一种表情与姿态融合的双模态教学评价方法、设备及存储介质，以解决现有的教学评价方法由于采用单模态分析，从而导致存在检测失败或目标丢失时的局限性，以及现有的教学评价方法由于忽略了学习状态之间的时间关联，缺乏时间特征，从而导致分析结果存在偏差的技术问题。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供了一种表情与姿态融合的双模态教学评价方法，该表情与姿态融合的双模态教学评价方法包括：

获取学生的视频数据，并对所述视频数据进行预处理，得到用于表示学生面部表情变化的表情序列数据和用于表示学生身体姿态变化的姿态序列数据；

通过预设的深度学习模型分别提取所述表情序列数据中每一图像帧所包含的面部表情特征和所述姿态序列数据中每一图像帧所包含的身体姿态特征；将属于同一图像帧的面部表情特征和身体姿态特征进行融合，得到每一图像帧的融合特征，并根据连续图像帧所对应的融合特征序列，获取学生的情感状态；

通过预设的情感与学习状态的关联坐标系，基于学生的情感状态映射得到学生的学习状态，以通过学生的学习状态进行教学评价，得到教学评价结果。

进一步地，对所述视频数据进行预处理，得到用于表示学生面部表情变化的表情序列数据和用于表示学生身体姿态变化的姿态序列数据，包括：

通过人脸检测提取所述视频数据中每一图像帧的人脸区域，基于面部关键点对提取到的人脸图像进行对齐操作，裁剪出表示面部表情变化的区域，并对裁剪出的图像进行尺寸归一化，得到表示学生面部表情变化的表情序列数据；

提取出所述视频数据中每一图像帧的身体区域，基于身体关键点对提取到的身体图像进行对齐操作，裁剪出表示身体姿态变化的区域，并对裁剪出的图像进行尺寸归一化，得到表示学生身体姿态变化的姿态序列数据；

对所述表情序列数据和所述姿态序列数据进行帧数归一化。

进一步地，在所述深度学习模型的训练阶段，对所述视频数据进行预处理还包括：

对所述视频数据进行数据增强，以增加样本数量；其中，增强方法包括：将所述视频数据中的图像帧逐一进行水平镜像，并保证图像帧之间的时序关联。

进一步地，通过预设的深度学习模型分别提取所述表情序列数据中每一图像帧所包含的面部表情特征和所述姿态序列数据中每一图像帧所包含的身体姿态特征，包括：

通过预训练的CNN模型分别提取所述表情序列数据中每一图像帧所包含的面部表情特征和所述姿态序列数据中每一图像帧所包含的身体姿态特征。

进一步地，所述CNN模型通过迁移学习的方式实现。

通过VGGFace模型提取表情序列数据中每一图像帧包含的面部表情特征；

通过Inception模型提取姿态序列数据中每一图像帧包含的身体姿态特征。

进一步地，将属于同一图像帧的面部表情特征和身体姿态特征进行融合，包括：将属于同一图像帧的面部表情特征和身体姿态特征按照下式进行融合：

其中，X表示面部表情特征，Y表示身体姿态特征，W_X表示面部表情特征权重，W_Y表示身体姿态特征权重，Z表示融合特征。

进一步地，所述根据连续图像帧所对应的融合特征序列，获取学生的情感状态，包括：

将融合特征序列输入采用LSTM构建的时序分类网络，获取学生的情感状态；其中，所述时序分类网络的输入为融合特征，输出为情感状态的判断分类。

另一方面，本发明还提供了一种设备，其包括处理器和存储器；所述存储器中存储有至少一条指令，当所述指令由处理器加载并执行时，实现上述方法。

再一方面，本发明还提供了一种存储介质，所述存储介质中存储有至少一条指令，当所述指令由处理器加载并执行时，实现上述方法。

本发明提供的技术方案带来的有益效果至少包括：

本发明通过动态分析教学场景中学生的面部表情和身体姿态来进行教学评价，有效避免了仅通过表情分析的方法在遇到面部被遮挡等情况时导致的分析不准确问题，通过对动态序列分析，有效克服了静态分析缺乏时间特征导致的分析结果存在偏差的问题；本发明将时间序列内的学生的面部表情变化与身体姿态改变看作是一种双模态的时空运动，基于表情和姿态在时间内的互补性，可有效避免单一模态在检测失败或目标丢失时的局限性，通过引入时间序列分析更好地模拟了情感产生与变化的情况，有利于判断学生学习状态，帮助更准确地做出教学评价。此外，本发明还通过迁移学习的方式减少了模型的训练量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的表情与姿态融合的双模态教学评价方法流程图；

图2为本发明实施例提供的空间与时间融合模型示意图；

图3为本发明实施例提供的特征提取与融合方法示意图；

图4为本发明实施例提供的时序分类方法示意图；

图5为本发明实施例提供的情感关联坐标系示意图；

图6为本发明实施例提供的教学评价体系示意图；

图7为本发明实施例提供的双模态教学评价方法的实施场景示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

本实施例提供了一种表情与姿态融合的双模态教学评价方法，以在实际教学场景中对学生的面部表情与身体姿态进行分析，获取其中的情感状态，从而根据分析出的情感状态获取学生的学习状态，进而根据获取的学习状态实现教学评价。其中，学生的面部表情和身体姿态反应了学生的情感变化与学习状态，是课堂教学评价的重要观察指标。本实施例在日常学习场景中引入基于面部表情和身体姿态的情感分析技术，并结合现有的智能监控设备，通过分析情感状态进而建立教学评价方法，借此辅助教学，可以部分代替传统的考核方式，帮助教师更加实时全面地了解学生的学习状态。

本实施例的教学评价方法的实施场景如图7所示，在实际的教学场景，通过传感器(例如摄像头)获取课堂视频信息，将视频信息反馈至训练好的深度学习模型。深度学习模型对获取的视频序列进行分析，分别从学生面部表情和身体姿态两部分提取特征，然后将两种特征融合构建特征序列，输入到LSTM时序网络中，计算情感权重，得到学生课堂中情感分析的结果，以进行后续对课堂教学的评价，并将结果反馈到课堂中。下面对本实施例方法进行详细说明。

本实施例的双模态教学评价方法可以由电子设备实现，该电子设备可以是终端或者服务器。该方法的执行流程如图1所示，包括以下步骤：

S101，获取学生的视频数据，并对视频数据进行预处理，得到用于表示学生面部表情变化的表情序列数据和用于表示学生身体姿态变化的姿态序列数据；

具体地，在本实施例中，对视频数据的预处理过程如下：

载入视频数据，对表情序列和姿态序列进行帧数归一化，具体地，本实施例将视频序列的长度统一为10，以便于后续网络的输入；

为了统一图像的大小便于后续的深度学习，本实施例对视频序列图片尺度归一化，通过人脸检测提取人脸区域，基于面部关键点对提取到的人脸进行对齐操作并裁剪出表示表情变化的关键区域，并将输入模型的图像尺寸归一化；同时，提取出视频数据中每一图像帧的身体区域，基于身体关键点对提取到的身体图像进行对齐操作，裁剪出表示身体姿态变化的区域，并对裁剪出的图像进行尺寸归一化，得到表示学生身体姿态变化的姿态序列数据；

进一步地，在模型训练阶段，为了扩大训练集规模和提高模型的泛化能力，本实施例通过数据增强的操作来增加样本数量；其中，本实施例的增强方法主要将数据序列中的样本逐一进行图片水平镜像，并保证图片帧之间的时序关联。通过数据增强可以平衡样本的数量，避免某一类别识别准确率过低的问题。

通过上述的数据预处理可以有效避免外界环境对面部表情变化与身体姿态改变的影响；使其适合网络的输入；增加样本量以增强模型泛化能力。

S102，通过预设的深度学习模型分别提取表情序列数据中每一图像帧所包含的面部表情特征和姿态序列数据中每一图像帧所包含的身体姿态特征；将属于同一图像帧的面部表情特征和身体姿态特征进行融合，得到每一图像帧的融合特征，并根据连续图像帧所对应的融合特征序列，获取学生的情感状态；

需要说明的是，本实施例融入身体姿态特征可以有效避免人脸检测丢失的情况下所导致的分析不准确的问题，避免了系统判断失误。

其中，本实施例采用的深度学习模型在搭建过程中采用双重深度模型用于学习状态的分析，针对静态图片分析缺少时间关联的问题，融合视频序列的空间特征和时间特征，基于神经网络在图像处理领域的优势，对需要进行细节分析的视频序列进行处理，基于迁移学习提高特征的泛化能力。

本实施例通过CNN网络在图像特征提取方面的优势提取空间特征，结合LSTM的时间相关性对空间特征序列的时间域关联进行分类首先针对图像中表示表情变化或姿态变化的空间特征进行提取，然后建立连续图像帧之间的时序关联关系。主要包括两个部分：特征提取和时序分类，如图2所示。

基于CNN构建特征提取器通过预训练的CNN模型获取图像中蕴含的空间特征，建立特征序列集合，分为基于动态表情序列的特征提取和基于身体姿态变化的特征提取。通过迁移学习的方式实现，使用迁移学习的优势是更加适应数据集样本量不足的情况，通过预训练好的权重模型具有更好的特征泛化能力，具体地，在本实施例中，两种模式的特征提取实现如下：

(1)使用VGGFace模型建立动态表情帧的特征提取器，模型在大型人脸数据集VGGFace2上进行训练，可以从不同环境、人群中提取表情变化特征；

(2)使用Inception模块提取身体姿态在视频中的变化特征，Inception在大型图像数据集上进行训练，能更高效的利用计算资源，在相同的计算量下能提取到更多的特征，从而具有很好的特征提取效果。

对于一个图像帧提取到的表情特征和姿态特征为2048维的特征向量，采用并行特征融合的方法，将两组特征向量组合成一个向量消除因不同特征集之间的相关性而产生的冗余信息，获取与学习状态相关的特征，融合方式如下：

其中，X表示面部表情特征，Y表示身体姿态特征，W_X表示面部表情特征权重，W_Y表示身体姿态特征权重，Z表示融合特征。其实现如图3所示。

进一步，本实施例基于LSTM构建序列分类器，将融合特征集合输入到LSTM网络中训练分类模型，因为学习状态的变化是在连续时间内发生的，需要利用其时序关联，因此，本实施例采用LSTM构建时序分类网络，网络的输入为融合的特征向量，输出为情感状态的判断分类，如图4所示。

本实施例使用Keras搭建整个深度学习网络。本实施例涉及的深度学习模型解决的是一个分类问题，训练时数据库选择课堂环境下的大规模自发多模态学生情感数据库BNU-LSVED2.0，分别从两种模态进行训练。首先根据划分范围将包含面部表情和身体姿态的图像分类，分别为视频序列贴上One-hot形式标签。然后将分类后数据中的80％作为训练集，20％作为验证集输入模型进行训练，获得理想的分类模型。模型的训练需要在有相当计算能力的GPU上进行。

S103，通过预设的情感与学习状态的关联坐标系，基于学生的情感状态映射得到学生学习状态，以通过学生学习状态进行教学评价，得到教学评价结果。

其中，情感与学习状态的关联坐标系如图5所示。

综上，本实施例针对教学场景中学生学习情感的周期性问题，将空间和时间特征融合，根据表情和姿态数据集的内在聚类特性，建立双模态评价空间，从高维数据中提取数据规则，实现低层情感数据特征到高层次语义教学评价的映射。通过建立的情感与学习状态的关联坐标系，基于获取的情感映射分析学生状态变化用于教学评价。根据双模态情感特征训练得到学习状态分析模型，进一步输出情感权重值，可以映射对应的学习情感状态，依据视频中采集的面部表情与身体姿态信息，检测情感特征值的变化，通过情感分析可以获取学生主体的情感状态，建立完善的教学评价体系，其关联方式如图6所示。

第二实施例

本实施例提供一种设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，当所述指令由处理器加载并执行时，实现第一实施例的方法。

该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)和一个或一个以上的存储器，其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以下步骤：

第三实施例

本实施例提供一种存储介质，该存储介质中存储有至少一条指令，当所述指令由处理器加载并执行时，实现上述第一实施例的方法。该存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims

1.一种表情与姿态融合的双模态教学评价方法，其特征在于，包括：

2.如权利要求1所述的表情与姿态融合的双模态教学评价方法，其特征在于，对所述视频数据进行预处理，得到用于表示学生面部表情变化的表情序列数据和用于表示学生身体姿态变化的姿态序列数据，包括：

对所述表情序列数据和所述姿态序列数据进行帧数归一化。

3.如权利要求2所述的表情与姿态融合的双模态教学评价方法，其特征在于，在所述深度学习模型的训练阶段，对所述视频数据进行预处理还包括：

4.如权利要求1所述的表情与姿态融合的双模态教学评价方法，其特征在于，通过预设的深度学习模型分别提取所述表情序列数据中每一图像帧所包含的面部表情特征和所述姿态序列数据中每一图像帧所包含的身体姿态特征，包括：

5.如权利要求4所述的表情与姿态融合的双模态教学评价方法，其特征在于，所述CNN模型通过迁移学习的方式实现。

6.如权利要求5所述的表情与姿态融合的双模态教学评价方法，其特征在于，通过预设的深度学习模型分别提取所述表情序列数据中每一图像帧所包含的面部表情特征和所述姿态序列数据中每一图像帧所包含的身体姿态特征，包括：

7.如权利要求1所述的表情与姿态融合的双模态教学评价方法，其特征在于，所述将属于同一图像帧的面部表情特征和身体姿态特征进行融合，包括：

将属于同一图像帧的面部表情特征和身体姿态特征按照下式进行融合：

8.如权利要求1所述的表情与姿态融合的双模态教学评价方法，其特征在于，所述根据连续图像帧所对应的融合特征序列，获取学生的情感状态，包括：

9.一种设备，包括处理器和存储器，所述存储器中存储有至少一条指令，其特征在于，当所述指令由所述处理器加载并执行时，实现如权利要求1-8任一项所述的方法。

10.一种存储介质，所述存储介质中存储有至少一条指令，其特征在于，当所述指令由处理器加载并执行时，实现如权利要求1-8任一项所述的方法。