CN113723277B

CN113723277B - 一种融入多模态视觉信息的学习意图监测方法及系统

Info

Publication number: CN113723277B
Application number: CN202110998162.9A
Authority: CN
Inventors: 刘海; 张昭理; 张胜强; 时振武; 童宇航; 吴远芳; 李林峰; 赵万里
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2024-02-27
Anticipated expiration: 2041-08-27
Also published as: CN113723277A

Abstract

本发明公开了一种融入多模态视觉信息的学习意图监测方法及系统。该方法包括步骤：分别采集学习者的红外图像数据和可见光图像数据；分别对所述红外图像数据和所述可见光图像数据进行预处理；将预处理后的所述红外图像数据和所述可见光图像数据输入到人脸检测器；将人脸检测器的输出数据输入到图像融合模型；将所述图像融合模块的输出数据输入到头部姿态识别模型，获取头部姿态识别数据，根据所述头部姿态识别数据判断学习者的学习意图。本发明可以实现不同模态的信息互补，提高光照变化或复杂背景下的头部姿态识别精准度，从而提高学习意图判断精准度。

Description

一种融入多模态视觉信息的学习意图监测方法及系统

技术领域

本发明属于智能人机交互技术领域，更具体地，涉及一种融入多模态视觉信息的学习意图监测方法及系统。

背景技术

随着现代化科学技术的不断发展，我国教育事业发展迅速，教育制度、素质教育、创新人才培养已逐渐成为人们的共识。毫无疑问，教育是每个国家最为看重的国家资源。教学场景也从单独课上这一场景已经发展为课下、线上等多样化形式，教育机器人助手辅助提高该环境下的教学质量以及陪伴学生提高上课效率是十分重要的意义。

学习意图是指人的心里活动指向和集中于某种事物的意愿，特别是表现在人对事物的关注点、对于事物投入的时间和精力。因此，学习意图可以反映一个人感兴趣的区域或者感兴趣的方向，这种特性被广泛应用，其中，研究课堂上的学生意愿也是人们重点关注的一个领域。但是，值得注意的是，课下学习者学习场景多样性、复杂性，导致头部姿态、视线估计以及表情识别任务准确性难以得到保证，从而导致学习意图判别有所偏差。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种融入多模态视觉信息的学习意图监测方法及系统，可以实现不同模态的信息互补，提高光照变化或复杂背景下的头部姿态识别精准度，从而提高学习意图判断精准度。

为实现上述目的，按照本发明的第一方面，提供了一种融入多模态视觉信息的学习意图监测方法，包括步骤：

分别采集学习者的红外图像数据和可见光图像数据；

分别对所述红外图像数据和所述可见光图像数据进行预处理；

将预处理后的所述红外图像数据和所述可见光图像数据输入到人脸检测器，获取所述红外图像数据的感兴趣区域图像和所述可见光图像数据的感兴趣区域图像；

将所述红外图像数据的感兴趣区域图像和所述可见光图像数据的感兴趣区域图像输入到图像融合模型；

将所述图像融合模块的输出数据输入到头部姿态识别模型，获取头部姿态识别数据，根据所述头部姿态识别数据判断学习者的学习意图。

优选的，所述分别采集学习者的红外图像数据和可见光图像数据包括步骤：

分别利用红外相机以及可见光相机记录学习者学习视频，再逐帧分解得到同一场景下同一时刻的红外图像数据和可见光图像数据。

优选的，所述分别对所述红外图像数据和所述可见光图像数据进行预处理包括步骤：

分别采用双线性内插值算法对所述红外图像数据和所述可见光图像数据进行图像缩放处理，图像缩放处理的方法是：将图像中缩放处理前的像素点的坐标记为(i,j)，值为f(i,j)，将缩放处理后的像素点的坐标记为(i+u,j+v)，值为f(i+u,j+v),其中u和v为范围在[0,1)区间内的小数，f(i+u,j+v)可由缩放处理前的图像中坐标为(i,j)，(i+1,j)，(i,j+1)，(i+1,j+1)所对应的四个像素的值决定，f(i+u,j+v)＝(1-u)(1-v)f(i,j)+(1-u)vf(i,j+1)+u(1-v)f(i+1,j)+uvf(i+1,j+1)。

优选的，所述图像融合模型包括MCNet网络、RGB-Snet网络和拼接模块，所述MCNet网络用于提取所述红外图像数据的感兴趣区域图像的特征，所述RGB-Snet网络用于提取所述可见光图像数据的感兴趣区域图像的特征，所述拼接模块用于将所述MCNet网络提取的特征和所述RGB-Snet网络提取的特征进行融合。

优选的，所述RGB-Snet网络基于VGG16网络实现。

优选的，为了实现最大的可见光模态和红外模态之间的差异，在只有模态标签的可见光图像和红外图像集合上进行训练，在所述MCNet引入二值分类器Θ(X_i∣Φ^M)，该分类器采用softmax作为分类损失函数。

优选的，所述头部姿态估计模型是多损失的卷积神经网络模型，所述卷积神经网络模型利用ResNet50作为训练网络，所述卷积神经网络模型的损失函数包括头部姿态欧拉角三个角度的损失。

优选的，所述根据所述头部姿态估计数据判断学习者的学习意图包括步骤：

设置积极状态和消息状态的划分阈值，将小于所述划分阈值的头部姿态确定为积极状态，将大于所述划分阈值的头部姿态确定为消极状态；

判断预设时间段内积极状态和消极状态占比，根据所述占比确定学习者的学习意图。

按照本发明的第二方面，提供了一种融入多模态视觉信息的学习意图监测系统，包括：

数据采集模块，用于分别采集学习者的红外图像数据和可见光图像数据；

预处理模块，用于分别对所述红外图像数据和所述可见光图像数据进行预处理；

检测模块，用于将预处理后的所述红外图像数据和所述可见光图像数据输入到人脸检测器，获取所述红外图像数据的感兴趣区域图像和所述可见光图像数据的感兴趣区域图像；

融合模块，用于将所述红外图像数据的感兴趣区域图像和所述可见光图像数据的感兴趣区域图像输入到图像融合模型；

识别模块，用于将所述图像融合模块的输出数据输入到头部姿态识别模型，获取头部姿态识别数据，根据所述头部姿态识别数据判断学习者的学习意图。

总体而言，本发明与现有技术相比，具有有益效果：

(1)本发明解决了在复杂光照环境变化情况下，学习者注意力的判别问题，对学习质量的提高和辅助教学具有重要意义。

(2)本发明将系统移植到教学机器人助手内，克服传统侵入式设备严重影响学生舒适度的问题。

附图说明

图1是本发明实施例的学习意图监测方法流程图；

图2是本发明实施例的家庭环境下数据获取示意图；

图3是本发明实施例的外红-可见光头部姿态融合示意图；

图4是本发明实施例的学习意图判断机制示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明实施例的一种融入多模态视觉信息的学习意图监测方法，包括以下步骤：

(1)分别采集学习者的红外图像数据和可见光图像数据。

优选的，分别采集学习者的红外图像数据和可见光图像数据包括步骤：利用红外相机(波段850nm)以及可见光相机记录学习者学习视频。再逐帧分解得到同一场景下同一时刻的双模态头部姿态图像。

(2)分别对红外图像数据和可见光图像数据进行预处理。

优选的，分别采用双线性内插值算法对红外图像数据和可见光图像数据进行图像缩放处理，图像缩放处理的方法是：采用双线性内插值算法进行图像缩放，将浮点坐标(i,j)通过反向变换得到浮点坐标为(i+u,j+v),其中u和v为浮点坐标范围在[0,1)区间内的小数部分，因此，该目标像素点的值f(i+u,j+v)可由源图坐标为(i,j)，(i+1,j)，(i,j+1)，(i+1,j+1)所对应的周围四个像素的值决定，也即：f(i+u,j+v)＝(1-u)(1-v)f(i,j)+(1-u)vf(i,j+1)+u(1-v)f(i+1,j)+uvf(i+1,j+1)。

(3)将预处理后的红外图像数据和可见光图像数据输入到人脸检测器，获取红外图像数据的感兴趣区域图像和可见光图像数据的感兴趣区域图像

具体地，再以VGG网络构建一个人脸检测器，不同大小的卷积层后面加入了几个小检测模块(M1,M2,M3)，每个小检测模块都会进行一个检测和分类处理，实现图像统一裁剪。

(4)将红外图像数据的感兴趣区域图像和可见光图像数据的感兴趣区域图像输入到图像融合模型。

基于双模态图像信息互补的特点进行红外光-可见光头部姿态融合，为后续头部姿态估计提供更加充分的特征信息。

优选的，图像融合模型包括MCNet网络、RGB-Snet网络和拼接模块，MCNet网络用于提取红外图像数据的感兴趣区域图像的特征，RGB-Snet网络用于提取可见光图像数据的感兴趣区域图像的特征，拼接模块用于将MCNet网络提取的特征和RGB-Snet网络提取的特征进行融合。

采用分阶段训练的方法对多模态融合网络进行训练，首先训练MCNet提取原始图像的浅层特征以及训练RGB-Snet提取深层特征，再选择桥节点将两者无缝拼接，最后将RGB流和IR流组合为多模态融合网络，充分融合跨模态和跨级互补。

优选的，RGB-Snet网络基于VGG16网络实现。在全连接(FC)层上进行了修改，以适应显著性检测任务。在RGB-SNet中，自适应FC层由3136个节点组成，通过sigmoid激活函数将深度表示映射到显著性概率。这样的设计考虑了完全卷积网络(FCN)和FC层在显著目标检测方面的区别，在FCN中，只有靠近图像中心的像素才能全局感知整个图像，而其他像素只能关注部分图像。相比之下，FC层中的每个节点都与图像中的所有像素完全连接。然后，3136个显著性概率被扭曲成56×56显著性地图。然后采用交叉熵损失算法，该算法融合了整个预测显著性图与真实显著性掩模之间的差异。这样，每个像素的显著性将与全局上下文进行推理，从而避免了局部区分模式的干扰。

优选的，为了测量RGB模态和IR模态之间的差异，给定RGB模态IR模态/>和假设类/>的分布，那么/>和/>之间的/>的散度表示为

其中Pr表示事件发生的概率，η表示二值分类器，sup表示上确界。

从公式(1)中可以看出，散度依赖假设类/>的分布区分/>样本的能力，经过检验/>散度可以进一步表示为

I[η(X_i)＝0]表示二元示性函数，n₁、n₂表示RGB和IR模态下的样品数量，其中N＝n₁+n₂。

为了实现最大的模态差异，本发明实施例的学习意图监测方法核心是在神经网络架构的上下文中实现这个想法，方法上具体为在只有模态标签的RGB和IR图像集合上进行训练，MCNet促进了能够有效区分IR和RGB图像的特征。形式上，MCNet引入二值分类器Θ(X_i∣Φ^M)，该分类器采用softmax作为分类损失函数，且表示为

(5)将图像融合模块的输出数据输入到头部姿态识别模型，获取头部姿态识别数据，根据头部姿态识别数据判断学习者的学习意图。

优选的，头部姿态估计模型是多损失的卷积神经网络模型。将融合之后的图像输入到一个多损失(multi-loss)的卷积神经网络模型中，该模型利用ResNet50网络作为训练网络，在最后输出层修改了它的损失函数。使用3个分离的损失，即针对每一个欧拉角，单独计算其损失，每个损失由两部分组成：分块姿态分类与回归组件组成，得到学习者头部三维空间中水平转动角(yaw)、竖直转动角(pitch)以及滚动角(roll)准确角度。

优选的，根据头部姿态估计数据判断学习者的学习意图包括步骤：设置积极状态和消息状态的划分阈值，将小于划分阈值的头部姿态确定为积极状态，将大于划分阈值的头部姿态确定为消极状态；判断预设时间段内积极状态和消极状态占比，根据占比确定学习者的学习意图。

在一个实施例中，学习者在家庭环境中课下学习时，学习者学习意图集中与教学课程时头部转动幅度较小，经过头部姿态估计结果和统计得出，积极类的状态中学生的头部姿态变化量在正负30°的范围内，而消极类的变化量均大于30°。参照PERCLOS算法，每隔10秒统计该时段内头部偏离帧数所占比值，当比值超过80％时即判定在该时段内学生处于学习意图消极状态。

假设十分钟内判断头部姿态600次，根据十分钟内偏离情况计算第j个同学注意力状况，可以用公式(6)：

本发明实施例的一种融入多模态视觉信息的学习意图监测系统，包括：

预处理模块，用于分别对红外图像数据和可见光图像数据进行预处理；

检测模块，用于将预处理后的红外图像数据和可见光图像数据输入到人脸检测器，获取红外图像数据的感兴趣区域图像和可见光图像数据的感兴趣区域图像；

融合模块，用于将红外图像数据的感兴趣区域图像和可见光图像数据的感兴趣区域图像输入到图像融合模型；

识别模块，用于将图像融合模块的输出数据输入到头部姿态识别模型，获取头部姿态识别数据，根据头部姿态识别数据判断学习者的学习意图。

系统的实现原理、技术效果与上述方法类似，此处不再赘述。

上述融入多模态视觉信息的学习意图监测方法和系统可以移植到教学机器人里。

必须说明的是，上述任一实施例中，方法并不必然按照序号顺序依次执行，只要从执行逻辑中不能推定必然按某一顺序执行，则意味着可以以其他任何可能的顺序执行。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融入多模态视觉信息的学习意图监测方法，其特征在于，包括步骤：

分别采集学习者的红外图像数据和可见光图像数据；

将所述红外图像数据的感兴趣区域图像和所述可见光图像数据的感兴趣区域图像输入到图像融合模型；其中，所述图像融合模型包括MCNet网络、RGB-Snet网络和拼接模块，所述MCNet网络用于提取所述红外图像数据的感兴趣区域图像的特征，所述RGB-Snet网络用于提取所述可见光图像数据的感兴趣区域图像的特征，所述拼接模块用于将所述MCNet网络提取的特征和所述RGB-Snet网络提取的特征进行融合；

将所述图像融合模型的输出数据输入到头部姿态识别模型，获取头部姿态识别数据，根据所述头部姿态识别数据判断学习者的学习意图；

所述根据所述头部姿态估计数据判断学习者的学习意图包括步骤：

设置积极状态和消极状态的划分阈值，将头部姿态变化量小于所述划分阈值的头部姿态确定为积极状态，将头部姿态变化量大于所述划分阈值的头部姿态确定为消极状态；

2.如权利要求1所述的一种融入多模态视觉信息的学习意图监测方法，其特征在于，所述分别采集学习者的红外图像数据和可见光图像数据包括步骤：

3.如权利要求1所述的一种融入多模态视觉信息的学习意图监测方法，其特征在于，所述分别对所述红外图像数据和所述可见光图像数据进行预处理包括步骤：

4.如权利要求1所述的一种融入多模态视觉信息的学习意图监测方法，其特征在于，所述RGB-Snet网络基于VGG16网络实现。

5.如权利要求1所述的一种融入多模态视觉信息的学习意图监测方法，其特征在于，为了实现最大的可见光模态和红外模态之间的差异，在只有模态标签的可见光图像和红外图像集合上进行训练，在所述MCNet引入二值分类器Θ(X_i∣Φ^M)，该分类器采用softmax作为分类损失函数。

6.如权利要求1所述的一种融入多模态视觉信息的学习意图监测方法，其特征在于，所述头部姿态估计模型是多损失的卷积神经网络模型，所述卷积神经网络模型利用ResNet50作为训练网络，所述卷积神经网络模型的损失函数包括头部姿态欧拉角三个角度的损失。

7.一种融入多模态视觉信息的学习意图监测系统，其特征在于，包括：

融合模块，用于将所述红外图像数据的感兴趣区域图像和所述可见光图像数据的感兴趣区域图像输入到图像融合模型；其中，所述图像融合模型包括MCNet网络、RGB-Snet网络和拼接模块，所述MCNet网络用于提取所述红外图像数据的感兴趣区域图像的特征，所述RGB-Snet网络用于提取所述可见光图像数据的感兴趣区域图像的特征，所述拼接模块用于将所述MCNet网络提取的特征和所述RGB-Snet网络提取的特征进行融合；

识别模块，用于将所述图像融合模型的输出数据输入到头部姿态识别模型，获取头部姿态识别数据，根据所述头部姿态识别数据判断学习者的学习意图；