CN112487948B

CN112487948B - 一种基于多空间融合的学习者学习过程的专注度感知方法

Info

Publication number: CN112487948B
Application number: CN202011355622.8A
Authority: CN
Inventors: 杨宗凯; 廖盛斌; 杨邵军
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2022-05-13
Anticipated expiration: 2040-11-27
Also published as: CN112487948A

Abstract

本发明公开了一种基于多空间融合的学习者学习过程的专注度感知方法。该方法包括：获取学生教师课堂学习过程中的感知温度图像；对所述感知温度图像进行预处理，并按照预设的频率选取所述感知温度图像的关键帧；将选取的所述关键帧输入2D卷积神经网络，得到第一输出特征；获取学生线上学习过程中的鼠标移动轨迹；将若干张带有时间序列的所述鼠标移动轨迹输入3D卷积神经网络，得到第二输出特征；将所述第一输出特征与第二输出特征输入SVM线性分类器，得到专注度分级结果。本发明实现了使用深度学习方式提取特征，将二维卷积网络和三维卷积网络分别提取不同的特征，并且对特征使用SVM线性分类器进行分类，可以获得更好的分类效果。

Description

一种基于多空间融合的学习者学习过程的专注度感知方法

技术领域

本申请涉及教育信息化技术领域，具体而言，涉及一种基于多空间融合的学习者学习过程的专注度感知方法。

背景技术

温度是每个人在生活中无时无刻都会拥有的特征，也是人的身体各个部分都会出现的特征，同时，在人的心理特征或者身体状态出现不同的波动时，人的身体不同的部位的温度都会出现变化。因此，人的身体部分的温度会很直接的映射出学生的学习状态。而在网络空间的学习过程中，鼠标的移动也是必不可少的人体活动，而不同的鼠标移动轨迹也反映出当前时间学生的学习状态、专注度等信息。因此，捕捉到这些人体自然而然的在学习过程中的反应，对观测学生在学习过程中的专注程度有相当高的应用价值。

目前的学生学习感知技术都是使用传统的传感器，观测学习者的眼动状态、通过视频录像人为的判断、或者使用神经网络来识别面部表情、学习者的学习姿态等信息来学习学生的学习状态，但是缺忽略了学生的内在表征及一些细微的动作变化也反映了学生当前的学习状态。

中国专利申请号为202010719020X的发明专利申请公开了一种基于头部姿态的专注度检测方法及装置，其主要技术方案为：获取预设时间段内采集到包含有头部动作的用户头部图像；当接收到识别指令时，将所述用户头部图像输入至所述头部姿态识别模型中，输出用户头部姿态数据，其中，所述头部姿态识别模型用于识别样本图像中的头部区域以及头部偏移角度；通过解析所述用户头部姿态数据，确定用户在预设时间段内的专注度。然而，头部姿态是学习者学习过程中的外部行为，并且容易因个人习惯产生干扰性数据，对专注度检测结果造成影响。

发明内容

为了解决上述问题，本申请实施例提供了一种基于多空间融合的学习者学习过程的专注度感知方法。该方法将针对物理空间学习过程中的人体温度和网络空间学习过程中的鼠标移动轨迹，分别训练2D和3D卷积网络，再使用SVM线性分类器对神经网络提取出的特征进行分类，从而达到学习者学习过程中的专注度预测。

第一方面，本申请实施例提供了一种基于多空间融合的学习者学习过程的专注度感知方法，所述方法包括：

(1)获取学生教师课堂学习过程中的感知温度图像；

(2)对所述感知温度图像进行预处理，并按照预设的频率选取所述感知温度图像的关键帧；

(3)将选取的所述关键帧输入2D卷积神经网络，得到第一输出特征；

(4)获取学生线上学习过程中的鼠标移动轨迹；

(5)将若干张带有时间序列的所述鼠标移动轨迹输入3D卷积神经网络，得到第二输出特征；

(6)将所述第一输出特征与第二输出特征输入SVM线性分类器，得到专注度分级结果。

所述步骤(1)中的温度感知图像，需要在教室中安装固定的红外测温仪，按照时间点记录下每一帧的温度图像。

所述步骤(3)的2D卷积神经网络的原型依托于VGG-13网络，在其基础上，根据我们所设定的关键帧的帧数，对后续的网络进行修改。

具体的，所述步骤(3)中的2D卷积神经网络按照以下方式训练得到：

所述2D卷积神经网络结构包括输入层，至少两次交互堆叠的卷积层和池化层、线性连接层；输入层将样本感知温度图像输入交互堆叠的卷积层和池化层，得到用于专注度分类的图像特征；将这些图像特征输入SVM线性分类器，依据线性分类器的误差，计算得到分类特征的误差，再通过计算得到的误差反向传播计算每一层参数的梯度，进而依据梯度对连接每一层参数进行调整，该过程循环进行，直到使每一层参数达到分类输出的误差极小点或者分类正确率不再上升而停止迭代。

所述步骤(4)的鼠标移动轨迹，需要使用浏览器内核的内置JavaScript函数，记录下每次移动的位置，生成移动轨迹图像。

所述步骤(5)的3D卷积网络的原型依托于C3D网络结构，其特征在于，通过3D卷积在提取特征的过程中，会提取到时间运动序列中的特征，与2D卷积类似，一个卷积核对应一个特征。

具体的，所述步骤(5)中的3D卷积神经网络按照以下方式得到：

所述3D卷积神经网络结构也包括输入层，至少两次交互堆叠的卷积层和池化层、线性连接层；3D卷积的输入层将样本感知一系列的鼠标移动轨迹图像输入交互堆叠的卷积层和池化层，得到用于专注度分类的鼠标轨迹移动图像特征；将这些轨迹特征图像特征输入SVM线性分类器，更新每一层的参数，与2D卷积方式类似。

所述步骤(6)中的SVM线性分类器，由步骤(3)和步骤(5)的完整训练完成后的卷积层提取特征，将特征作为SVM线性分类器的多个维度，构造能够对专注度分级的SVM线性分类器。

具体的，所述步骤(6)中的SVM线性分类器按照以下方式得到：

SVM线性分类器，包括分类的特征及分类的类别，将在步骤(3)和步骤(5)中训练完成的卷积神经网络的卷积层提取出的特征向量，输入到一个初始化完成的线性分类器中，经过对应类别的目标向量及SVM预测的向量之间的误差，使用梯度下降法得到最优分类的参数，就得到了多分类的SVM线性分类器。

优选的，所述对所述感知温度图像进行预处理，包括：

确定仪器测量的范围为x₀℃～x₁℃，所述感知温度图像的像素点为[r_i,g_j,b_k]；

通过使得x₀℃～x₁℃映射到所述像素点三个通道0～255的区间范围内。

具体的，所述感知温度图像本质上也是一种RGB格式的图像，图像上面的颜色深浅即代表不同的温度，但是普通的红外测温仪测出来的图像都是在一个区间范围内的温度。首先我们需要使将图像测出的温度在人体的温度范围内，避免颜色过度集中。我们需要使RGB图像三个通道的取值尽可能的离散，否则图像像素点之间的色差会使得神经网络难以学习到颜色的特征，也就难以学习到对应着温度变化的特征。仪器测量的范围为x₀℃～x₁℃，而对应的RGB图像的像素点为[r_i,g_j,b_k]，就会是在这个范围内的颜色，通过计算，使得x₀℃～x₁℃映射到三个通道0～255的区间范围内，以r通道为例。r_max,r_min表示r通道的最大值和最小值,则r通道对应的值r_i：

g，b通道以此类推，这样就使得每个通道对应的点值分布在0～255之间。

优选的，所述选取所述感知温度图像的关键帧，包括：

通过固定间隔选帧和随机选帧的方式选取所述感知温度图像的关键帧，所述固定间隔选帧用于选取覆盖整个记录时间段的帧，所述随机选帧用于防止遗漏重要的产生变化的帧。

优选的，所述固定间隔选帧包括：

确定选取关键帧为p帧，红外视频的帧率为q帧每秒，视频总长度为s秒，则选取的帧对应位置的间隔为(s*q)/p；

所述随机选帧包括：

在每个固定选帧的时间区间内，随机选取两帧作为关键帧；

将所述随机选帧的关键帧与所述固定间隔选帧的关键帧叠加作为红外视频的关键帧。

具体的，红外测温仪测得的RGB红外视频，大多是1s内拍摄多张图片，如果这些图片都作为神经网络的输入通道，网络的规模就需要对应的匹配，超出我们的机器能承受的范围，因此我们对拍摄的红外视频选取关键帧。我们选取的帧分为两部分，固定间隔选帧和随机选帧。在一段视频中选取关键帧p帧，红外视频的帧率为q帧每秒(fps，Frames PerSecond)，视频总长度为s秒，则我们选取的帧对应位置为间隔应为(s*q)/p。以固定间隔选帧的方式也必定会有一些红外图像选取的角度不好，或者遗漏了一些人体体温变化的时间点。以固定间隔选帧的方式也必定会有一些红外图像选取的角度不好，或者遗漏了一些人体体温变化的时间点。因此增加随机选帧的方式来弥补固定间隔选帧可能造成的影响。随机选帧的方式为，在每个固定选帧的时间区间内，随机选取两帧作为关键帧，与固定间隔选帧方式所选取的关键帧叠加作为一段红外视频的关键帧。

优选的，所述获取学生线上学习过程中的鼠标移动轨迹，包括：

通过浏览器内置JavaScript函数获得鼠标相对于屏幕的当前位置；

设置计时器F，当所述鼠标开始移动时，将所述计时器F标记为true并使所述计时器F在不同时刻分别记录所述鼠标的位置；

当所述鼠标停止移动后，将所述计时器F标记为false并使所述计时器F停止记录所述鼠标的位置，生成鼠标移动轨迹图像；

当所述鼠标再次开始移动时，将所述计时器F标记为true并使所述计时器F重新在不同时刻分别记录所述鼠标的位置。

具体的，鼠标移动轨迹是一系列的曲线。当鼠标在浏览器中浏览学习资源时，浏览器窗口就相当于是一个平面直角坐标系，每个点都有一个独一无二的坐标。鼠标移动过程经过的点连起来就是鼠标移动的轨迹曲线。

使用浏览器内置JavaScript函数可以获得当前鼠标点相对于屏幕的位置，使用计时器F作为鼠标是否正在移动的标志，判断依据是上次记录的点和此次记录的点的坐标是否一致。当鼠标开始移动时，使计时器F标记为True，在不同时刻分别记录各自的位置，一系列的位置记录完成后，就记录下了一张鼠标移动轨迹图像；当鼠标停止移动后，计时器的信息变化，使计时器F标记为False，停止记录位置；当鼠标再次开始移动，再次使计时器F标记为True，就会记录下一张新的鼠标游动轨迹图像。由于屏幕的刷新速度可能会高于脚本执行的速度，因此，我们若只得到一系列的离散的点，我们需要通过记录下来的移动过程中经过的点，来还原整个移动的轨迹。假设在记录间隔1ms之间的距离，移动的都是直线，因此就得到了多段相互连接的极短的直线段近似为记录下来的曲线。多张类似的近似曲线，叠加起来，就变成了具有时序的一系列的鼠标移动轨迹图像。多张单次移动轨迹的图像合并起来就变成了步骤(4)中输入3D卷积网络的具有时间序列性质的鼠标移动轨迹。

本发明的有益效果为：人体的温度会随着人的心理因素，以及外界的因素而变化，进而产生会影响学生学习效率专注度的因素。鼠标移动轨迹，是学生在网络空间学习中必不可少的数据流，但是同样也是反映出学习的专心程度。但是同时这两种数据获取简单，不易察觉，也就不会对学生的学习状态造成影响，避免了因为收集数据造成的不真实样本。使用深度学习方式提取特征，将二维卷积网络和三维卷积网络分别提取不同的特征，并且对特征使用SVM线性分类器进行分类，可以获得更好的分类效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于多空间融合的学习者学习过程的专注度感知方法的流程示意图；

图2为本申请实施例提供的数据采集的图像示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在下述介绍中，术语“第一”、“第二”仅为用于描述的目的，而不能理解为指示或暗示相对重要性。下述介绍提供了本发明的多个实施例，不同实施例之间可以替换或者合并组合，因此本发明也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而，如果一个实施例包含特征A、B、C，另一个实施例包含特征B、D，那么本发明也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例，尽管该实施例可能并未在以下内容中有明确的文字记载。

下面的描述提供了示例，并且不对权利要求书中阐述的范围、适用性或示例进行限制。可以在不脱离本发明内容的范围的情况下，对描述的元素的功能和布置做出改变。各个示例可以适当省略、替代或添加各种过程或组件。例如所描述的方法可以以所描述的顺序不同的顺序来执行，并且可以添加、省略或组合各种步骤。此外，可以将关于一些示例描述的特征组合到其他示例中。

本发明的技术思路是：使用多通道的红外热学图来训练一个神经网络，网络对原始拍摄的红外温度图像进行选取关键帧并正则化后进行2D卷积操作从空间维度上提取特征，使得模型能够从一段时间内的热学成像图提取出体温变化特征；使用单通道的鼠标移动轨迹图像训练一个3D卷积神经网络，网络对原始输入数据分别进行3D卷积操作从空间维度和时间维度上提取特征，使得模型能从相邻的帧之间高效地抽取出鼠标移动轨迹的静态特征和动态特征，最后再对两个神经子网络的输出特征进行有效分类。本发明对两种不同数据格式中的图像信息进行准确的提取，有效降低了模型的计算复杂度，并采用SVM线性分类策略融合两个网络所提取出的特征，有效解决了在网络分类器中，会对低耦合的数据进行进一步的提取特征的分类错误思想，使模型对不同温度下的数据和无目的的移动行为记录有较好的鲁棒性。

本发明使用的2D、3D卷积神经网络构造和训练包含以下环节：

第一步，前向传播：

前向传播过程中的2D卷积操作如下所示

上式中，

表示输入的样本图像数据，下标中(l-1)m表示第l-1层中的第m个特征图，上标中x和y代表输入样本的空间维度，p、q分别是卷积操作中维度的大小。

是卷积核连接到前面第m个特征图中坐标为(i,j,m)的权值参数，P_i,Q_i代代表卷积核的大小。

表示l层中的第j个特征图的偏置参数。

表示卷积层输出结果。前向传播过程中的3D卷积操作与2D卷积类似：

上式中，

表示输入的样本图像数据，下标中(l-1)m表示第l-1层中的第m个特征图，上标中x和y代表输入样本的空间维度，z代表时间维度，p,q,r分别是卷积操作中维度的大小。

是卷积核连接到前面第m个特征图中坐标为(i,j,m)的权值参数，P_i,Q_i,R_i代表卷积核的大小。

表示l层中的第j个特征图的偏置参数。

表示卷积层输出结果。σ是神经网络的激活函数，这里优选使用Rectifiedlinearunit(ReLU)作为激活函数，rectifier(X)＝max(0,X)，避免当网络层数很深时，会出现梯度消失问题。每个卷积层之后紧随着池化层。池化操作可以急剧减少不明显特征的数量，减少计算复杂度，在2D卷积后的池化操作定义为：

为二维输入向量，即二维卷积后的输出，pool_max为池化后得到的输出，n代表池化操作在空间维度上的窗口大小，对二维的单帧图像不同n*n块内的特征提取最大值，这样二维的特征图的尺寸缩小了n倍；3D卷积后的池化操作与其类似：

对空间特征图的n*n*l的空间内提取最大特征值，使得特征图尺寸在不同维度上缩小了n,n,l倍，同时网络对序列时间域上的变化更加鲁棒。针对多个专注度级别的分类任务，在最后的输出层使用了SoftMax分类器，把判定多个类的特征转化为合为1的一组向量，对t个特征标量，SoftMax函数定义为

x_i表示输出层第i个神经元的输出，这样，可以将t个标量x₁,…,x_t转换为一个概率分布，p₁,…,p_t满足

非类器计算出每个样本属于第i类的概率，且所有的概率之和为1。

第二步，定义损失函数：

考虑到多分类任务，假设共有C个专注度级别，预测目标p为离散的类别为每个类的概率，这里使用交叉熵函数来训练神经网络：

上式中，x是输入的图像数据样本，y_i是真实的专注度级别，其中p＝[p₀,p₁,……p_C-1]是每个类别的预测值，每个样本属于第i类的概率y＝[y₀,y₁,……y_C-1]是样本的one-hot表示，当样本实际类别属于第一类时，即y₀＝1时，与样本为第一类的预测结果有关。f(x,θ)是神经网络结构预测的概率分布，Loss是损失函数，用来判断网络对真实概率分布估计得准确程度。θ表示神经网络中待训练的神经网络结构参数，可以直接使用梯度下降法优化，而优化的目的是通过迭代出更合适的θ值，降低Loss，达到一个全局最优解或者局部最优解。

第三步，梯度下降优化算法：

由损失函数计算得到的误差来反向传播从而计算每一层参数梯度，按照再是进行神经网络参数的更新：

θ_(t+1)＝θ_t+v_t+1

上式中，

表示一个批量(batch)的数据训练后得到的损失函数L对于前一个迭代周期参数θ_t-1的梯度，且第t次迭代的参数更新依赖于发生在第t-1次迭代时的更新。ε表示学习速率，2d初始值指定为0.1，3D网络出事值指定为0.003；为了防止过拟合，如果损失函数误差值的减小速率没有达到10％，则每个周期对ε进行5％的衰减，从而保证参数更新不断减小，使学习过程向着复杂句侧面的反方向偏置。v_t是动量项，表示当前迭代累计的参数调整惯性，μ是冲量系数设为0.9，在迭代的初期，使用前一次的梯度进行加速；而在迭代后期优化到达收敛值附近时，因为两次更新方向基本相反，使得梯度逐渐缩小。这里的参数更新法则与小批量梯度下降，的方法类似，不同的是这里在计算梯度时，会有上次的梯度的冲量，因此提高了收敛速度。

参见图1与图2，下面将结合图1、图2，对本发明的具体方法步骤进行描述。

步骤1：体感热学数据采集

学生在物理空间教室内学习过程中，温度本身是一个不会消失的物理量。为了使学生对测温设备的警惕性降低，减轻由于监测设备对学习专注度的影响。因此我们在教室内安装红外测温仪，在学生上课时采集学生的身体温度，以多帧连续的时间序列图像进行保存。

步骤2:鼠标移动轨迹数据采集

在学生网络空间学习的过程中，鼠标移动是一个必不可少的行为。因此我们采用JavaScript浏览器插件，记录下学生的鼠标移动过程。由于屏幕刷新率有可能会高于学生的鼠标移动屏幕的像素，因此保存下的为一系列屏幕上的坐标点，再通过屏幕大小，映射为屏幕上的点迹图。

步骤3：数据预处理

体感热学图像的处理，人体的温度大多分布在35-40摄氏度，因此我们把温度映射到更广的空间内，正常RGB的图像的像素点是在0-255。而对于鼠标移动轨迹的处理，我们需要把点迹变为移动的曲线，使用小窗口的双线性插值法，处理点迹之间的空白区。

步骤4：构造神经网络模型

构建一个2D卷积神经网络，一个3D卷积神经网络，都包括输入层，卷积层，池化层，SoftMax分类层。2D卷积网络参照vgg13的结构。网络的输入由多张温度图组成，也就是多张RGB图像，作为网络的多通道输入。3D卷积网络参照C3D网络的结构。网络的多张图片是多张堆叠的鼠标移动灰度图。

步骤5：训练网络模型

将人体体温对应的RGB图像输入VGG13网络，将处理后的鼠标移动轨迹图输入C3D网络。将输入的数据通过神经网络的前向反向传播，得到预测的类别，然后再通过one-hot向量对应的误差反向传播来更新网络中浅层的权重参数。在多空间收集到的数据经过前期的预处理，分别输入到网络中进行训练。对于2D卷积网络：第一步：输入的样本图像大小为64*128*128，其中128*128表示图像的分辨率，64表示提取的64个关键帧。使用128个尺寸为64*3*3的不同2D卷积和进行2D卷积操作，其中3*3是指在空间维度上的卷积核尺寸，同时64对应的是输入的通道数，从而得到128通道的feature map。紧接着卷积操作之后为池化操作，在feature map上，进行采样单元为2*2的下采样，得到通道数相同但是特征树数为原来四分之一的feature map.

对于3D卷积网络：

第一步：输入的样本图像大小为1*64*128*128，其中128*128表示图像的分辨率，64表示鼠标移动轨迹的时间维度是64，1表示的3D卷积中的单通道输入。

第二步：使用32个尺寸为5*3*3的不同3D卷积核进行3D卷积操作，其中3*3是指在空间维度上的卷积核尺寸，5对应的是时间维度上的步长，在三维卷积中，看作64个时间序列叠加起来算单通道的输入，从而得到32通道的feature map。

第三步：紧接着卷积操作之后为池化操作，在feature map上，进行采样单元为2*2的下采样，得到通道数相同但是特征树数为原来四分之一的feature map.在空间维度上减少原来feature map中不重要的特征。

第四步：使用64个尺寸为32*5*3*3的不同3D卷积核进行3D卷积操作，其中3*3是指在空间维度上的卷积核尺寸，5对应的是时间维度上的步长，32表示的是上一步得到的32个通道，从而得到32通道的feature map。

在后续操作中，使用采样单元为2*2*2对时间和空间维度进行下采样，每次采样后，feature map变为原来的八分之一大小。

步骤6：构造线性分类器

当卷积神经网络已经完成了对输入内容的分类，其在末层的特征图，即可当作网络提取出的特征，将这些特征及对应的标签输入SVM线性分类器，即可得到一个针对特定特征的线性分类器。

以上所述者，仅为本公开的示例性实施例，不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰，皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后，将容易想到本公开的其实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的范围和精神由权利要求限定。

Claims

1.一种基于多空间融合的学习者学习过程的专注度感知方法，其特征在于，所述方法包括：

获取学生教师课堂学习过程中的感知温度图像；

对所述感知温度图像进行预处理，并按照预设的频率选取所述感知温度图像的关键帧；

将选取的所述关键帧输入2D卷积神经网络，得到第一输出特征；

获取学生线上学习过程中的鼠标移动轨迹；

将若干张带有时间序列的所述鼠标移动轨迹输入3D卷积神经网络，得到第二输出特征；

将所述第一输出特征与第二输出特征输入SVM线性分类器，得到专注度分级结果；

所述对所述感知温度图像进行预处理，包括：

通过使得x₀℃～x₁℃映射到所述像素点三个通道0～255的区间范围内；

所述选取所述感知温度图像的关键帧，包括：

通过固定间隔选帧和随机选帧的方式选取所述感知温度图像的关键帧，所述固定间隔选帧用于选取覆盖整个记录时间段的帧，所述随机选帧用于防止遗漏重要的产生变化的帧；

所述固定间隔选帧包括：

所述随机选帧包括：

在每个固定选帧的时间区间内，随机选取两帧作为关键帧；

将所述随机选帧的关键帧与所述固定间隔选帧的关键帧叠加作为红外视频的关键帧；

所述获取学生线上学习过程中的鼠标移动轨迹，包括：