CN111832669B

CN111832669B - 学习参与度识别网络模型的建立方法及装置

Info

Publication number: CN111832669B
Application number: CN202010991609.5A
Authority: CN
Inventors: 徐敏; 董瑶; 马晓阳; 周丽娟; 张树东; 孙众
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2020-12-15
Anticipated expiration: 2040-09-21
Also published as: CN111832669A

Abstract

本文提供了一种学习参与度识别网络模型的建立方法及装置，方法包括：对获取的多个视频样本进行预处理，得到融合特征；根据所述视频样本的融合特征，构建学习参与度识别网络模型训练用的最小批；依据所述最小批中视频样本对的嵌入向量距离与所述最小批中视频样本对的参与度标签距离一致性有序的原则，构造有序度量损失函数，其中，所述嵌入向量由所述学习参与度识别网络模型根据视频样本的融合特征计算得到；根据所述有序度量损失函数，优化所述学习参与度识别网络模型中的参数。本文能够提高学习参与度识别的准确度。

Description

学习参与度识别网络模型的建立方法及装置

技术领域

本文涉及人工智能领域，尤其涉及一种学习参与度识别网络模型的建立方法及装置。

背景技术

参与是情感状态的一种，它包括情感参与、行为参与、认知参与等方面。学习参与度是教师与学生通过教育、教学活动的相互作用所表现出的结果，是评估学生学习参与情况的重要指标。在传统教育中，教师可以直接观察学生的行为判断学生的参与度，但无法同时全面地观察到每一个学生。随着电子学习环境在教育领域的出现，在线教育提供了一种全新的知识传播模式和学习方式。线上教育平台利用丰富的网络信息资源进行教育活动，师生间的教与学可以不受时间和空间的限制，知识获取方式更加灵活化与多样化。然而，基于网络课程的远程性质和庞大规模，在线教育普遍存在辍课率高和完成率低的现象，因此，急需一种线上学习参与度识别方法以提供学生在线学习反馈和指导教师的干预。由此可见，进行参与度识别研究对提高在线学习质量具有重大意义。

参与度识别与人脸识别等其他分类任务相比较，具有参与度标签有序性的特点。目前度量学习方法在解决标签有序的分类问题时，一般都是通过将连续标签量化为二分类标签（相似或不相似），并没有充分利用连续标签视频或图像中丰富的相似性语义信息，并且需要对量化相似性的阈值进行仔细调整。另外，参与度识别这个任务存在严重的样本数据分布不均衡问题，无论是在线学习环境还是传统课堂，大多数受教育者都能认真听讲保持较高的参与程度，只有少数受教育者不专心而有较低的参与程度。

在线学习环境中，参与度识别可以基于各种数据模式实现，如学生上课的反应、面部表情或身体动作，甚至是先进的生理和神经测量，而利用图像采集设备记录学生在线学习过程是捕获学生数据特征的一个很好的方式。2014年Whitehil等人利用视频分析人脸特征，并构建了用于参与度预测的SVM分类器；2017年Monkaresi等人同时收集22名学生的面部视频和心率数据，并将面部跟踪特征、LBP-TOP特征和心率特征一起用于构造机器学习模型和参与度预测；Niu等人采用OpenFace进行面部表情（AU）、头部姿态特征（Head Pose）以及眼睛凝视特征（Eye Gaze）提取，设计提出了Gaze-AU-Pose特征用于参与度识别任务。

随着深度学习的快速发展，深度度量学习方法被广泛应用于包含人脸识别、图像分类、行人再识别等任务，充分验证了它对于解决视觉分类和识别这类任务的有效性。目前对深度度量学习方法的研究主要分为两个方向，一个方向是对深度网络结构的设计与优化，另一个更重要的方向则是对目标损失函数的改进，常用的损失函数包含对比损失、三元组损失、四元组损失、N-Pair损失以及Rank损失，它们目标都是约束使得在嵌入空间中，正样本的距离尽可能小，同时负样本的距离尽可能大。

现有技术中学习参与度识别方法并未考虑参与度识别任务的特点（例如样本数据分布不均衡、连续视频或图像有丰富的相似性语义信息等等），具有识别准确率低的缺陷。

发明内容

本文用于解决现有技术中学习参与度识别方法并未考虑参与度识别任务的特点，具有识别准确率低的缺陷。

为了解决上述技术问题，本文的第一方面提供一种学习参与度识别网络模型的建立方法，包括：

对获取的多个视频样本进行预处理，得到所述视频样本的融合特征；

根据所述视频样本的融合特征，构建学习参与度识别网络模型训练时的最小批；

依据所述最小批中视频样本对的嵌入向量距离与所述最小批中视频样本对的参与度标签距离一致性有序的原则，构造有序度量损失函数，其中，所述嵌入向量由所述学习参与度识别网络模型根据视频样本的融合特征计算得到；

根据所述有序度量损失函数，优化所述学习参与度识别网络模型中的参数。

进一步实施例中，对获取的多个视频样本进行预处理，得到所述视频样本的融合特征，包括：

从每一视频样本中抽取k组子图像数据；

确定各组子图像数据的多模态特征；

融合每一视频样本中k组子图像数据的多模态特征，得到各视频样本的融合特征。

进一步实施例中，确定各组子图像数据的多模态特征，包括：

提取各组子图像数据的面部特征、身体姿态特征、动作特征；

串连各组子图像数据中提取出的面部特征、身体姿态特征、动作特征，得到各组子图像数据的多模态特征。

进一步实施例中，融合每一视频样本中k组子图像数据的多模态特征，得到各视频样本的融合特征，包括对每一视频样本的k组子图像数据执行如下操作：

对该k组子图像数据的多模态特征进行过滤，得到该k组子图像数据的显著值；

根据该k组子图像数据的显著值，确定该k组子图像数据的权重；

利用该k组子图像数据的权重，对该k组子图像数据的多模态特征进行加权融合，得到该视频样本的融合特征。

进一步实施例中，依据所述最小批中视频样本对的嵌入向量距离与所述最小批中视频样本对的参与度标签距离一致性有序的原则，构造有序度量损失函数，包括：

在有序度量损失函数中约束所述最小批中视频样本对的嵌入向量距离比值及所述最小批中视频样本对的参与度标签距离比值。

进一步实施例中，构造的有序度量函数公式利用如下公式表示：

其中， sim(v_a,v_i)为视频样本对的嵌入向量v_a,v_i距离， sim’(y_a,y_i)为视频样本对参与度标签y_a,y_i距离，a为从最小批视频样本中选择的锚点，i为锚点k’近邻的视频样本中选择的点，j为从剩余近邻的视频样本中随机选择的点，（a,i,j）为由锚点a及其相邻的两个点i和j组成的三元组，v为嵌入向量，y为参与度标签。

进一步实施例中，学习参与度识别网络模型的建立方法还包括：

根据对象的学习参与度类别，构造Focal损失函数；

根据所述有序度量损失函数，优化所述学习参与度识别网络模型中的参数进一步为：

根据所述有序度量损失函数及所述Focal损失函数，构造联合优化目标函数；

根据所述联合优化目标函数，优化所述学习参与度识别网络模型中的参数。

进一步实施例中，根据所述有序度量损失函数及所述Focal损失函数，构造联合优化目标函数，包括：

L=λ₁*L _metric ＋λ₂*FL，

其中，λ₁、λ₂是超参数，L _metric为有序度量损失函数，FL为Focal损失函数。

本文的第二方面提供一种学习参与度识别方法，包括：

实时获取受教育者学习时采集的图像信息；

对实时获取的图像信息做预处理，得到融合特征；

将所述融合特征输入至前述任一项得到的学习参与度识别网络模型中，得到受教育者的学习参与度。

进一步实施例中，学习参与度识别方法还包括：

实时展示所述受教育者的学习参与度。

本文的第三方面提供一种学习参与度识别网络模型的建立装置，包括：

预处理模块，用于对获取的多个视频样本进行预处理，得到所述视频样本的融合特征；

采样模块，用于根据所述视频样本的融合特征，构建所述参与度识别网络模型训练时的最小批；

学习参与度识别网络训练模块，用于依据所述最小批中视频样本对的嵌入向量距离与所述最小批中视频样本对的参与度标签距离一致性有序的原则，构造有序度量损失函数，其中，所述嵌入向量由所述学习参与度识别网络模型根据视频样本的融合特征计算得到；根据所述有序度量损失函数，优化所述学习参与度识别网络模型中的参数。

本文的第四方面提供一种学习参与度识别装置，包括：

图像采集模块，用于实时获取受教育者学习时采集的图像信息；

预处理模块，用于对实时获取的图像信息做预处理，得到融合特征；

参与度识别模块，用于将所述融合特征输入至利用前述学习参与度识别网络模型的建立装置得到的学习参与度识别网络模型中，得到受教育者的学习参与度。

本文的第五方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述任一项所述的学习参与度识别网络模型的建立方法或前述任一项所述的学习参与度识别方法。

本文的第六方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行计算机程序，所述计算机程序被处理器执行时实现前述任一项所述的学习参与度识别网络模型的建立方法或前述任一项所述的学习参与度识别方法。

本文通过利用有序度量损失函数对学习参与度识别网络模型进行优化，能够约束视频样本对的参与度的标签差值和融合特征相似性保持一致性有序，充分学习视频样本对丰富的语义信息并精确测量其在度量空间的相似程度，提高参与度识别的准确度。

为让本文的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本文实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本文的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本文实施例学习参与度识别网络模型的建立方法的第一流程图；

图2示出了本文实施例学习参与度识别网络模型的建立方法的第二流程图；

图3示出了本文实施例视频样本预处理过程的流程图；

图4示出了本文实施例子图像数据确定过程的流程图；

图5示出了本文实施例多模态特征确定过程的流程图；

图6示出了本文实施例多模态特征融合过程的流程图；

图7示出了本文实施例的学习参与度识别方法的流程图；

图8示出了本文实施例的学习参与度识别网络模型的建立装置的结构图；

图9示出了本文实施例的学习参与度识别装置的结构图；

图10示出了本文一具体实施例学习参与度识别网络模型训练过程的流程图；

图11示出了图10所示实施例融合特征提取与融合过程的示意图；

图12示出了图10所示实施例利用联合优化目标函数优化学习参与度识别网络模型的示意图；

图13示出了图10所示实施例学习参与度识别网络模型测试过程的流程图；

图14示出了本文实施例计算机设备的结构图。

附图符号说明：

110~140、210~260、310~330、311~312、321~322、331~333、710~730、S1~S7、S1’~S4’、步骤；

810、预处理模块；

820、采样模块；

830、学习参与度识别网络训练模块；

910、图像采集模块；

920、预处理模块；

930、参与度识别模块；

1402、计算机设备；

1404、处理器；

1406、存储器；

1408、驱动机构；

1410、输入/输出模块；

1412、输入设备；

1414、输出设备；

1416、呈现设备；

1418、图形用户接口；

1420、网络接口；

1422、通信链路；

1424、通信总线。

具体实施方式

下面将结合本文实施例中的附图，对本文实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本文一部分实施例，而不是全部的实施例。基于本文中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文保护的范围。

如图1所示，图1示出了本文实施例学习参与度识别网络模型的建立方法的第一流程图。本实施例能够约束视频样本对的对象学习参与度差值和融合特征相似性保持一致性有序，充分学习视频样本对丰富的语义信息并精确测量其在度量空间的相似程度，提高参与度识别的准确度。具体的，学习参与度识别网络模型的建立方法包括：

步骤110，对获取的多个视频样本进行预处理，得到视频样本的融合特征，多个视频样本的融合特征构成训练集。

视频样本由受教育者参与线上学习时采集，每一视频样本为预定时间段（例如为10s）的视频数据，至少包括一受教育者（对象）面部图像。

步骤120，根据所述视频样本的融合特征，构建学习参与度识别网络模型训练时的最小批。

详细的说，学习参与度识别网络模型为CNN网络（Convolutional NeuralNetworks，卷积神经网络），用于识别视频对象（受教育者）学习参与度。

一实施方式中，学习参与度识别网络模型选用ResNet-34,可识别出的参与度种类根据受教育者参与程度由低至高分为极低参与度、低参与度、高参与度和极高参与度共四个等级，对应的参与度标签值分别为1至4，等级1表示学生完全没有参与，具体可表现为眼睛经常看向屏幕外或呈半睁半闭状态，经常采取不必要的行动等；等级4表示学生参与度非常高，具体可表现为眼睛大部分时间聚焦在屏幕上，身体姿势直立，没有不必要的行动等。

其它实施方式中，学习参与度识别网络模型还可选用其它CNN网络，识别出的参与度也可进行其它划分，本文对此不作限定。

最小批中包括多个视频样本的融合特征，最小批中的视频样本的融合特征可同时对学习参与度识别网络模型进行训练，且共享学习参与度识别网络模型中的参数。具体的，最小批中包括一个锚点、锚点的K近邻样本以及其他随机采样的样本。根据最小批利用三元组采样策略可以得到共享锚点的多个三元组（用于学习参与度识别网络模型训练，具体训练过程参见后续实施例）。

步骤130，依据所述最小批中视频样本对的嵌入向量距离与所述最小批中视频样本对的参与度标签距离一致性有序的原则，构造有序度量损失函数。

其中，所述嵌入向量由所述学习参与度识别网络模型根据视频样本的融合特征计算得到，一般情况下，嵌入向量指的是学习参与度网络模型中倒数第二层输出的数据，最后一层用于分类。所述的参与度标签为利用人工预先标识的标签，本文对其标识方法不做限定。

一实施方式中，利用如下公式计算视频样本对的嵌入向量距离及参与度标签距离：

其中， sim(v_a,v_i)为视频样本对的嵌入向量v_a,v_i距离（即相似度）， sim’(y_a,y_i)为视频样本对参与度标签y_a,y_i距离。

一些实施方式中，在有序度量损失函数中约束最小批中视频样本对的嵌入向量距离比值及所述最小批中视频样本对的参与度标签距离比值，以消除最小批中视频样本对的嵌入向量距离比值与参与度标签距离比值之间的差异。

一实施方式中，可采用对数比损失函数构造的有序度量损失函数，表示为：

其中，a为从训练集中选择的锚点，i为锚点k’近邻的视频样本中选择的点，j为训练集中随机选择的视频样本点，（a,i,j）是由锚点a及其相邻点i和随机选择的点j组成的三元组，v为嵌入向量， y为参与度标签。

通过对数比损失构造有序度量损失函数的方式的优势为：允许一个已学习好的度量空间来反映标签的相似程度，用对数比损失函数训练的网络模型可以比那些只关注相似度排序的网络更彻底地表示图像之间的连续相似性；不需要超参数，因此能更精确地测量样本间的相似度。

步骤140，根据有序度量损失函数，优化学习参与度识别网络模型中的参数，待满足停止优化条件时，得到优化的学习参与度识别网络模型。

一些实施方式中，可利用SGD算法（Stochastic Gradient Descent，随机梯度下降）来求解有序度量损失函数，其它实施方式中，还可利用BGD（Batch Gradient Descent，批量梯度下降法）来求解有序度量损失函数。本文对有序度量损失函数的具体求解算法不做限定。

优化停止条件例如为达到设定的优化次数，或识别误差（人工标识的参与度标签与学习参与度识别网络模型识别出的参与度之间的差值）满足预定条件。

如图2所示，图2示出了本文实施例学习参与度识别网络模型的建立方法的第二流程图。本实施例能够约束视频样本对的参与度差值和融合特征相似性保持一致性有序，充分学习视频样本对丰富的语义信息并精确测量其在度量空间的相似程度，提高参与度识别的准确度，同时，还可以通过引入Focal损失函数解决数据分布不均衡的问题，提升学习参与度识别的性能。具体的，学习参与度识别网络模型的建立方法包括：

步骤210，对获取的多个视频样本进行预处理，得到视频样本的融合特征。

步骤220，根据所述视频样本的融合特征，构建学习参与度识别网络模型训练时的最小批。

步骤230，依据所述最小批中视频样本对的嵌入向量距离与所述最小批中视频样本对的参与度标签距离一致性有序的原则，构造有序度量损失函数，其中，所述嵌入向量由所述学习参与度识别网络模型根据视频样本的融合特征计算得到。

步骤240，根据参与度类别，构造Focal损失函数，其中，Focal损失函数如下公式所示：

其中，n为参与度类别个数，α_i为i类参与度的权重，p_i为i类参与度正确识别的比率，γ为调制因子，γ≥0相当于惩罚项，用来控制难分样本的挖掘。

由于在训练过程中，样本数量大的参与度类别可以提供大量的有效特征信息，而数据量小的参与度类别只能提供少量的有效特征信息，因此，实施时，将参与度类别的权重值比例设置为样本数量大小的反比，为了不改变总的贡献率，设置所有参与度类别权重值之和为1。为了调整或进行训练调优，可将Focal损失函数的调制因子γ设置为2。

Focal损失函数能够自适应地降低多数类样本的权重，同时增加少数类样本的权重，以解决样本分布不均衡问题，提高模型的识别准确率。

步骤250，根据有序度量损失函数及Focal损失函数，构造联合优化目标函数。联合优化目标函数可以表示为：

L=λ₁*L _metric ＋λ₂*FL，

其中，λ₁、λ₂为超参数，用于平衡有序度量损失函数及Focal损失函数，L _metric为有序度量损失函数，FL为Focal损失函数。

步骤260，根据联合优化目标函数，优化学习参与度识别网络模型中的参数。

具体实施时，可选用SGD算法求解联合优化目标函数，得到优化后参数。

本文一实施例中，可将获取的多个视频样本划分为训练样本及测试样本，训练样本用于图1及图2实施例训练学习参与度识别网络模型，测试样本用于对建立的学习参与度识别网络模型进行测试，根据测试结果确定是否需要重新训练学习参与度识别网络模型。

本文一实施例中，如图3所示，上述步骤110及步骤210对获取的多个视频样本进行预处理，得到视频样本的融合特征的过程包括：

步骤310，从每一视频样本中抽取k组子图像数据。具体的，如图4所示，确定k组子图像数据的过程包括：

步骤311，将每一视频样本划分为k组时长相同、且有重叠的子视频片段。例如视频样本为10秒长的视频，k取值为4，本步骤中，可将视频样本划分为4个时长为4秒的有重叠的视频频段。本步骤通过重叠划片的方式，能够防止信息丢失，保证信息的完整性。

步骤312，按预先设定的图像抽取规则，从k组子视频段中抽取图像，得到k组子图像数据。图像抽取规则例如为以1秒抽取4帧图像，对应的，每组子视频数据包括4帧图像，若k为4，则每一视频样本抽取的图像为16帧。本步骤中考虑到受教育者学习视频前后帧变化较小，通过抽取图像的方式能够减少后续处理过程的算力，提高处理速度。

步骤320，确定各组子图像数据的多模态特征。具体的，如图5所示，确定各组子图像数据的多模态特征的过程包括：

步骤321，提取各组子图像数据的面部特征、身体姿态特征、动作特征。

（1）面部特征可利用OpenFace提取得到，包括：眼睛凝视特征、头部姿态特征、面部活动单元特征。其中：

眼睛凝视特征：以眼睛的凝视角度作为眼部信息，为了获取视频中眼睛凝视方向的变化，首先计算视频每帧的眼睛凝视方向平均值，将每帧的眼睛凝视方向与平均值的差的平方作为特征。一具体实施方式中，可得到32维眼睛凝视特征。

头部姿态特征：以头部位置和头部旋转角度表示头部信息，为了获取视频中头部位置和旋转角度的变化，分别计算视频每帧头部位置和旋转角度的平均值，将每帧头部位置和旋转角度与平均值的差的平方作为特征。一具体实施方式中，可得到96维头部姿态特征。

面部活动单元特征：OpenFace可以识别人脸的17个强度值由0到5面部活动单元强度，分别为1,2,4,5,6, 7,9,10,12,14,15,17,20,23,25,26,45。面部活动单元是指人脸区域的肌肉活动变化,不同的面部活动单元指代不同的面部区域，通过组合面部活动单元能够表达出更丰富的情感。情感是参与度识别的评价标准之一，通过情绪可以表达出受教育者当时的学习心态从而表现出课程参与程度。本发明为了获取视频中面部活动单元的变化特征，先计算每一面部单元在视频全部帧的活动强度平均值，再求出每帧的面部活动单元强度与平均值的差的平方，再结合所有面部单元活动强度平均值作为面部活动单元特征。一具体实施方式中，可306维度的面部活动单元特征。

（2）身体姿态特征可利用OpenPose检测身体关键点得到，用于表示某些动作包含的特定目的信息，如沉思或写笔记。一具体实施方式中，可选取14个表示上肢运动的频繁检测关键点，并以其标准差作为特征，最后得到14维度的身体姿态特征。

（3）动作特征可利用C3D网络识别得到，C3D 可以作为身体动作在时空域的鲁棒表示，具体的，动作特征确定过程包括：使用OpenPose对帧图像中的身体进行裁剪，然后使用在Sports-1M数据集中预先训练好的C3D网络，对裁剪后的身体图像进行特征提取，最后得到768维的动作特征。

以上面部特征、身体姿态特征、动作特征的确定过程均为示例性说明，本领域技术人员实施时，可根据需求进行调整。

步骤322，串连各组子图像数据中提取出的面部特征、身体姿态特征、动作特征，得到各组子图像数据的多模态特征。

本文所述的串连各组子图像数据中提取出的面部特征、身体姿态特征、动作特征，即将各组子图像数据中提取出的面部特征、身体姿态特征、动作特征组成一数据组。例如，一组子图像数据中面部特征为{特征11，特征12，…，特征1k}，身体姿态特征为{特征21，特征22，…，特征2n}，动作特征为{特征31，特征32，…，特征3n }，串连后得到的多模态特征为{特征11，特征12，…，特征1k ，特征21，特征22，…，特征2n ，特征31，特征32，…，特征3n }。

步骤330，融合每一样本中各组子图像数据的多模态特征，得到该视频样本的融合特征。

本步骤能够从众多特征中选择出对参与度识别更关键的特征，具体实施时，可利用注意力机制实现，其中，注意力机制能够模拟人脑信号处理机制，根据对参与度识别的重要性，区别对待不同的子视频片段的多模态特征。如图6所示，注意力机制的实现逻辑如下：

步骤331，对该k组子图像数据的多模态特征进行过滤，得到该k组子图像数据的显著值。实施时，通过将该k组子图像数据的多模态特征f={ f₁,…, f_i, …, f_k}与内核q（注意力机制网络学习到的一个向量）做点积处理，如下公式所示，得到该k组子图像数据对应的显著值e={ e₁,…, e_i, …,e_k }。

e _i =q ^T *f _i ，i=1,…,k；

其中，e _i为第i组子图像数据对应的显著值，q为内核q函数。

步骤332，根据该k组子图像数据的显著值，传入softmax操作符生成该k组子图像数据的权重。

其中，w_i为第i个子图像数据对应的权重，exp()为e次方函数，e_i为第i组子图像数据对应的显著值。

步骤333，利用该k组子图像数据的权重，对该k组子图像数据的多模态特征进行加权融合，得到该视频样本的融合特征，如下公式所示：

其中，w_i为第i组子图像数据的权重，f_i为第i组子图像数据的多模态特征。

如图7所示，图7示出了本文实施例的学习参与度识别方法的流程图。本实施例利用前述任一实施例训练得到的学习参与度识别网络模型识别受教育者的学习参与度，能够准确地确定与实际情况相符的参与度。具体的，学习参与度识别方法包括：

步骤710，实时获取受教育者学习时采集的图像信息。

步骤720，对实时获取的图像信息做预处理，得到融合特征。

步骤730，将融合特征输入至前述实施例训练得到的学习参与度识别网络模型中，得到受教育者的学习参与度。

具体实施时，学习参与度识别方法可以APP的形式实现，APP中内载有学习参与度识别网络模型，学习参与度识别网络模型训练过程参见前述实施例，此处不再详述。该APP可供家长、老师使用，以便家长、老师及时了解孩子的学习情况。

进一步实施例中，为了便于直接展示受教育者参与度，上述步骤730之后还包括：展示识别出的参与度。具体实施时，可通过图表或曲线的方式展示参与度，本文对具体展示方式不做限定。一些具体实施方式中，为了便于后续分析受教育者的学习参与度，可利用Sqlite3轻量级数据库存储受教育者的学习参与度。

基于同一发明构思，本文还提供一种学习参与度识别网络模型的建立装置及学习参与度识别装置，如下面的实施例所述。由于学习参与度识别网络模型的建立装置及学习参与度识别装置解决问题的原理与学习参与度识别网络模型的建立方法及学习参与度识别方法相似，因此学习参与度识别网络模型的建立装置及学习参与度识别装置的实施可以参见学习参与度识别网络模型的建立方法及学习参与度识别方法，重复之处不再赘述。

如图8所示，图8示出了本文实施例的学习参与度识别网络模型建立装置的结构图，学习参与度识别网络模型建立装置包括：

预处理模块810，用于对获取的多个视频样本进行预处理，得到视频样本的融合特征。

采样模块820，用于根根据所述视频样本的融合特征，构建所述参与度识别网络模型训练时的最小批。

学习参与度识别网络训练模块830，用于依据所述最小批中视频样本对的嵌入向量距离与所述最小批中视频样本对的参与度标签距离一致性有序的原则，构造有序度量损失函数，其中，所述嵌入向量由所述学习参与度识别网络模型根据视频样本的融合特征计算得到；根据所述有序度量损失函数，优化所述学习参与度识别网络模型中的参数。

如图9所示，图9示出了本文实施例的学习参与度识别装置的结构图，学习参与度识别装置包括：

图像采集模块910，用于实时获取受教育者学习时采集的图像信息。

预处理模块920，用于对实时获取的图像信息做预处理，得到融合特征。

参与度识别模块930，用于将所述融合特征输入至图8所示实施例得到的学习参与度识别网络模型中，得到受教育者的学习参与度。

本文提供的学习参与度识别网络模型的建立装置及学习参与度识别装置能够约束视频样本对的参与度差值和融合特征相似性保持一致性有序，充分学习视频样本对丰富的语义信息并精确测量其在度量空间的相似程度，提高参与度识别的准确度，同时，还可以通过引入Focal损失函数，还可以解决数据分布不均衡的问题，提升学习参与度识别的性能。

为了更清楚的说明本文技术方案，下面以一具体实施例进行详细说明学习参与度模型建立方法，包括两个过程：学习参与度识别网络模型训练过程及测试过程。

1. 如图10、图11及图12所示，学习参与度识别网络模型训练过程如下：

S1,从图像采集设备中捕捉大量学生在线学习的视频样本，并对视频样本进行拆分处理。每个视频样本时长为10秒，拆分后每个视频样本包括4组子图像数据，每组子图像数据中包含16帧图像。

S2,利用OpenFace、OpenPose和C3D网络分别提取每组子图像数据中每帧图像的面部特征（眼睛凝视特征、头部姿态特征、面部活动单元特征）、身体姿态特征和动作特征，串连后形成多模态特征。

S3,对于每一视频样本，将得到的4组多模态特征输入到注意力机制模块中，最终得到一个10s的融合特征。其中，注意力机制模块用于利用内核q函数（kernel q）确定4组多模态特征的显著值，利用softmax函数对4组显著值进行加权融合，得到4组多模态特征的权重，通过对4组多模态特征及对应的权重做加权融合，得到视频样本的融合特征。

S4,重复步骤S3，将摄像头捕获的视频样本都转换为融合特征存储于数据库中。

S5, 初始化学习参与度识别网络模型，初始化的内容包括设定学习参与度识别网络模型初始参数值，设定学习率为0.01。

S6, 构造带有锚点的训练样本最小批B，在最小批中密集采样包含锚点的所有三元组，将得到的三元组同时输入至学习参与度识别网络模型中，使用联合优化目标函数对学习参与度识别网络模型进行训练：

L=λ₁*L _metric ＋λ₂*FL，

S7,重复步骤S6，当训练迭代次数达到设定值或学习参与度识别网络模型识别误差满足预定条件时，完成学习参与度识别网络模型的建立。

2. 如图13所示，学习参与度识别网络模型测试过程如下：

S1’,对一个10秒的待识别视频进行预处理，得到4组包含 16 帧图像的数据。

S2’,利用OpenFace、OpenPose和C3D网络分别提取每组数据中受试者的面部特征、身体姿态特征和动作特征，串连后形成多模态特征。

S3’,将得到的4组多模态特征输入到注意力机制模块中，根据不同特征对参与度的影响程度进行加权融合，最终得到一个10秒的融合特征。

S4’,加载训练好的学习参与度识别网络模型对上述得到的融合特征进行参与度识别，输出识别结果。

本文提出的有序度量学习函数和Focal多损失函数加权联合优化模型，充分利用标签的有序性并一定程度克服了数据分布的不均衡，有效提升了模型的学习参与度识别性能。

本文一实施例中，如图14所示，还提供一种计算机设备，计算机设备1402可以包括一个或多个处理器1404，诸如一个或多个中央处理单元(CPU)或图形处理器（GPU），每个处理单元可以实现一个或多个硬件线程。计算机设备1402还可以包括任何存储器1406，其用于存储诸如代码、设置、数据等之类的任何种类的信息，一具体实施方式中，存储器1406上并可在处理器1404上运行的计算机程序，计算机程序时实现前述任一项所述的学习参与度识别网络模型的建立方法或前述任一项所述的学习参与度识别方法。非限制性的，比如，存储器1406可以包括以下任一项或多种组合：任何类型的RAM，任何类型的ROM，闪存设备，硬盘，光盘等。更一般地，任何存储器都可以使用任何技术来存储信息。进一步地，任何存储器可以提供信息的易失性或非易失性保留。进一步地，任何存储器可以表示计算机设备1402的固定或可移除部件。在一种情况下，当处理器1404执行被存储在任何存储器或存储器的组合中的相关联的指令时，计算机设备1402可以执行相关联指令的任一操作。计算机设备1402还包括用于与任何存储器交互的一个或多个驱动机构1408，诸如硬盘驱动机构、光盘驱动机构等。

计算机设备1402还可以包括输入/输出模块1410（I/O），其用于接收各种输入(经由输入设备1412)和用于提供各种输出(经由输出设备1414))。一个具体输出机构可以包括呈现设备1416和相关联的图形用户接口(GUI)1418。在其他实施例中，还可以不包括输入/输出模块1410（I/O）、输入设备1412以及输出设备1414，仅作为网络中的一台计算机设备。计算机设备1402还可以包括一个或多个网络接口1420，其用于经由一个或多个通信链路1422与其他设备交换数据。一个或多个通信总线1424将上文所描述的部件耦合在一起。

通信链路1422可以以任何方式实现，例如，通过局域网、广域网(例如，因特网)、点对点连接等、或其任何组合。通信链路1422可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

本文实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述任一项所述的学习参与度识别网络模型的建立方法或上述任一项所述的学习参与度识别方法。

本文实施例还提供一种计算机可读指令，其中当处理器执行所述指令时，其中的程序使得处理器执行上述任一项所述的学习参与度识别网络模型的建立方法或上述任一项所述的学习参与度识别方法。

应理解，在本文的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本文实施例的实施过程构成任何限定。

还应理解，在本文实施例中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本文的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本文所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。

另外，在本文各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本文的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本文中应用了具体实施例对本文的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本文的方法及其核心思想；同时，对于本领域的一般技术人员，依据本文的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本文的限制。

Claims

1.一种学习参与度识别网络模型的建立方法，其特征在于，包括：

根据所述视频样本的融合特征，构建学习参与度识别网络模型训练用的最小批；

根据所述有序度量损失函数，优化所述学习参与度识别网络模型中的参数；

对获取的多个视频样本进行预处理，得到所述视频样本的融合特征，包括：

从每一视频样本中抽取k组子图像数据；

确定各组子图像数据的多模态特征；

2.如权利要求1所述的方法，其特征在于，确定各组子图像数据的多模态特征，包括：

3.如权利要求1所述的方法，其特征在于，融合每一视频样本中k组子图像数据的多模态特征，得到各视频样本的融合特征，包括对每一视频样本的k组子图像数据执行如下操作：

4.如权利要求1所述的方法，其特征在于，依据所述最小批中视频样本对的嵌入向量距离与所述最小批中视频样本对的参与度标签距离一致性有序的原则，构造有序度量损失函数，包括：

5.如权利要求4所述的方法，其特征在于，构造的有序度量函数公式利用如下公式表示：

其中，sim(v_a,v_i)为视频样本对的嵌入向量v_a,v_i距离，sim’(y_a,y_i)为视频样本对参与度标签y_a,y_i距离，a为从最小批视频样本中选择的锚点，i为锚点k’近邻的视频样本中选择的点，j为从剩余近邻的视频样本中随机选择的点，（a,i,j）为由锚点a及其相邻的两个点i和j组成的三元组，v为嵌入向量，y为参与度标签。

6.如权利要求1所述的方法，其特征在于，还包括：

根据对象的学习参与度类别，构造Focal损失函数；

根据所述有序度量损失函数及所述Focal损失函数，构造如下联合优化目标函数：

L=λ₁*L _metric ＋λ₂*FL，

其中，λ₁、λ₂为超参数，L _metric为有序度量损失函数，FL为Focal损失函数；

7.一种学习参与度识别方法，其特征在于，包括：

实时获取受教育者学习时采集的图像信息；

对实时获取的图像信息做预处理，得到融合特征；

将所述融合特征输入至权利要求1至6中任一项所述的学习参与度识别网络模型的建立方法得到的学习参与度识别网络模型中，得到受教育者的学习参与度。

8.一种学习参与度识别网络模型的建立装置，其特征在于，包括：

预处理模块，用于对获取的多个视频样本进行预处理，得到所述视频样本的融合特征；其中，预处理过程包括：从每一视频样本中抽取k组子图像数据；确定各组子图像数据的多模态特征；融合每一视频样本中k组子图像数据的多模态特征，得到各视频样本的融合特征；

9.一种学习参与度识别装置，其特征在于，包括：

参与度识别模块，用于将所述融合特征输入至利用权利要求8所述的学习参与度识别网络模型的建立装置得到的学习参与度识别网络模型中，得到受教育者的学习参与度。