CN109726690B

CN109726690B - 基于DenseCap网络的学习者行为图像多区域描述方法

Info

Publication number: CN109726690B
Application number: CN201811646144.9A
Authority: CN
Inventors: 马苗; 高子昂; 吴琦; 陶丽丽
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2018-12-30
Filing date: 2018-12-30
Publication date: 2023-04-18
Anticipated expiration: 2038-12-30
Also published as: CN109726690A

Abstract

一种基于DenseCap网络的学习者行为图像多区域描述方法，包括制作学习者行为图像多区域描述数据集；数据集预处理；在Torch7框架下构建基于DenseCap网络作为对学习者行为图像进行特征提取与预测框及对应描述语句生成的模型；使用训练集训练DenseCap网络；利用训练好的DenseCap网络处理测试集中的图像。本发明具有检测区域准确、描述结果更加准确、详细等优点，旨在解决学习场景下学习者行为的自动描述问题，为后序学习者个性化特征的定量分析和检索提供有力支撑。

Description

基于DenseCap网络的学习者行为图像多区域描述方法

技术领域

本发明属于教育科学、计算机视觉和自然语言处理的交叉研究技术领域，具体地涉及到学习场景中学习者行为分析、对学习者相关区域建议和相应的区域描述生成。

准确获取学习者特征是实现以学习者为中心的精准化、个性化和智能化教育的重要前提。现有学习者特征来源有调查表法、学习者模型法和web日志法三类。调查表法需要每个学习者都事先填写调查表，效果受调查表设计的合理性和表格真实度的双重影响；学习者模型法需要事先根据每个学习者的特征，人工方式建立每个学习者模型，只适用于小样本学习者；web日志法依据学习者网上课程学习过程中操作序列记录分析行为特点，只适用于在线网络课堂场景。因此这些特征无法准确表征教室、实验室等主流学习场景下大样本学习者行为。

得益于网络与通讯技术、计算机软硬件与存储能力的不断发展，以各类视频监控系统为代表的现代化教育设施迅速普及，各类学习场景中产生了海量的与学习者行为、活动及状态有关的原始数据。这使得准确捕获学习者的个性化特征和综合分析不同学习者的共性特征，进而提供有针对性的评估、引导与干预。但是，现有行为识别的数据基准多是服务于日常行为或特定场景下的行为分类研究，不能反映学习者行为变化幅度小、相似度高、出现频繁，存在个体差异和可能出现并发动作的特点，加之个体差异和背景干扰，使得利用计算机自动描述学习者的行为非常困难。另外目前大部分的图像描述方法都是针对单张图像进行单句描述，难以详细准确描述学习者的并发行为；虽然现有的DenseCap网络可以进行图像密集描述，但是由于其处理的数据集与教育场景差别较大，难以直接用来作为可用的方法，故本专利对其进行数据集和参数上的改进。

发明内容

本发明所要解决的技术问题在于克服现有技术的缺点，提供一种方法能够用自然语言有效描述学习场景中学习者行为的方法。

解决上述技术问题所采用的技术方案是由下述步骤组成：

(1)制作学习者行为图像多区域描述数据集

采集在教室和机房场景下学习者行为视频并截取图像作为原始图像，对原始图像进行多区域和对应描述语句的人工标注形成学习者行为图像多区域描述数据集，将数据集划分成训练集和测试集；

(2)数据集预处理

数据集中图像像素值的宽＞高，将宽缩放为固定值720，高按照原图比例对应缩放，数据集中的图像像素值的高＞宽，将高缩放为固定值720，宽按照原图比例对应缩放，缩放后的图像作为DenseCap网络中VGG16网络的输入，将包含图像信息和图像中学习者行为区域标注信息及该区域对应描述语句的标注文件进行处理生成HDF5文件和JSON文件，JSON文件包含由描述语句中的词汇构成的字典集及词汇索引号和图像名称及图像索引号，HDF5文件包含图像的像素、学习者行为区域标注信息、学习者行为区域标注信息与图像索引号的对应关系、区域描述标签、学习者行为图像多区域描述数据集划分信息；

(3)在Torch7框架下构建基于DenseCap网络作为对学习者行为图像进行特征提取与预测框及对应描述语句生成的模型；

(4)使用训练集训练DenseCap网络，具体步骤为：

(a)设置网络的超级参数

设置训练迭代次数为50000～150000，自适应矩估计算法的学习率为10^-6～10^-4、一阶矩估计的指数衰减率为0.9～0.99、二阶矩估计的指数衰减率0.99～0.9999，其他参数均为网络默认值；

(b)VGG16网络的初始化

采用Caffe官网公开的经ImageNet2012数据集训练的VGG16网络中的权重和偏置作为DenseCap网络中VGG16网络的初始权重和偏置；

(c)设置DenseCap网络中VGG16网络的卷积层、池化层和全连接层的训练属性，训练属性值为1表示参与训练，训练属性值为0表示不参与训练；

(d)利用学习者行为图像多区域描述数据集的训练集训练DenseCap网络

将预处理后的训练集，包括图像及其学习者行为区域标注信息和描述语句文件，输入DenseCap网络进行前向传播并计算损失函数，损失函数为置信度损失函数、边框位置回归损失函数和交叉熵损失函数三种损失函数的加权和，权重系数分别为10、1000、1，使用自适应矩估计算法降低损失值来进行反向传播，反复循环前向传播和反向传播，并更新网络的权重值和偏置，直至达到设定的迭代次数，训练结束，得到训练好的DenseCap网络；

(5)利用训练好的DenseCap网络处理测试集中的图像

(a)设置网络参数

区域置信度为0.3～0.8，输出的潜在区域个数为5～100；其他参数均为网络默认值；

(b)将测试集中的图像输入训练好的DenseCap网络中输出学习者行为区域及其对应描述语句。

作为一种优选的技术方案，所述的步骤(3)的步骤(c)中，将前7个卷积层及前3个池化层的训练属性值设为0，后6个卷积层及后2个池化层的训练属性值设为1。

作为一种优选的技术方案，在所述的步骤(5)的步骤(a)中，区域置信度设置为0.6，输出的潜在区域个数为10。

本发明利用模拟学习场景下学习者行为图像集训练得到的DenseCap网络对学习场景下学习者行为图像进行自动的多区域描述与现有技术相比，具有检测区域准确、描述结果更加准确、详细等优点，旨在解决学习场景下学习者行为的自动描述问题，为后序学习者个性化特征的定量分析和检索提供有力支撑。

附图说明

图1是本发明实施例1的基于DenseCap网络的学习场景下学习者行为描述方法的流程图。

图2是学习场景下学习者行为描述数据集中编号为1596的原图。

图3是图2经过模型后输出的多区域描述结果。

图4是图2人工标注多区域描述的可视化结果。

图5是学习场景下学习者行为描述数据集中编号为1604的原图。

图6是图5经过模型后输出的多区域描述结果。

图7是图5人工标注多区域描述的可视化结果。

图8是学习场景下学习者行为描述数据集中编号为184的原图。

图9是图8经过模型后输出的多区域描述结果。

图10是图8人工标注多区域描述的可视化结果。

具体实施方式

下面结合附图和实例对本发明进行进一步的说明，但本发明不限于下述实例。

实施例1

图1给出了本实施例的流程图。本实施例在测试集中选择一幅编号为1596的彩色图像，如图2，该图像的一种基于DenseCap网络的学习者行为图像多区域描述方法，由以下步骤组成：

(1)制作学习者行为描述数据集

采集2020幅像素为1280×720的模拟教室和机房场景下学习者行为描述视频的单帧图像作为原始图像集，对原始图像集中的图像进行多区域和对应描述语句的人工标注形成学习者行为图像多区域描述数据集，随机将数据集划分训练集和测试集且训练与测试集互相不重叠，训练集包括1120幅图像，测试集包括900幅图像；

(2)数据集预处理

将数据集中图像像素由1280×720缩小为720×405，缩小后的图像作为DenseCap网络中VGG16网络的输入，将包含图像信息和图像中学习者行为区域标注信息及该区域对应描述语句的标注文件进行处理生成HDF5文件和JSON文件，JSON文件包含由描述语句中的词汇构成的字典集及词汇索引号和图像名称及图像索引号，HDF5文件包含图像的像素、学习者行为区域标注信息、学习者行为区域标注信息与图像索引号的对应关系、区域描述标签、学习者行为图像多区域描述数据集划分信息；

(4)使用训练集训练DenseCap网络，具体步骤为：

(a)设置网络的超级参数

设置训练迭代次数为100000，自适应矩估计算法的学习率为10-5、一阶矩估计的指数衰减率为0.95、二阶矩估计的指数衰减率0.999，其他参数均为网络默认值；

(b)VGG16网络的初始化

(c)设置DenseCap网络中VGG16网络的前7个卷积层及前3个池化层的训练属性值设为0，后6个卷积层及后2个池化层的训练属性值设为1；

将预处理后的训练集，包括图像及其学习者行为区域标注信息和描述语句文件，输入DenseCap网络进行前向传播并计算损失函数Loss，使用自适应矩估计算法降低损失值来进行反向传播，反复循环前向传播和反向传播，并更新网络的权重值和偏置，直至达到设定的迭代次数，训练结束，得到训练好的DenseCap网络；

上述损失函数Loss为置信度损失函数、边框位置回归损失函数和交叉熵损失函数三种损失函数的加权和，权重系数分别为10、1000、1，即

式中，P为条件概率，矩阵ω和向量b为网络模型中要训练的权重和偏置，a_i是输入图像区域大小为n×m的特征图矩阵A＝[a₁,...,a_m]的列向量，l_i为对应的标签，公式中，u＝(u_x,u_y,u_w,u_h)代表了预测边框的位置信息，v＝(v_x,v_y,v_w,v_h)代表了真实边框的位置信息，h_t代表描述语句中的第t个单词，p_t代表第t个单词的预测分布，T为描述语句中单词的最大数量；

(5)利用训练好的DenseCap网络处理测试集中的图像

(a)设置网络参数

区域置信度为0.6，输出的潜在区域个数为10；其他参数均为网络默认值；

(b)将测试集中的图像输入训练好的DenseCap网络中输出学习者行为区域及其对应描述语句

将测试集中编号为1596的图像输入网络中输出达到置信度的3个预测区域及对应描述语句，由图3可见，该测试图像由人工标注的真实区域及对应描述语句由图4可见，对比可见，本发明可以有效的预测学生行为区域并生成准确的对应描述语句。

实施例2

在本实施例中，步骤(4)的步骤(a)中设置训练迭代次数为50000，自适应矩估计算法的学习率为10-6、一阶矩估计的指数衰减率为0.9、二阶矩估计的指数衰减率0.99，其他参数均为网络默认值；

步骤(5)的步骤(a)中，区域置信度为0.3，输出的潜在区域个数为5；其他参数均为网络默认值；

其他操作步骤与实施例1相同。

实施例3

在本实施例中，步骤(4)的步骤(a)中设置训练迭代次数为150000，自适应矩估计算法的学习率为10-4、一阶矩估计的指数衰减率为0.99、二阶矩估计的指数衰减率0.9999，其他参数均为网络默认值；

步骤(5)的步骤(a)中，区域置信度为0.8，输出的潜在区域个数为100；其他参数均为网络默认值；

其他操作步骤与实施例1相同。

实施例4

本实施例在测试集中选择一幅编号为1604的彩色图像，如图5，该图像的一种基于DenseCap网络的学习者行为图像多区域描述方法由如下步骤组成：

步骤(1)～(4)与实施例1相同；

(5)利用训练好的DenseCap网络处理测试集中的图像

(a)设置网络参数

将测试集中编号为1604的图像输入网络中输出达到置信度的4个预测区域及对应描述语句，由图6可见，该测试图像由人工标注的真实区域及对应描述语句由图7可见，对比可见，本发明可以有效的预测学生行为区域并生成准确的对应描述语句。

实施例5

本实施例在测试集中选择一幅编号为184的彩色图像，如图8，该图像的一种基于DenseCap网络的学习者行为图像多区域描述方法由如下步骤组成：

步骤(1)～(4)与实施例1相同；

(5)利用训练好的DenseCap网络处理测试集中的图像

(a)设置网络参数

将测试集中编号为184的图像输入网络中输出达到置信度的3个预测区域及对应描述语句，由图9可见，该测试图像由人工标注的真实区域及对应描述语句由图10可见，对比可见，本发明可以有效的预测学生行为区域并生成准确的对应描述语句。

Claims

1.一种基于DenseCap网络的学习者行为图像多区域描述方法，其特征在于由下述步骤组成：

（1）制作学习者行为图像多区域描述数据集

采集在教室和机房场景下学习者行为视频并截取图像作为原始图像，人工标记原始图像中多个区域的位置并给出各区域对应内容的描述语句，形成学习者行为图像多区域描述数据集，将数据集划分成训练集和测试集；

（2）数据集预处理

如果数据集中图像像素值的宽＞高，则将宽缩放为固定值720，高按照原图比例对应缩放，如果数据集中的图像像素值的高＞宽，则将高缩放为固定值720，宽按照原图比例对应缩放，缩放后的图像作为DenseCap网络中VGG16网络的输入，将包含图像信息和图像中学习者行为区域标注信息及该区域对应描述语句的标注文件进行处理生成HDF5文件和JSON文件，JSON文件包含由描述语句中的词汇构成的字典集及词汇索引号和图像名称及图像索引号，HDF5文件包含图像的像素、学习者行为区域标注信息、学习者行为区域标注信息与图像索引号的对应关系、区域描述标签、学习者行为图像多区域描述数据集划分信息；

（3）在Torch7框架下构建基于DenseCap网络作为对学习者行为图像进行特征提取与预测框及对应描述语句生成的模型；

（4）使用训练集训练DenseCap网络，具体步骤为：

（a）设置网络的超级参数

（b）VGG16网络的初始化

（c）设置DenseCap网络中VGG16网络的卷积层、池化层和全连接层的训练属性，训练属性值为1表示参与训练，训练属性值为0表示不参与训练；

（d）利用学习者行为图像多区域描述数据集的训练集训练DenseCap网络

（5）利用训练好的DenseCap网络处理测试集中的图像

（a）设置网络参数

（b）将测试集中的图像输入训练好的DenseCap网络中输出学习者行为区域及其对应描述语句。

2.根据权利要求1所述的一种基于DenseCap网络的学习者行为图像多区域描述方法，其特征在于：所述的步骤（3）的步骤（c）中，将前7个卷积层及前3个池化层的训练属性值设为0，后6个卷积层及后2个池化层的训练属性值设为1。

3.根据权利要求1所述的一种基于DenseCap网络的学习者行为图像多区域描述方法，其特征在于：在所述的步骤（5）的步骤（a）中，区域置信度设置为0.6，输出的潜在区域个数为10。