CN109726690B - 基于DenseCap网络的学习者行为图像多区域描述方法 - Google Patents

基于DenseCap网络的学习者行为图像多区域描述方法 Download PDF

Info

Publication number
CN109726690B
CN109726690B CN201811646144.9A CN201811646144A CN109726690B CN 109726690 B CN109726690 B CN 109726690B CN 201811646144 A CN201811646144 A CN 201811646144A CN 109726690 B CN109726690 B CN 109726690B
Authority
CN
China
Prior art keywords
network
densecap
training
learner
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811646144.9A
Other languages
English (en)
Other versions
CN109726690A (zh
Inventor
马苗
高子昂
吴琦
陶丽丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN201811646144.9A priority Critical patent/CN109726690B/zh
Publication of CN109726690A publication Critical patent/CN109726690A/zh
Application granted granted Critical
Publication of CN109726690B publication Critical patent/CN109726690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于DenseCap网络的学习者行为图像多区域描述方法,包括制作学习者行为图像多区域描述数据集;数据集预处理;在Torch7框架下构建基于DenseCap网络作为对学习者行为图像进行特征提取与预测框及对应描述语句生成的模型;使用训练集训练DenseCap网络;利用训练好的DenseCap网络处理测试集中的图像。本发明具有检测区域准确、描述结果更加准确、详细等优点,旨在解决学习场景下学习者行为的自动描述问题,为后序学习者个性化特征的定量分析和检索提供有力支撑。

Description

基于DenseCap网络的学习者行为图像多区域描述方法
技术领域
本发明属于教育科学、计算机视觉和自然语言处理的交叉研究技术领域,具体地涉及到学习场景中学习者行为分析、对学习者相关区域建议和相应的区域描述生成。
准确获取学习者特征是实现以学习者为中心的精准化、个性化和智能化教育的重要前提。现有学习者特征来源有调查表法、学习者模型法和web日志法三类。调查表法需要每个学习者都事先填写调查表,效果受调查表设计的合理性和表格真实度的双重影响;学习者模型法需要事先根据每个学习者的特征,人工方式建立每个学习者模型,只适用于小样本学习者;web日志法依据学习者网上课程学习过程中操作序列记录分析行为特点,只适用于在线网络课堂场景。因此这些特征无法准确表征教室、实验室等主流学习场景下大样本学习者行为。
得益于网络与通讯技术、计算机软硬件与存储能力的不断发展,以各类视频监控系统为代表的现代化教育设施迅速普及,各类学习场景中产生了海量的与学习者行为、活动及状态有关的原始数据。这使得准确捕获学习者的个性化特征和综合分析不同学习者的共性特征,进而提供有针对性的评估、引导与干预。但是,现有行为识别的数据基准多是服务于日常行为或特定场景下的行为分类研究,不能反映学习者行为变化幅度小、相似度高、出现频繁,存在个体差异和可能出现并发动作的特点,加之个体差异和背景干扰,使得利用计算机自动描述学习者的行为非常困难。另外目前大部分的图像描述方法都是针对单张图像进行单句描述,难以详细准确描述学习者的并发行为;虽然现有的DenseCap网络可以进行图像密集描述,但是由于其处理的数据集与教育场景差别较大,难以直接用来作为可用的方法,故本专利对其进行数据集和参数上的改进。
发明内容
本发明所要解决的技术问题在于克服现有技术的缺点,提供一种方法能够用自然语言有效描述学习场景中学习者行为的方法。
解决上述技术问题所采用的技术方案是由下述步骤组成:
(1)制作学习者行为图像多区域描述数据集
采集在教室和机房场景下学习者行为视频并截取图像作为原始图像,对原始图像进行多区域和对应描述语句的人工标注形成学习者行为图像多区域描述数据集,将数据集划分成训练集和测试集;
(2)数据集预处理
数据集中图像像素值的宽>高,将宽缩放为固定值720,高按照原图比例对应缩放,数据集中的图像像素值的高>宽,将高缩放为固定值720,宽按照原图比例对应缩放,缩放后的图像作为DenseCap网络中VGG16网络的输入,将包含图像信息和图像中学习者行为区域标注信息及该区域对应描述语句的标注文件进行处理生成HDF5文件和JSON文件,JSON文件包含由描述语句中的词汇构成的字典集及词汇索引号和图像名称及图像索引号,HDF5文件包含图像的像素、学习者行为区域标注信息、学习者行为区域标注信息与图像索引号的对应关系、区域描述标签、学习者行为图像多区域描述数据集划分信息;
(3)在Torch7框架下构建基于DenseCap网络作为对学习者行为图像进行特征提取与预测框及对应描述语句生成的模型;
(4)使用训练集训练DenseCap网络,具体步骤为:
(a)设置网络的超级参数
设置训练迭代次数为50000~150000,自适应矩估计算法的学习率为10-6~10-4、一阶矩估计的指数衰减率为0.9~0.99、二阶矩估计的指数衰减率0.99~0.9999,其他参数均为网络默认值;
(b)VGG16网络的初始化
采用Caffe官网公开的经ImageNet2012数据集训练的VGG16网络中的权重和偏置作为DenseCap网络中VGG16网络的初始权重和偏置;
(c)设置DenseCap网络中VGG16网络的卷积层、池化层和全连接层的训练属性,训练属性值为1表示参与训练,训练属性值为0表示不参与训练;
(d)利用学习者行为图像多区域描述数据集的训练集训练DenseCap网络
将预处理后的训练集,包括图像及其学习者行为区域标注信息和描述语句文件,输入DenseCap网络进行前向传播并计算损失函数,损失函数为置信度损失函数、边框位置回归损失函数和交叉熵损失函数三种损失函数的加权和,权重系数分别为10、1000、1,使用自适应矩估计算法降低损失值来进行反向传播,反复循环前向传播和反向传播,并更新网络的权重值和偏置,直至达到设定的迭代次数,训练结束,得到训练好的DenseCap网络;
(5)利用训练好的DenseCap网络处理测试集中的图像
(a)设置网络参数
区域置信度为0.3~0.8,输出的潜在区域个数为5~100;其他参数均为网络默认值;
(b)将测试集中的图像输入训练好的DenseCap网络中输出学习者行为区域及其对应描述语句。
作为一种优选的技术方案,所述的步骤(3)的步骤(c)中,将前7个卷积层及前3个池化层的训练属性值设为0,后6个卷积层及后2个池化层的训练属性值设为1。
作为一种优选的技术方案,在所述的步骤(5)的步骤(a)中,区域置信度设置为0.6,输出的潜在区域个数为10。
本发明利用模拟学习场景下学习者行为图像集训练得到的DenseCap网络对学习场景下学习者行为图像进行自动的多区域描述与现有技术相比,具有检测区域准确、描述结果更加准确、详细等优点,旨在解决学习场景下学习者行为的自动描述问题,为后序学习者个性化特征的定量分析和检索提供有力支撑。
附图说明
图1是本发明实施例1的基于DenseCap网络的学习场景下学习者行为描述方法的流程图。
图2是学习场景下学习者行为描述数据集中编号为1596的原图。
图3是图2经过模型后输出的多区域描述结果。
图4是图2人工标注多区域描述的可视化结果。
图5是学习场景下学习者行为描述数据集中编号为1604的原图。
图6是图5经过模型后输出的多区域描述结果。
图7是图5人工标注多区域描述的可视化结果。
图8是学习场景下学习者行为描述数据集中编号为184的原图。
图9是图8经过模型后输出的多区域描述结果。
图10是图8人工标注多区域描述的可视化结果。
具体实施方式
下面结合附图和实例对本发明进行进一步的说明,但本发明不限于下述实例。
实施例1
图1给出了本实施例的流程图。本实施例在测试集中选择一幅编号为1596的彩色图像,如图2,该图像的一种基于DenseCap网络的学习者行为图像多区域描述方法,由以下步骤组成:
(1)制作学习者行为描述数据集
采集2020幅像素为1280×720的模拟教室和机房场景下学习者行为描述视频的单帧图像作为原始图像集,对原始图像集中的图像进行多区域和对应描述语句的人工标注形成学习者行为图像多区域描述数据集,随机将数据集划分训练集和测试集且训练与测试集互相不重叠,训练集包括1120幅图像,测试集包括900幅图像;
(2)数据集预处理
将数据集中图像像素由1280×720缩小为720×405,缩小后的图像作为DenseCap网络中VGG16网络的输入,将包含图像信息和图像中学习者行为区域标注信息及该区域对应描述语句的标注文件进行处理生成HDF5文件和JSON文件,JSON文件包含由描述语句中的词汇构成的字典集及词汇索引号和图像名称及图像索引号,HDF5文件包含图像的像素、学习者行为区域标注信息、学习者行为区域标注信息与图像索引号的对应关系、区域描述标签、学习者行为图像多区域描述数据集划分信息;
(3)在Torch7框架下构建基于DenseCap网络作为对学习者行为图像进行特征提取与预测框及对应描述语句生成的模型;
(4)使用训练集训练DenseCap网络,具体步骤为:
(a)设置网络的超级参数
设置训练迭代次数为100000,自适应矩估计算法的学习率为10-5、一阶矩估计的指数衰减率为0.95、二阶矩估计的指数衰减率0.999,其他参数均为网络默认值;
(b)VGG16网络的初始化
采用Caffe官网公开的经ImageNet2012数据集训练的VGG16网络中的权重和偏置作为DenseCap网络中VGG16网络的初始权重和偏置;
(c)设置DenseCap网络中VGG16网络的前7个卷积层及前3个池化层的训练属性值设为0,后6个卷积层及后2个池化层的训练属性值设为1;
(d)利用学习者行为图像多区域描述数据集的训练集训练DenseCap网络
将预处理后的训练集,包括图像及其学习者行为区域标注信息和描述语句文件,输入DenseCap网络进行前向传播并计算损失函数Loss,使用自适应矩估计算法降低损失值来进行反向传播,反复循环前向传播和反向传播,并更新网络的权重值和偏置,直至达到设定的迭代次数,训练结束,得到训练好的DenseCap网络;
上述损失函数Loss为置信度损失函数、边框位置回归损失函数和交叉熵损失函数三种损失函数的加权和,权重系数分别为10、1000、1,即
Figure BDA0001932102980000061
式中,P为条件概率,矩阵ω和向量b为网络模型中要训练的权重和偏置,ai是输入图像区域大小为n×m的特征图矩阵A=[a1,...,am]的列向量,li为对应的标签,公式中,u=(ux,uy,uw,uh)代表了预测边框的位置信息,v=(vx,vy,vw,vh)代表了真实边框的位置信息,ht代表描述语句中的第t个单词,pt代表第t个单词的预测分布,T为描述语句中单词的最大数量;
(5)利用训练好的DenseCap网络处理测试集中的图像
(a)设置网络参数
区域置信度为0.6,输出的潜在区域个数为10;其他参数均为网络默认值;
(b)将测试集中的图像输入训练好的DenseCap网络中输出学习者行为区域及其对应描述语句
将测试集中编号为1596的图像输入网络中输出达到置信度的3个预测区域及对应描述语句,由图3可见,该测试图像由人工标注的真实区域及对应描述语句由图4可见,对比可见,本发明可以有效的预测学生行为区域并生成准确的对应描述语句。
实施例2
在本实施例中,步骤(4)的步骤(a)中设置训练迭代次数为50000,自适应矩估计算法的学习率为10-6、一阶矩估计的指数衰减率为0.9、二阶矩估计的指数衰减率0.99,其他参数均为网络默认值;
步骤(5)的步骤(a)中,区域置信度为0.3,输出的潜在区域个数为5;其他参数均为网络默认值;
其他操作步骤与实施例1相同。
实施例3
在本实施例中,步骤(4)的步骤(a)中设置训练迭代次数为150000,自适应矩估计算法的学习率为10-4、一阶矩估计的指数衰减率为0.99、二阶矩估计的指数衰减率0.9999,其他参数均为网络默认值;
步骤(5)的步骤(a)中,区域置信度为0.8,输出的潜在区域个数为100;其他参数均为网络默认值;
其他操作步骤与实施例1相同。
实施例4
本实施例在测试集中选择一幅编号为1604的彩色图像,如图5,该图像的一种基于DenseCap网络的学习者行为图像多区域描述方法由如下步骤组成:
步骤(1)~(4)与实施例1相同;
(5)利用训练好的DenseCap网络处理测试集中的图像
(a)设置网络参数
区域置信度为0.6,输出的潜在区域个数为10;其他参数均为网络默认值;
(b)将测试集中的图像输入训练好的DenseCap网络中输出学习者行为区域及其对应描述语句
将测试集中编号为1604的图像输入网络中输出达到置信度的4个预测区域及对应描述语句,由图6可见,该测试图像由人工标注的真实区域及对应描述语句由图7可见,对比可见,本发明可以有效的预测学生行为区域并生成准确的对应描述语句。
实施例5
本实施例在测试集中选择一幅编号为184的彩色图像,如图8,该图像的一种基于DenseCap网络的学习者行为图像多区域描述方法由如下步骤组成:
步骤(1)~(4)与实施例1相同;
(5)利用训练好的DenseCap网络处理测试集中的图像
(a)设置网络参数
区域置信度为0.6,输出的潜在区域个数为10;其他参数均为网络默认值;
(b)将测试集中的图像输入训练好的DenseCap网络中输出学习者行为区域及其对应描述语句
将测试集中编号为184的图像输入网络中输出达到置信度的3个预测区域及对应描述语句,由图9可见,该测试图像由人工标注的真实区域及对应描述语句由图10可见,对比可见,本发明可以有效的预测学生行为区域并生成准确的对应描述语句。

Claims (3)

1.一种基于DenseCap网络的学习者行为图像多区域描述方法,其特征在于由下述步骤组成:
(1)制作学习者行为图像多区域描述数据集
采集在教室和机房场景下学习者行为视频并截取图像作为原始图像,人工标记原始图像中多个区域的位置并给出各区域对应内容的描述语句,形成学习者行为图像多区域描述数据集,将数据集划分成训练集和测试集;
(2)数据集预处理
如果数据集中图像像素值的宽>高,则将宽缩放为固定值720,高按照原图比例对应缩放,如果数据集中的图像像素值的高>宽,则将高缩放为固定值720,宽按照原图比例对应缩放,缩放后的图像作为DenseCap网络中VGG16网络的输入,将包含图像信息和图像中学习者行为区域标注信息及该区域对应描述语句的标注文件进行处理生成HDF5文件和JSON文件,JSON文件包含由描述语句中的词汇构成的字典集及词汇索引号和图像名称及图像索引号,HDF5文件包含图像的像素、学习者行为区域标注信息、学习者行为区域标注信息与图像索引号的对应关系、区域描述标签、学习者行为图像多区域描述数据集划分信息;
(3)在Torch7框架下构建基于DenseCap网络作为对学习者行为图像进行特征提取与预测框及对应描述语句生成的模型;
(4)使用训练集训练DenseCap网络,具体步骤为:
(a)设置网络的超级参数
设置训练迭代次数为50000~150000,自适应矩估计算法的学习率为10-6~10-4、一阶矩估计的指数衰减率为0.9~0.99、二阶矩估计的指数衰减率0.99~0.9999,其他参数均为网络默认值;
(b)VGG16网络的初始化
采用Caffe官网公开的经ImageNet2012数据集训练的VGG16网络中的权重和偏置作为DenseCap网络中VGG16网络的初始权重和偏置;
(c)设置DenseCap网络中VGG16网络的卷积层、池化层和全连接层的训练属性,训练属性值为1表示参与训练,训练属性值为0表示不参与训练;
(d)利用学习者行为图像多区域描述数据集的训练集训练DenseCap网络
将预处理后的训练集,包括图像及其学习者行为区域标注信息和描述语句文件,输入DenseCap网络进行前向传播并计算损失函数,损失函数为置信度损失函数、边框位置回归损失函数和交叉熵损失函数三种损失函数的加权和,权重系数分别为10、1000、1,使用自适应矩估计算法降低损失值来进行反向传播,反复循环前向传播和反向传播,并更新网络的权重值和偏置,直至达到设定的迭代次数,训练结束,得到训练好的DenseCap网络;
(5)利用训练好的DenseCap网络处理测试集中的图像
(a)设置网络参数
区域置信度为0.3~0.8,输出的潜在区域个数为5~100;其他参数均为网络默认值;
(b)将测试集中的图像输入训练好的DenseCap网络中输出学习者行为区域及其对应描述语句。
2.根据权利要求1所述的一种基于DenseCap网络的学习者行为图像多区域描述方法,其特征在于:所述的步骤(3)的步骤(c)中,将前7个卷积层及前3个池化层的训练属性值设为0,后6个卷积层及后2个池化层的训练属性值设为1。
3.根据权利要求1所述的一种基于DenseCap网络的学习者行为图像多区域描述方法,其特征在于:在所述的步骤(5)的步骤(a)中,区域置信度设置为0.6,输出的潜在区域个数为10。
CN201811646144.9A 2018-12-30 2018-12-30 基于DenseCap网络的学习者行为图像多区域描述方法 Active CN109726690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811646144.9A CN109726690B (zh) 2018-12-30 2018-12-30 基于DenseCap网络的学习者行为图像多区域描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811646144.9A CN109726690B (zh) 2018-12-30 2018-12-30 基于DenseCap网络的学习者行为图像多区域描述方法

Publications (2)

Publication Number Publication Date
CN109726690A CN109726690A (zh) 2019-05-07
CN109726690B true CN109726690B (zh) 2023-04-18

Family

ID=66298530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811646144.9A Active CN109726690B (zh) 2018-12-30 2018-12-30 基于DenseCap网络的学习者行为图像多区域描述方法

Country Status (1)

Country Link
CN (1) CN109726690B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096137B (zh) * 2021-04-08 2022-04-12 济南大学 一种oct视网膜图像领域适应分割方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN108509839A (zh) * 2018-02-02 2018-09-07 东华大学 一种基于区域卷积神经网络高效的手势检测识别方法
CN108564097A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
CN108681752A (zh) * 2018-05-28 2018-10-19 电子科技大学 一种基于深度学习的图像场景标注方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9202144B2 (en) * 2013-10-30 2015-12-01 Nec Laboratories America, Inc. Regionlets with shift invariant neural patterns for object detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN108564097A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
CN108509839A (zh) * 2018-02-02 2018-09-07 东华大学 一种基于区域卷积神经网络高效的手势检测识别方法
CN108681752A (zh) * 2018-05-28 2018-10-19 电子科技大学 一种基于深度学习的图像场景标注方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Network Capacity Optimisation in Millimetre Wave Band Using Fractional Frequency Reuse;Naser Al-Falahy,et al;《IEEE Access》;20180315;第6卷;10924-10932 *
基于中层语义的图像场景分类算法研究;王同刚;《硕士电子期刊》;20110815(第8期);1-76 *

Also Published As

Publication number Publication date
CN109726690A (zh) 2019-05-07

Similar Documents

Publication Publication Date Title
CN114241282B (zh) 一种基于知识蒸馏的边缘设备场景识别方法及装置
CN109447140B (zh) 一种基于神经网络深度学习的图像识别并推荐认知的方法
CN110458107B (zh) 用于图像识别的方法和装置
CA3066029A1 (en) Image feature acquisition
CN110837846A (zh) 一种图像识别模型的构建方法、图像识别方法及装置
CN113408343B (zh) 基于双尺度时空分块互注意力的课堂动作识别方法
CN110427819B (zh) 一种识别图像中ppt边框的方法及相关设备
CN114298122B (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
CN115131698B (zh) 视频属性确定方法、装置、设备及存储介质
CN113722474A (zh) 文本分类方法、装置、设备及存储介质
CN113283336A (zh) 一种文本识别方法与系统
CN112528058B (zh) 基于图像属性主动学习的细粒度图像分类方法
CN115563327A (zh) 基于Transformer网络选择性蒸馏的零样本跨模态检索方法
CN113283488B (zh) 一种基于学习行为的认知诊断方法及系统
CN114330514A (zh) 一种基于深度特征与梯度信息的数据重建方法及系统
CN109726690B (zh) 基于DenseCap网络的学习者行为图像多区域描述方法
CN114399108A (zh) 一种基于多模态信息的茶园产量预测方法
CN113568983B (zh) 场景图生成方法、装置、计算机可读介质及电子设备
CN115546553A (zh) 一种基于动态特征抽取和属性修正的零样本分类方法
CN113822521A (zh) 题库题目的质量检测方法、装置及存储介质
Chatterjee et al. Efficient labelling of solar flux evolution videos by a deep learning model
Li et al. A method design of English teaching system based on video feedback method
CN116168398B (zh) 基于图像识别的试卷审批方法、装置和设备
CN112132178B (zh) 对象分类方法、装置、电子设备及存储介质
Menaka et al. Performance of Data Mining Classifiers on Kolb’s Learning Style Inventory (KLSI)’

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant