CN115116117A - 一种基于多模态融合网络的学习投入度数据的获取方法 - Google Patents

一种基于多模态融合网络的学习投入度数据的获取方法 Download PDF

Info

Publication number
CN115116117A
CN115116117A CN202210845735.9A CN202210845735A CN115116117A CN 115116117 A CN115116117 A CN 115116117A CN 202210845735 A CN202210845735 A CN 202210845735A CN 115116117 A CN115116117 A CN 115116117A
Authority
CN
China
Prior art keywords
image
learning
head rotation
electroencephalogram
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210845735.9A
Other languages
English (en)
Inventor
刘海
张昭理
王书通
王坤
周启云
石佛波
刘婷婷
杨兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University
Central China Normal University
Original Assignee
Hubei University
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University, Central China Normal University filed Critical Hubei University
Priority to CN202210845735.9A priority Critical patent/CN115116117A/zh
Publication of CN115116117A publication Critical patent/CN115116117A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态融合网络的学习投入度数据的获取方法,该方法将待监测学习主体的脸部图像、头部旋转图像和脑电信息同时用于学习投入度的评估中,采用新颖的多模态网络模型CGVNet提高了待监测学习主体的学习投入度数据监测的准确性。将获取的头部旋转角度特征向量、凝视方向特征向量以及脑电信息进行融合并分类,从而克服了传统学习投入度监测方法中监测维度单一的局限性,减少漏检、误检的问题,对学习质量的提高和辅助教学具有重要意义。

Description

一种基于多模态融合网络的学习投入度数据的获取方法
技术领域
本发明涉及智能人机交互技术领域,更具体地,涉及一种基于多模态融合网络的学习投入度数据的获取方法。
背景技术
随着教育信息化的高速发展,人工智能技术已经被越来越多地应用于教育教学过程中。近年来,在线远程教学的方法一时间被广泛采用。由于在线学习中没有教师近距离监督,所以学习主体的自主学习能力有所下降。然而近期,随着线下课堂学习的开展,如何实现远程监督或自监督的方式来评估学习主体学习的投入度情况,成为亟待解决的问题。采用一种实时课堂学习投入度监测方法辅助学习者进行课堂学习,从而提高学习者课堂学习的学习效率具有十分重要的意义。
然而,传统的学习投入度监测方法中的监测维度较单一,对监测维度的相应数据的识别精准度也不太高,导致无法从更多维度、更多层次、更高精准度地评估学习主体的学习投入度。
发明内容
针对现有技术的至少一个缺陷或改进需求,本发明提供了一种基于多模态融合网络的学习投入度数据的获取方法,用于克服传统的学习投入度监测方法中的监测维度较单一,对监测维度的相应数据的识别精准度也不太高,而导致的无法从更多维度、更多层次、更高精准度地评估学习主体的学习投入度的技术缺陷。
为实现上述目的,第一方面,本发明提供一种基于多模态融合网络的学习投入度数据的获取方法,包括步骤:
基于包括穿戴式设备的设备系统获取待监测学习主体的脸部图像、头部旋转图像和脑电信息;
对获取的脸部图像、头部旋转图像和脑电信息进行预处理,以使相关图像和相应时间戳的脑电信息进行对应;
将进行预处理后的脸部图像、头部旋转图像和脑电信息输入到预训练好的多模态网络模型中,获取该待监测学习主体当前的凝视估计方向、头部旋转估计角度和脑电曲线;
基于凝视估计方向、头部旋转估计角度和脑电曲线,获取该待监测学习主体当前的学习投入度数据。
进一步地,所述将进行预处理后的脸部图像、头部旋转图像和脑电信息输入到预训练好的多模态网络模型中,获取该待监测学习主体当前的凝视估计方向、头部旋转估计角度和脑电曲线具体包括步骤:
将脸部图像输入到多模态网络模型中的凝视方向估计模型进行特征抽取,获取对应的凝视方向特征向量;
将头部旋转图像输入到多模态网络模型中的头部旋转角度估计模型进行特征抽取,获取对应的头部旋转角度特征向量;
将凝视方向特征向量、头部旋转角度特征向量结合脑电信息进行融合并分类,获取该待监测学习主体当前的凝视估计方向、头部旋转估计角度和脑电曲线。
进一步地,所述头部旋转角度估计模型的输入层输入的是头部旋转图像,特征抽取层包括三个卷积层、三个池化层、两个全连接层和三个drop-out层,输出层输出的是对应的头部旋转角度特征向量;头部旋转角度估计模型使用 Nesterov的加速梯度下降法进行参数优化。
进一步地,对于输入到凝视方向估计模型的脸部图像,首先利用基于GAN 的语义图像修复法来对穿戴式设备覆盖的区域进行修复。
进一步地,所述利用基于GAN的语义图像修复法来对穿戴式设备覆盖的区域进行修复具体包括:
使用最小二乘损失法,GAN的训练目标是最小化LGAN(D)和LGAN(G),其中,
LGAN(D)=Ex~p[(D(x)-1)2]+Ex~pn[(D(G(x)))2],
LGAN(G)=Ex~pn[(D(G(z))-1)2],
其中,Di是一个鉴别器,D(xi)表示为输入图像xi为真实样本的概率;Gi表示生成器,用于输出合成图像;LGAN(D)测量的是D中图像的真实感,LGAN(G) 测量的是由G产生的图像的真实感,将其认为是知觉损失,知觉损失的公式为:
Lperception(z)=[D(G(z))-1]2
根据非掩蔽区域的真实图像x与生成的图像G(z)的差值来测量上下文损失,上下文损失的公式为:
Lcontext(z|M,x)=|M1⊙x-M1⊙G(z)|,
其中,⊙是元素积,M1是M的补数,M为不应该被修复的区域;
生成用于修复的最佳图像相当于找到最佳
Figure BDA0003752653860000031
值,其最小化了知觉损失和上下文损失的组合公式为:
Figure BDA0003752653860000032
其中,λ是加权参数,找到z后,修复图像可以通过以下公式生成:
Xinpainted=M1⊙x-M1⊙G(z),
然后,将泊松混合应用于Xinpainted,以生成最终的修复图像,使得在修复区域和非修复区域之间具有无缝边界。
进一步地,将脸部图像输入到多模态网络模型中的凝视方向估计模型进行特征抽取具体包括:
使用关键点检测模块抽取5个面部关键点的位置,用于生成眼睛图像;
根据标注的注视标签对凝视方向估计模型进行训练。
进一步地,学习投入度数据包括脑电曲线偏离程度数据;脑电曲线偏离程度数据通过计算脑电曲线偏离脑电基准曲线的程度来获取;脑电基准曲线为学习投入度达到标准的学习主体产生的脑电信息形成的曲线;脑电曲线偏离程度数据可用于分析待监测学习主体的学习投入度。
进一步地,对获取的脸部图像、头部旋转图像和脑电信息进行预处理时,还包括:
剔除质量不符合要求的数据,保留质量符合要求的数据进行预处理;
对进行预处理的数据进行包括扭曲、加入噪点、降低分辨率的一种或多种方法的数据增强操作。
第二方面,本发明提供一种电子设备,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元能够执行上述任一项所述方法的步骤。
第三方面,本发明提供一种存储介质,其存储有可由访问认证设备执行的计算机程序,当所述计算机程序在访问认证设备上运行时,使得所述访问认证设备能够执行上述任一项所述方法的步骤。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明公开的一种基于多模态融合网络的学习投入度数据的获取方法将待监测学习主体的脸部图像、头部旋转图像和脑电信息同时用于学习投入度的评估中,采用新颖的多模态网络模型CGVNet提高了待监测学习主体的学习投入度数据监测的准确性。将获取的头部旋转角度特征向量、凝视方向特征向量以及脑电信息进行融合并分类,从而克服了传统学习投入度监测方法中监测维度单一的局限性,减少漏检、误检的问题,对学习质量的提高和辅助教学具有重要意义。
(2)本发明将基于GAN的语义图像修复法应用于穿戴式设备所覆盖的区域,通过去除穿戴式设备的突兀性来弥合训练图像与测试图像之间的差距,从而提高了网络的精度并使训练得到的网络模型更加具有鲁棒性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于多模态融合网络的学习投入度数据的获取方法的流程示意图;
图2为本发明实施例提供的包括穿戴式设备的设备系统采集待监测学习主体的脸部图像、头部旋转图像和脑电信息等数据的场景示意图;
图3为本发明实施例提供的多模态网络模型的总体网络结构示意图;
图4为本发明实施例提供的学习投入度评估机制示意图;
图5为本发明实施例提供的适于实现上文描述的方法的电子设备的方框示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细地说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本申请的说明书、权利要求书或上述附图中的术语“包括”或“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备并没有限定于已列出的步骤或单元,而是可选地还可以包括没有列出的步骤或单元,或可选地还可以包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
经过长期地研究得出,学习投入度可以从学习者的头部旋转、凝视方向以及脑电信息等方面反映出来,投入度集中时应当是头部朝向学习设备、凝视集中并且脑电信息比较活跃。然而,在课堂学习的过程中,学习主体会有安静听讲以及低头看书等情况,仅依靠单方面的信息捕捉很难准确判断当前学习主体的学习投入度状态,导致监测结果的准确率降低。
学习投入度的监测可以从学习主体在学习过程中的凝视方向、头部旋转角度以及脑电信息这些方面入手,其中广义的凝视估计泛指对于眼球、眼动、凝视等相关的研究。一般来说,凝视估计方法可以分为基于模型的方法和基于外观的方法两大类。基于模型的方法的基本思想是基于眼睛角膜反射等特征,结合3D眼球先验知识,估计凝视方向;而基于外观的方法则是直接抽取眼睛的视觉特征,训练回归模型,学习一个将外观映射到凝视方向的模型,从而进行凝视估计。通过多次试验地对比分析,基于模型的方法获得的精度较高,但对图像的质量和分辨率的要求也较高,为了达到这一目的,通常要求使用专门的硬件,且对用户的头部旋转等移动性限制较大;而基于外观的方法对低分辨率和高噪声的图像表现更好,但其模型的训练却需要大量数据。随着深度学习的发展以及大量数据集的公开,基于外观的方法受到了越来越多地关注。本发明就是基于这种技术发展的现状,创造性地将基于模型的方法和基于外观的方法做了有机结合并应用于凝视方向地估计中。
随着可穿戴设备技术和信息处理算法地发展,生理信息被广泛地应用于学习主体生理状态地监测,基于穿戴式设备采集的生理信息能更加精确地反应被测学习主体的状态,从而能够提高学习投入度监测系统的整体性能。
参考图1和图4,在一个实施例中,一种基于多模态融合网络的学习投入度数据的获取方法主要包括S1-S4的步骤:
S1、基于包括穿戴式设备的设备系统获取待监测学习主体的脸部图像、头部旋转图像和脑电信息。
S2、对获取的脸部图像、头部旋转图像和脑电信息进行预处理,以使相关图像和相应时间戳的脑电信息进行对应。
参考图2,通过教室中的RGB-D相机、运动捕捉相机(Motion capture camera) 和头戴式凝视跟踪仪(Eyetracking glass)分别获取待监测学习主体的脸部图像、头部旋转图像和脑电信息。
头戴式凝视跟踪仪包括生理信息采集模块、生理信息传输模块和生理信息分析模块。生理信息采集模块用来采集学习主体的脑电信息;生理信息传输模块将生理信息采集模块采集的生理信息的时间戳与其它特征保持同步;对于生理信息,首先需要对采集的生理信息进行信息质量评估,剔除质量不符合要求的数据,保留质量符合要求的数据进行处理,对数据进行预处理,并对其进行扭曲、加入噪点、降低分辨率等方法进行数据增强;通过生理信息分析模块对各生理信息进行预处理和特征抽取,将特征向量输入融合模型中得到学习主体的脑电曲线,计算脑电曲线偏离脑电基准曲线的程度,得到偏离程度;脑电基准曲线为学习投入度达到标准的学习主体产生的脑电信号形成的曲线;依据脑电曲线的偏离程度数据可以分析评估待监测学习主体的学习投入度情况。
S3、将进行预处理后的脸部图像、头部旋转图像和脑电信息输入到预训练好的多模态网络模型中,获取该待监测学习主体当前的凝视估计方向、头部旋转估计角度和脑电曲线。步骤S3具体包括以下S31-S33的步骤。
S31、将脸部图像输入到多模态网络模型中的凝视方向估计模型进行特征抽取,获取对应的凝视方向特征向量。
S32、将头部旋转图像输入到多模态网络模型中的头部旋转角度估计模型进行特征抽取,获取对应的头部旋转角度特征向量。
S33、将凝视方向特征向量、头部旋转角度特征向量结合脑电信息进行融合并分类,获取该待监测学习主体当前的凝视估计方向、头部旋转估计角度和脑电曲线。
如图3所示,该多模态网络模型CGVNet包括头部旋转角度估计模型和凝视方向估计模型。多模态网络模型将头部旋转角度估计模型输出的头部旋转角度特征向量以及凝视方向估计模型输出的凝视方向特征向量进行融合并分类,得到待监测学习主体当前的头部旋转估计角度和凝视估计方向。
本实施例中,将头部旋转图像输入到ConvNet头部旋转角度估计模型中进行处理,头部旋转角度估计模型的网络结构(ConvNet)如图3所示。预训练的卷积网络(ConvNet)模型进行头部姿估计,网络的输入是96×96的灰度头部旋转图像,归一化到0至1之间。特征抽取阶段包括三个卷积层、三个池化层、两个全连接层和三个drop-out层。输出层是一个头部旋转角度的特征向量,而多模态网络模型CGVNet最终输出的是代表头部姿态的俯仰角、偏航角和滚转角。角度归一化在﹣1至1之间。本实施例使用Nesterov的加速梯度下降(NAG)方法进行参数优化,将动量设置为0.9,学习速率设置为0.005。
数据增强对于神经网络的训练有至关重要的作用。在模型训练阶段,本实施例针对头部姿态估计(头部旋转角度估计)的问题,采用的数据增强方法是: 通过旋转、平移、尺度变换等方式,对头部旋转图像进行样本增强,以此增强模型的鲁棒性,同时,这些操作也为模型训练提供了大量伪造样本。
对于输入到凝视方向估计模型的脸部图像实现凝视方向估计,通过使用运动捕捉系统来测量头部姿势和使用头戴式凝视跟踪仪来测量眼睛的注视,以此来解决真实标注(Ground Truth)问题。因为本发明对在不使用头戴式凝视跟踪仪的情况下估计学习主体的视线(凝视方向)感兴趣,所以重要的是测试图像不受学习主体外观变化的影响。因此,对输入到凝视方向估计模型VGG的脸部图像首先进行基于GAN的语义图像修复来对头戴式凝视跟踪仪覆盖的区域进行修复,来消除头戴式凝视跟踪仪带来的突兀感,这样主要是为了弥合训练和测试图像之间的差异性,进而将图像输入到网络模型中进行特征抽取。移除头戴式凝视跟踪仪的图像被用于训练新的凝视方向估计模型,修复提高了凝视估计的准确性。有两个条件要满足:修复后的结果应该看起来很真实(感知损失 Lperception),修复后的像素应该与周围的像素对齐良好(上下文损失Lcontext)。
凝视方向估计模型中的预处理之后的凝视方向的特征抽取步骤还包括:使用关键点检测模块抽取5个面部关键点的位置,用于生成眼睛图像。根据标注的注视标签对凝视方向估计模型进行训练。
本实施例为学习主体训练了一个独立的修复网络,让Di表示一个鉴别器,该鉴别器将来自未佩戴头戴式凝视跟踪仪的数据集的学习主体的图像xi∈Rd(d =224×224×3)作为输入,并输出一个标量,该标量表示输入是真实样本的概率。让Gi表示将从均匀噪声分布pn=U(1,1)采样的潜在随机变量zi∈Rz(z=100) 作为输入并输出合成图像Gi(zi)∈Rd的发生器。理想情况下,当xi来自学习主体的真实数据集pi时,Di(xi)=1,当xi来自Gi时,Di(xi)=0。
本实施例使用的是最小二乘损失,GAN的训练目标是最小化 LGAN(D)和LGAN(G),其中:
LGAN(D)=Ex~p[(D(x)-1)2]+Ex~pn[(D(G(x)))2],
LGAN(G)=Ex~pn[(D(G(z))-1)2],
其中,LGAN(G)测量的是由G产生的图像的真实感,将其认为是知觉(perception)损失:
Lperception(z)=[D(G(z))-1]2
上下文(context)损失是根据非掩蔽区域的真实图像x与生成的图像G(z) 的差值来测量的:
Lcontext(z|M,x)=|M1⊙x-M1⊙G(z)|,
其中⊙是元素积,M1是M的补数(即定义不应该被修复的区域)。
潜在随机变量z控制由G(z)产生的图像。因此,生成用于修复的最佳图像相当于找到最佳
Figure BDA0003752653860000091
值,其最小化了知觉损失和上下文损失的组合:
Figure BDA0003752653860000092
其中λ是加权参数。找到z后,修复图像可以通过以下方式生成:
Xinpainted=M1⊙x-M1⊙G(z),
然后将泊松混合应用于Xinpainted(inpainting,即:数字图像修补),以生成最终的修复图像,使得在修复区域和非修复区域之间具有无缝边界。
关于凝视方向估计的网络架构(凝视方向估计模型),本实施例进行了超参数调整,以生成高质量的高分辨率图像。将生成器设置为 Z-dense(25088)-(256)5d2s-(128)5d2s-(64)5d2s-(32)5d2s-(3)5d2s-X,其中“(128)52s /(128)5d2s”表示一个卷积/反卷积层,输出特征图128个,内核大小为5,stride 为2。所有内部激活使用ReLU,而输出层使用tanh激活函数。鉴别器的架构为:X-(16)5c2s-(32)5c2s-(64)5c2s-(128)5c2s-(256)5c2s-(512)5c2s-dense(1)。本实施例使用α=0.2的LeakyReLU作为所有内部激活,而输出层使用sigmoid激活。
为了训练G和D,本实施例使用Adam优化器,学习率为0.00005,β1=0.9,β2=0.99,100个epoch的批大小为128。本实施例对所有层使用Xavier权重初始化,为了找到
Figure BDA0003752653860000101
Figure BDA0003752653860000102
中的所有值限制在[-1,1]内,并训练1000次迭代,加权参数λ设为0.1。
本实施例将脸部图像分别送入VGG网络(凝视方向估计模型)进行特征抽取。每个VGG网络在最后一个Max-pooling层之后是一个大小为512的全连接 (FC)层,然后是批处理归一化和ReLU激活,然后将这些层连接起来,得到大小为1024的FC层,这一层之后是另一个大小为512的FC层,最后一层的输出是凝视方向的特征向量。
作为损失函数,本实施例使用个体L2损失在预测凝视方向向量和真实凝视方向向量之间的总和,并取自预训练的模型。VGG模型的权值在ImageNet上使用一个预先训练的模型进行初始化。因为考虑到权重共享会导致性能下降,所以本实施例没有使用它。FC层的权值使用Xavier进行初始化,使用Adam优化器,学习率0.001,β1=0.95,β2=0.9,批大小为256。
S4、基于凝视估计方向、头部旋转估计角度和脑电曲线,获取该待监测学习主体当前的学习投入度数据。
基于头部旋转估计角度、凝视估计方向以及脑电曲线生成待监测学习主体当前的学习投入度监测结果数据。根据监测结果数据,为课堂学习主体提供学习投入度、学习效果反馈,一方面可帮助其了解自身的学习状况,以此来优化学习过程,另一方面可对教师的教学质量进行评估,帮助教师更好地改进课程内容。
图5示意性示出了根据本发明的实施例的适于实现上文描述的方法的电子设备的方框图。图5示出的电子设备仅仅是一个示例,不应对本发明的实施例的功能和使用范围带来任何限制。
如图5所示,本实施例中所描述的电子设备1000,包括:处理器1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。处理器1001 例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器1001还可以包括用于缓存用途的板载存储器。处理器1001可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 1003中,存储有系统1000操作所需的各种程序和数据。处理器1001、 ROM1002以及RAM 1003通过总线1004彼此相连。处理器1001通过执行ROM 1002和/或RAM 1003中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 1002和RAM 1003以外的一个或多个存储器中。处理器1001也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备1000还可以包括输入/输出(I/O)接口1005,输入/输出(I/O)接口1005也连接至总线1004。系统1000还可以包括连接至I/O 接口1005的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被处理器1001执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块或单元等可以通过计算机程序模块来实现。
本发明的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 1002和/或RAM 1003以外的一个或多个存储器。
需要说明的是,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来。
附图中的流程图或框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。还要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别的,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,所有这些组合和/或结合均落入本公开的范围。
尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。

Claims (10)

1.一种基于多模态融合网络的学习投入度数据的获取方法,其特征在于,包括步骤:
基于包括穿戴式设备的设备系统获取待监测学习主体的脸部图像、头部旋转图像和脑电信息;
对获取的脸部图像、头部旋转图像和脑电信息进行预处理,以使相关图像和相应时间戳的脑电信息进行对应;
将进行预处理后的脸部图像、头部旋转图像和脑电信息输入到预训练好的多模态网络模型中,获取该待监测学习主体当前的凝视估计方向、头部旋转估计角度和脑电曲线;
基于凝视估计方向、头部旋转估计角度和脑电曲线,获取该待监测学习主体当前的学习投入度数据。
2.如权利要求1所述的学习投入度数据的获取方法,其特征在于,所述将进行预处理后的脸部图像、头部旋转图像和脑电信息输入到预训练好的多模态网络模型中,获取该待监测学习主体当前的凝视估计方向、头部旋转估计角度和脑电曲线具体包括步骤:
将脸部图像输入到多模态网络模型中的凝视方向估计模型进行特征抽取,获取对应的凝视方向特征向量;
将头部旋转图像输入到多模态网络模型中的头部旋转角度估计模型进行特征抽取,获取对应的头部旋转角度特征向量;
将凝视方向特征向量、头部旋转角度特征向量结合脑电信息进行融合并分类,获取该待监测学习主体当前的凝视估计方向、头部旋转估计角度和脑电曲线。
3.如权利要求2所述的学习投入度数据的获取方法,其特征在于,所述头部旋转角度估计模型的输入层输入的是头部旋转图像,特征抽取层包括三个卷积层、三个池化层、两个全连接层和三个drop-out层,输出层输出的是对应的头部旋转角度特征向量;头部旋转角度估计模型使用Nesterov的加速梯度下降法进行参数优化。
4.如权利要求2所述的学习投入度数据的获取方法,其特征在于,对于输入到凝视方向估计模型的脸部图像,首先利用基于GAN的语义图像修复法来对穿戴式设备覆盖的区域进行修复。
5.如权利要求4所述的学习投入度数据的获取方法,其特征在于,所述利用基于GAN的语义图像修复法来对穿戴式设备覆盖的区域进行修复具体包括:
使用最小二乘损失法,GAN的训练目标是最小化LGAN(D)和LGAN(G),其中,
LGAN(D)=Ex~p[(D(x)-1)2]+Ex~pn[(D(G(x)))2],
LGAN(G)=Ex~pn[(D(G(z))-1)2],
其中,Di表示鉴别器,D(xi)为输入图像xi为真实样本的概率;Gi表示生成器,用于输出合成图像;LGAN(D)测量的是D中图像的真实感,LGAN(G)测量的是由G产生的图像的真实感,将其认为是知觉损失,知觉损失的公式为:
Lperception(z)=[D(G(z))-1]2
根据非遮挡的真实图像x与生成的图像G(z)的差值来测量上下文损失,上下文损失的公式为:
Lcontext(z|M,x)=|M1⊙x-M1⊙G(z)|,
其中,⊙是元素积,M1是M的补数,M为不应该被修复的区域;
生成用于修复的最佳图像相当于找到最佳
Figure FDA0003752653850000022
值,其最小化了知觉损失和上下文损失的组合公式为:
Figure FDA0003752653850000021
其中,λ是加权参数,找到z后,修复图像可以通过以下公式生成:
Xinpainted=M1⊙x-M1⊙G(z),
然后,将泊松混合应用于Xinpainted,以生成最终的修复图像,使得在修复区域和非修复区域之间具有无缝边界。
6.如权利要求5所述的学习投入度数据的获取方法,其特征在于,将脸部图像输入到多模态网络模型中的凝视方向估计模型进行特征抽取具体包括:
使用关键点检测模块抽取5个面部关键点的位置,用于生成眼睛图像;
根据标注的注视标签对凝视方向估计模型进行训练。
7.如权利要求1所述的学习投入度数据的获取方法,其特征在于,学习投入度数据包括脑电曲线偏离程度数据;脑电曲线偏离程度数据通过计算脑电曲线偏离脑电基准曲线的程度来获取;脑电基准曲线为学习投入度达到标准的学习主体产生的脑电信息形成的曲线;脑电曲线偏离程度数据可用于分析待监测学习主体的学习投入度。
8.如权利要求1所述的学习投入度数据的获取方法,其特征在于,对获取的脸部图像、头部旋转图像和脑电信息进行预处理时,还包括:
剔除质量不符合要求的数据,保留质量符合要求的数据进行预处理;
对进行预处理的数据进行包括扭曲、加入噪点、降低分辨率的一种或多种方法的数据增强操作。
9.一种电子设备,其特征在于,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元执行权利要求1~8任一项所述方法的步骤。
10.一种存储介质,其特征在于,其存储有可由访问认证设备执行的计算机程序,当所述计算机程序在访问认证设备上运行时,使得所述访问认证设备执行权利要求1~8任一项所述方法的步骤。
CN202210845735.9A 2022-07-19 2022-07-19 一种基于多模态融合网络的学习投入度数据的获取方法 Pending CN115116117A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210845735.9A CN115116117A (zh) 2022-07-19 2022-07-19 一种基于多模态融合网络的学习投入度数据的获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210845735.9A CN115116117A (zh) 2022-07-19 2022-07-19 一种基于多模态融合网络的学习投入度数据的获取方法

Publications (1)

Publication Number Publication Date
CN115116117A true CN115116117A (zh) 2022-09-27

Family

ID=83332126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210845735.9A Pending CN115116117A (zh) 2022-07-19 2022-07-19 一种基于多模态融合网络的学习投入度数据的获取方法

Country Status (1)

Country Link
CN (1) CN115116117A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116797612A (zh) * 2023-08-24 2023-09-22 天津医科大学第二医院 基于弱监督深度活动轮廓模型的超声图像分割方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116797612A (zh) * 2023-08-24 2023-09-22 天津医科大学第二医院 基于弱监督深度活动轮廓模型的超声图像分割方法及装置
CN116797612B (zh) * 2023-08-24 2024-03-29 天津医科大学第二医院 基于弱监督深度活动轮廓模型的超声图像分割方法及装置

Similar Documents

Publication Publication Date Title
EP3885965B1 (en) Image recognition method based on micro facial expressions, apparatus and related device
CN110689025B (zh) 图像识别方法、装置、系统及内窥镜图像识别方法、装置
Rahmon et al. Motion U-Net: Multi-cue encoder-decoder network for motion segmentation
CN111461176A (zh) 基于归一化互信息的多模态融合方法、装置、介质及设备
CN114120432A (zh) 基于视线估计的在线学习注意力跟踪方法及其应用
CN111666845B (zh) 基于关键帧采样的小样本深度学习多模态手语识别方法
CN115237255B (zh) 一种基于眼动和语音的自然图像共指目标定位系统及方法
CN115761908A (zh) 基于多模态数据学习的移动端儿童视觉注意异常筛查方法
CN112418166A (zh) 一种基于多模态信息的情感分布学习方法
CN114170537A (zh) 一种多模态三维视觉注意力预测方法及其应用
CN114140885A (zh) 一种情感分析模型的生成方法、装置、电子设备以及存储介质
CN110472673B (zh) 参数调整方法、眼底图像处理方法、装置、介质及设备
CN113706562A (zh) 图像分割方法、装置、系统及细胞分割方法
CN115116117A (zh) 一种基于多模态融合网络的学习投入度数据的获取方法
CN112560668B (zh) 一种基于场景先验知识的人体行为识别方法
CN117786600A (zh) 认知评估方法、装置、电子设备和存储介质
CN116665310B (zh) 基于弱监督学习的抽动障碍识别和分类方法及系统
CN111144374B (zh) 人脸表情识别方法及装置、存储介质和电子设备
Tiwari et al. Personality prediction from Five-Factor Facial Traits using Deep learning
Naqvi et al. Advancements in Facial Expression-Based Automatic Emotion Identification Using Deep Learning
CN115019396A (zh) 一种学习状态监测方法、装置、设备及介质
CN111898576B (zh) 一种基于人体骨架时空关系的行为识别方法
CN114663910A (zh) 基于多模态学习状态分析系统
Mălăescu et al. Task–Driven Image–to–Image Translation for Automotive Applications
CN111860033A (zh) 一种注意力识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination