CN117315536A - 一种在线学习专注度监测方法及系统 - Google Patents

一种在线学习专注度监测方法及系统 Download PDF

Info

Publication number
CN117315536A
CN117315536A CN202311240937.1A CN202311240937A CN117315536A CN 117315536 A CN117315536 A CN 117315536A CN 202311240937 A CN202311240937 A CN 202311240937A CN 117315536 A CN117315536 A CN 117315536A
Authority
CN
China
Prior art keywords
eye
aspect ratio
mouth
sight
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311240937.1A
Other languages
English (en)
Other versions
CN117315536B (zh
Inventor
曹硕裕
王可
王进
顾翔
陈亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202311240937.1A priority Critical patent/CN117315536B/zh
Priority claimed from CN202311240937.1A external-priority patent/CN117315536B/zh
Publication of CN117315536A publication Critical patent/CN117315536A/zh
Application granted granted Critical
Publication of CN117315536B publication Critical patent/CN117315536B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Educational Technology (AREA)
  • Strategic Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Ophthalmology & Optometry (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种在线学习专注度监测方法及系统,首先构建数据采集模块、特征提取模块,然后计算眼睛纵横比、嘴部纵横比、头部姿态欧拉角、并构建视线估计模型,然后构建注意力检测模块,通过输入在线学习者的视频,获得眼睛纵横比、嘴部纵横比、头部姿态欧拉角、眼睛视线方向,然后应用注意力检测模块,设置注意力检测模块阈值,大于等于阈值判断为注意力分散,小于阈值为注意力集中;本发明仅需要带摄像头的电脑,不需要佩戴其他额外的仪器,就可以判断在线学习者注意力是否集中,学生常用的笔记本电脑即可满足本发明的环境要求,本发明具有开销较小、较为便利、较强的鲁棒性、较好的精准度等优点。

Description

一种在线学习专注度监测方法及系统
技术领域
本发明属于计算机视觉技术领域,尤其涉及一种在线学习专注度监测方法及系统。
背景技术
目前,随着信息技术的发展以及教育形式的多样化,线上教学的教学形式已经普及。线上教学和线下教学相比各有优劣,其中线上教学有一个很大的弊端,那就是这种教学形式大多数都是无人监督;而线下上课时有老师监督,学生也会提高注意力听课。线上教学大多数需要靠学生的自觉,因此学生容易产生疲劳或者注意力涣散的情况,这会大大影响教育质量和教育效果。所以,检测学生注意力的方法,对线上教育来说是非常重要的。
目前有一些用于监测在线学习学生的专注度的技术被提出,例如基于眼动仪检测视线、键盘鼠标操作分析、脑电波分析、情感分析、还有检测是否抽烟、喝水的行为识别技术。上述方法中,基于眼动仪和脑电波分析的方法需要额外的仪器来检测视线或者脑电波,开销较大,并且对学生来说佩戴仪器较为不便;基于键盘鼠标操作分析对于学生是否专注关联性较小;情感分析的方法误差较大,如果学生沉浸课堂中,也可能发生情感波动;学生在课堂上抽烟的行为较为罕见,而检测学生有喝水的行为就被认定不专注并不合理。
图1,2022年12月公开的发明专利《一种基于人脸检测的在线学习状态分析方法及装置》,该发明通过获取在线学习过程中的声音数据,包括线上和线下声音数据,再获取学习者的脸部运动数据,对声音和脸部运动进行关联度分析,确定学习者的学习状态。这种方法结合了人脸识别的方法,但是该方法仅凭声音和人脸运动关联度分析就确定学习者的学习状态,过于片面,和学生是否专注关联性也不高,并且没有考虑学生是否疲劳、是否闭上眼睛、视线是否偏移等对在线学习专注度起关键作用的要素。
发明内容
本发明所要解决的技术问题在于:针对目前的在线学习专注度监测方法并没有综合考虑学生是否处于疲劳状态,比如学生是否因疲劳瞌睡而打哈欠,学生是否频繁眨眼;学生的头部方向是否偏转;学生的视线是否偏移等因素,并且有些技术存在开销较大、对学生较为不便、关联性较小等缺点,提供了一种在线学习专注度监测方法及装置,能较为全面的对学生在线学习专注度进行监测,不需要佩戴其他额外的仪器,具有开销较小、更为便利、更有鲁棒性、较好的精准度等优点。
为解决以上技术问题,本发明提供如下技术方案:一种在线学习专注度检测方法,包括如下步骤:
S1、提取在线学习者视频流数据的帧图像数据;
S2、对帧图像数据进行面部特征提取,获得人脸特征点、以及眼部图像;其中人脸特征点包括眼部特征、嘴部特征、头部特征;
S3、根据眼部特征,计算眼睛纵横比;根据嘴部特征,计算嘴部纵横比;根据头部特征,计算对头部姿态欧拉角;以眼部图像为输入、对应的眼睛视线方向为输出构建并训练视线估计模型;
S4、根据眼睛纵横比、嘴部纵横比、头部姿态欧拉角、以及视线估计模型,构建并获得注意力检测模块,具体为:分别设置眼睛纵横比、嘴部纵横比、头部姿态欧拉角、眼睛视线方向的得分,结合各个得分,设置注意力检测模块阈值,大于等于阈值判断为注意力分散,小于阈值为注意力集中;
S5、实时采集在线学习者在线学习视频流数据,然后执行步骤S1至步骤S2;之后执行步骤S3计算眼睛纵横比、嘴部纵横比、头部姿态欧拉角,并应用视线估计模型获得眼睛视线方向,然后应用步骤S4的注意力检测模块,判断在线学习者注意力。
进一步地,前述的步骤S2包括以下子步骤:
S201:初始化Dlib人脸检测器,然后创建面部标志物预测;
S202;获得脸部位置检测器;
S203:获得脸部特征位置检测器;
S204:获取左右眼面部标志的索引;
S205、对本地摄像头采集的视频流数据的帧图像数据进行灰度化处理,得到预设数量的人脸特征点。
进一步地,前述的步骤S3中,所述眼睛纵横比,按如下公式计算:
其中,P0、P1、P2、P3、P4、P5分别为dlib库中人脸标志物检测点之中眼睛的六个特征点,眼睛纵横比EAR用于体现眼睛的开合程度,当眼睛睁开时,EAR会在一个值上下小幅度波动,当眼睛闭上时,EAR会迅速降为接近零。
进一步地,前述的嘴部纵横比,按如下公式计算:其中,P51、P59、P53、P57、P49、P55分别为dlib库中人脸标志物检测点之中的嘴部特征点,和EAR类似,采用嘴部横坐标和纵坐标的比来计算嘴部开合度,计算P51与P59以及P53与P57之间的欧氏距离,除以P49和P55的欧氏距离计算嘴部纵横比MAR值,当用户打哈欠时嘴巴张开,MAR升高,当用户嘴巴闭上时,MAR迅速降低。
进一步地,前述的步骤S3中,对应的头部姿态欧拉角按如下步骤获得:
S301、将世界坐标系UVW转换到相机坐标系XYZ,如下式:
其中,(X,Y,Z)表示相机坐标系的点,(U,V,W)表示世界坐标系的点,R表示旋转矩阵,T表示平移向量;
S302、由相机坐标系XYZ转换到像素坐标系xy,如下式:
其中,(x,y)表示像素坐标系的点,fz和fy是沿z轴和y轴的焦距,cz和cy是图像中心的坐标。s表示尺度因子;
S303、像素坐标系和世界坐标系的关系如下式:
S304、用直接线性变换法结合最小二乘进行迭代求解上述函数,得到图像中心坐标系到像素坐标系公式如下式:
305、然后得到旋转矩阵后求头部姿态欧拉角如下式:
其中,rij表示旋转矩阵中i行j列的值。ψ表示俯仰角,φ表示偏航角,γ表示滚动角。
进一步地,前述的步骤S3中视线估计模型包括视线高分辨率网络、以及与该视线高分辨率网络连接的图像帧生成模块、以及视线帧网络;
视线高分辨率网络作为主干网络,是HRNet网络架构,该主干网络包括若干个分支,各个分支用于提取不同分辨率的眼部图像的特征,且各个分支交互进行特征融合,获得热力图、标记点坐标、注视点半径,并将热力图、标记点坐标输入至图像帧生成模块,图像帧生成模块生成新的图像帧融合了眼睛形状和瞳孔位置信息,视线帧网络包括依次连接的第一卷积层、第二卷积层、第三卷积层、以及一个全连接层,第一卷积层作为视线帧网络的输入端接收新的图像帧,之后经过第二卷积层、第三卷积层后与视线高分辨率网络中得到的注视点的半径进行拼接,最后通过全连接层进行线性回归得到最终的视线估计二维值。
进一步地,前述的一种在线学习专注度检测方法,视线高分辨率网络进行特征提取具体为:将眼部图像输入至主干网络,主干网络特征融合的输入输出如下式:
输入={X1,X2,...,Xn}
输出={Y1,Y2,...,Yn},
其中,{X1,X2,...,Xn}表示输入的不同分辨率,{Y1,Y2,...,Yn}表示输出特征,具体特征融合步骤公式如下所示:
其中,Yk表示不同分辨率对应的输出特征,通过下采样和上采样后特征的元素和来生成,n表示不同的分辨率的数字,如果n相同则表示输入输出的宽度和分辨率相同,在第四阶段结束后连接所有阶段的信息来创建特征块
其中,上采样是通过一个卷积核大小为1×1的卷积层然后经过批归一化层,最后经过最邻近插值上采样直接放大n倍;下采样每下采样两倍都要增加一个卷积核大小为3×3,步长为2的卷积层,最后经过一个批归一化层;视线高分辨率网络最后一层的卷积层用于生成预测结果,视线高分辨率网络的输出为热力图、标记点坐标、注视点半径。
进一步地,前述的第一层卷积层根据输入图像是否为高分辨率图像来界定第一层卷积层步长的大小,如果是高分辨率图像,那么步长为2,否则步长为1,每一个卷积层后面都连接归一化层和relu激活函数。
进一步地,前述的一种在线学习专注度检测方法,视线高分辨率网络的损失函数由热力图损失、标记点损失、半径损失构成,都使用均方误差损失,计算预测值和真实值之间的误差,如下式:
其中,表示热力图损失,/>表示标记点损失,/>表示半径损失,H′是预测的热力图,H是真实热力图。r′是预测半径,r是真实半径,l′是预测标记点坐标,l是真实标记点坐标;视线高分辨率网络的损失函数由上面三个损失函数相加,如下式:
视线帧网络的损失函数使用角度损失函数,计算预测值和真实值标签之间的角度差,损失函数就是所有样本角度差的平均值,如下式:
其中,t(·)表示将角度转换为单位向量的函数,ξ′表示视线预测值,ξ表示视线真实值。
本发明另一方面提出一种在线学习专注度检测系统,包括:
数据采集模块,用于提取在线学习者视频流数据的帧图像数据;
特征提取模块,用于对帧图像数据进行面部特征提取,获得人脸特征点、以及眼部图像;其中人脸特征点包括眼部特征、嘴部特征、头部特征;
模型训练模块,被配置执行以下动作:
根据眼部特征,计算眼睛纵横比;根据嘴部特征,计算嘴部纵横比;根据头部特征,计算对头部姿态欧拉角;以眼部图像为输入、对应的眼睛视线方向为输出构建并训练视线估计模型;
根据眼睛纵横比、嘴部纵横比、头部姿态欧拉角、以及视线估计模型,构建并获得注意力检测模块,具体为:分别设置眼睛纵横比、嘴部纵横比、头部姿态欧拉角、眼睛视线方向的得分,结合各个得分,设置注意力检测模块阈值,大于等于阈值判断为注意力分散,小于阈值为注意力集中;
监测提示模块,被配置执行以下动作:实时采集在线学习者在线学习视频流数据,然后跳转至数据采集模块、特征提取模块执行,之后计算眼睛纵横比、嘴部纵横比、头部姿态欧拉角、利用视线估计模型,获得眼睛视线方向,然后应用注意力检测模块,判断在线学习者注意力,并在屏幕上显示结果,并且发出警报声音提醒用户。
相较于现有技术,本发明采用以上技术方案的有益技术效果如下:
本发明加入了打哈欠检测、眨眼检测、头部姿态检测、视线估计等功能,能更为全面地对学生在线学习专注度进行监测;考虑的这些要素对在线学习专注度关联性较大;仅需要带摄像头的电脑,不需要佩戴其他额外的仪器,学生常用的笔记本电脑即可满足本发明的环境要求。具有开销较小、较为便利、较强的鲁棒性等优点。经过实验可得,本发明各模块综合识别准确度为85%,具有较高的准确性。
附图说明
图1为现有技术的基于人脸检测和声音的在线学习专注度监测方法及装置。
图2为本发明的流程图。
图3为视线估计模型流程图。
图4为视线估计网络结构图。
图5为注意力检测模块流程图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
在本发明中参照附图来描述本发明的各方面,附图中示出了许多说明性实施例。本发明的实施例不局限于附图所述。应当理解,本发明通过上面介绍的多种构思和实施例,以及下面详细描述的构思和实施方式中的任意一种来实现,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
如图2所示,本发明提供一种在线学习专注度监测方法,包括如下步骤:
S1、提取在线学习者视频流数据的帧图像数据;
S2、通过Python中的Dlib库来实现人脸关键点的提取,对帧图像数据进行面部特征提取,获得人脸特征点、以及眼部图像;其中人脸特征点包括眼部特征、嘴部特征、头部特征68个特征点;具体为:
S201:初始化Dlib人脸检测器,然后创建面部标志物预测;
S202;获得脸部位置检测器;
S203:获得脸部特征位置检测器;
S204:获取左右眼面部标志的索引;
S205、对本地摄像头采集的视频流数据的帧图像数据进行灰度化处理,得到预设数量的人脸特征点。
S3、根据眼部特征,计算眼睛纵横比;根据嘴部特征,计算嘴部纵横比;根据头部特征,计算对头部姿态欧拉角;以眼部图像为输入、对应的眼睛视线方向为输出构建并训练视线估计模型;
S4、根据眼睛纵横比、嘴部纵横比、头部姿态欧拉角、视线估计模型,构建并获得注意力检测模块,参考图5,具体为:分别设置眼睛纵横比、嘴部纵横比、头部姿态欧拉角、眼睛视线方向的得分,结合各个得分,设置注意力检测模块阈值,大于等于阈值判断为注意力分散,小于阈值为注意力集中;
S5、实时采集在线学习者在线学习视频流数据,然后执行步骤S1至步骤S2;之后执行步骤S3计算眼睛纵横比、嘴部纵横比、头部姿态欧拉角,并利用视线估计模型,获得眼睛视线方向,然后应用步骤S4的注意力检测模块,判断在线学习者注意力。
进一步地,使用眼睛纵横比的公式来进行眨眼检测,眼睛纵横比EAR公式如下:
其中P0、P1、P2、P3、P4、P5分别为dlib库中人脸标志物检测点之中眼睛的六个特征点。眼睛纵横比可以体现眼睛的开合程度,当眼睛睁开时,EAR会在一个值上下小幅度波动,当眼睛闭上时,EAR会迅速降为接近零。通过这种方法可以对用户进行眨眼检测。
进一步地,采用嘴部纵横比的公式来进行打哈欠检测,嘴部纵横比MAR公式如下:
其中P51、P59、P53、P57、P49、P55分别为dlib库中人脸标志物检测点之中的嘴部特征点,选用以上六点为参考点进行计算。和EAR类似,采用嘴部横坐标和纵坐标的比来计算嘴部开合度,具体的,通过计算P51与P59以及P53与P57之间的欧氏距离,除以P49和P55的欧氏距离来计算MAR值,当用户打哈欠时嘴巴张开,MAR会升高,当用户嘴巴闭上时,MAR会迅速降低,此时判断用户进行了一次打哈欠动作。
进一步地,判断用户的头部姿态是否正常,通过头部姿态的欧拉角,即yaw、pitch、roll来判断头部是否倾斜,其中yaw绕Y轴旋转、pitch绕X轴旋转、roll绕Z轴旋转。当用户转动头部时,这三个指标会发生变化。设置pitch阈值、roll阈值和yaw阈值,当|Pitch|≥pitch阈值或者|Roll|≥roll阈值或者|yaw|≥yaw阈值时,且持续10帧时,就判断用户的头部发生了偏转,采用计数器记录头部偏转次数。
具体为:人体头部相对于相机的姿态可以用旋转矩阵和平移矩阵表示,根据旋转矩阵求欧拉角。通过相机坐标系、世界坐标系、像素坐标系、图像中心坐标系来确定人体头部的位置。
世界坐标系UVW到相机坐标系XYZ转换公式如下:
其中,(X,Y,Z)表示相机坐标系的点,(U,V,W)表示世界坐标系的点,R表示旋转矩阵,T表示平移向量;
再由相机坐标系XYZ转换到像素坐标系,公式如下:
其中,(x,y)表示像素坐标系的点,fz和fy是沿z轴和y轴的焦距,cz和cy是图像中心的坐标。s表示尺度因子。
综合上述两式可获得像素坐标系和世界坐标系的关系:
用直接线性变换法结合最小二乘进行迭代求解上述函数,得到图像中心坐标系到像素坐标系公式如下:
得到旋转矩阵后,求得欧拉角公式:
其中rij表示旋转矩阵中i行j列的值。ψ表示俯仰角,φ表示偏航角,γ表示滚动角。
采用头部姿态估计结果来判断的头部是否发生倾斜,通过计算得到头部姿态的欧拉角,即yaw、pitch、roll三种参数,这三种参数中,yaw绕Y轴旋转、pitch绕X轴旋转、roll绕Z轴旋转。本发明主要通过以上三种参数来判断学生的头部是否发生倾斜导致没法正常听课。
作为优选,本发明可以通过疲劳检测模块直接判断在线学习者是否集中注意力,疲劳检测模块包括眨眼检测模型和嘴部张合检测模型。
通过眨眼检测模型直接判断在线学习者是否注意力集中,由于眼睛有两只,因此会同时计算左右眼的EAR值,并计算平均值作为最终的EAR。通过眼睛纵横比EAR的计算结果,设置一个EAR阈值和帧阈值,设置一个计数器,每一帧都进行判断,当EAR低于EAR阈值时,计数器加一,当计数器大于帧阈值时,就判断眼睛处于闭合状况,直接判断用户处于注意力不集中的状态。本发明经过实验推定,纵横比阈值和帧阈值分别在0.25和3的时候比较合理,比较接近真实情况。此时,当EAR小于0.25时,且持续3帧时,就判断进行了一次眨眼活动。
通过嘴部张合检测模型直接判断在线学习者是否注意力集中,使用打哈欠模块检测用户的打哈欠次数,当人打哈欠时嘴巴一定会张开,因此当嘴巴持续张开时就判断用户产生了打哈欠的行为,设置一个嘴巴纵横比阈值和帧阈值,本发明经过实验推定,纵横比阈值和帧阈值分别在0.5和10的时候实验数据比较合理,比较接近真实情况。此时,当MAR小于0.5时,且持续10帧时,就判断进行了一次打哈欠活动,采用计数器记录打哈欠次数。当采用这种方法计算打哈欠次数简单、高效、快速。
如图3、4所示,视线估计模型包括视线高分辨率网络、以及与该视线高分辨率网络连接的图像帧生成模块、以及视线帧网络;使用UnityEyes数据集进行训练,这是一种视线估计大型的合成数据集。接下来对视线帧网络进行训练,使用MPIIGaze数据集,这是一种经典的视线估计数据集,包含受试者的大量眼睛图像和标签信息,训练好的模型进行保存。
视线高分辨率网络是视线估计模型的主干网络,进行特征提取,采用HRNet作为主干网络,该主干网络包括若干个分支,各个分支用于提取不同分辨率的眼部图像的特征,且各个分支交互进行特征融合,获得热力图、标记点坐标、注视点半径,图像帧生成模块的输入是视线高分辨率网络生成的热力图和标记点坐标,图像帧生成模块生成新的图像帧融合了眼睛形状和瞳孔位置信息,视线帧网络包括依次连接的第一卷积层、第二卷积层、第三卷积层、以及一个全连接层,第一卷积层作为视线帧网络的输入端接收新的图像帧,之后经过第二卷积层、第三卷积层后与视线高分辨率网络中得到的注视点的半径进行拼接,最后通过全连接层进行线性回归得到最终的视线估计二维值。
HRNet的设计思路是将多个分辨率的特征图进行融合,从而克服传统网络在高分辨率特征和低分辨率特征之间的折中。相比传统的网络,HRNet在多个分辨率上并行操作,保持了高分辨率特征的丰富性,同时又能捕捉到低分辨率特征中的上下文信息。这种设计使得其能够在保持细节信息的同时,具备全局和局部上下文感知能力
图4中,立方体为特征图,平行的箭头表示普通卷积,上箭头表示上采样,下箭头表示下采样,网络可以在整个过程中维持高分辨率表示,从高分辨率子网络开始作为第一阶段,逐步将高分辨率到低分辨率的子网逐个添加,形成更多的阶段,将多分辨率子网络进行并行连接,这种方法可以进行更准确的预测。网络输入为眼睛图像,输出为热力图、标记点坐标和半径,其中,标记点代表了眼睛各个部位的位置,例如眼睛的轮廓、瞳孔的位置等,而热力图则是一个概率图,代表了每个标记点可能的位置。
HRNet的网络结构由多个分支组成,每个分支都负责处理一个不同分辨率的特征图。这些分支可以并行操作,同时也会进行信息的交互和融合,以便生成准确的视线估计结果。HRNet的关键思想是高分辨率特征和低分辨率特征之间的信息交互,它通过使用高分辨率特征进行更细致的视线估计,同时使用低分辨率特征进行全局上下文建模,获得更全面的视线估计结果。网络特征融合的输入输出如下所示:
输入={X1,X2,...,Xn}
输出={Y1,Y2,...,Yn}
其中,{X1,X2,...,Xn}表示输入的不同分辨率,{Y1,Y2,...,Yn}表示输出特征,具体特征融合步骤公式如下所示:
其中,Yk表示不同分辨率对应的输出特征,通过下采样和上采样后特征的元素和来生成。n表示不同的分辨率的数字。如果n相同则表示输入输出的宽度和分辨率相同。在第四阶段结束后连接所有阶段的信息来创建特征块
其中上采样模块是通过一个卷积核大小为1×1的卷积层然后经过批归一化层,最后经过最邻近插值上采样直接放大n倍;下采样模块每下采样两倍都要增加一个卷积核大小为3×3,步长为2的卷积层,最后经过一个批归一化层。视线高分辨率网络最后一层的卷积层用于生成预测结果,该网络的输出为热力图、标记点坐标、注视点半径。
本发明采用视线帧网络来获得最终视线估计结果。视线帧网络主要由三个卷积层和一个全连接层组成。其中,第一层卷积层会根据输入图像是否为高分辨率图像来界定第一层卷积层步长的大小,如果是高分辨率图像,那么步长为2,否则步长为1,每一个卷积层后面都跟着批归一化层和relu激活函数。之后将卷积后的数据展平,然后和视线高分辨率网络中得到的注视点的半径进行拼接,最后,通过全连接层进行线性回归得到最终的视线估计二维值。
视线高分辨率网络的损失函数由热力图损失、标记点损失、半径损失构成,都使用均方误差损失,计算预测值和真实值之间的误差,公式如下所示:
其中,表示热力图损失,/>表示标记点损失,/>表示半径损失,H′是预测的热力图,H是真实热力图。r′是预测半径,r是真实半径,l′是预测标记点坐标,l是真实标记点坐标。视线高分辨率网络的损失函数由上面三个损失函数相加组成,公式如下所示:
视线帧网络的损失函数使用角度损失函数,计算预测值和真实值标签之间的角度差,损失函数就是所有样本角度差的平均值,公式如下所示:
其中,t(•)表示将角度转换为单位向量的函数,ξ′表示视线预测值,ξ表示视线真实值。
采用视线估计模型来判断用户的头部姿态是否正常,首先加载训练完成的视线高分辨率网络以及视线帧网络,设置成评估模式。根据人脸检测模块检测到的人脸标记点信息获取眼睛区域的关键点坐标,然后调用函数对左右眼区域进行裁剪和处理,返回左右眼图像和变换矩阵。之后,使用视线估计的函数来调用训练完成的视线高分辨率网络以及视线帧网络来进行视线估计,步骤如下:
S1:使用视线高分辨率网络对眼睛图像进行预测,得到热力图、关键点和半径预测结果。
S2:图像帧生成模型根据热力图和关键点预测结果生成眼睛图像帧。
S3:使用视线帧网络对眼睛图像帧结合半径信息进行视线估计。
S4:得到视线估计的结果以及虹膜中心的坐标。
最后,根据视线估计结果判断用户的视线是否发生偏离,视线估计结果二维值表示视线在水平和垂直上的分量,如果用户视线的水平或垂直分量超出阈值,且持续10帧,就推定用户可能出现注意力不集中状况,采用计数器记录视线偏离次数。
本发明另一方面提供一种在线学习专注度检测系统,包括:
数据采集模块,用于提取在线学习者视频流数据的帧图像数据;
特征提取模块,用于对帧图像数据进行面部特征提取,获得人脸特征点、以及眼部图像;其中人脸特征点包括眼部特征、嘴部特征、头部特征;
模型训练模块,被配置执行以下动作:
根据眼部特征,计算眼睛纵横比;根据嘴部特征,计算嘴部纵横比;根据头部特征,计算对头部姿态欧拉角;以眼部图像为输入、对应的眼睛视线方向为输出构建并训练视线估计模型;
根据眼睛纵横比、嘴部纵横比、头部姿态欧拉角、以及视线估计模型,构建并获得注意力检测模块,具体为:分别设置眼睛纵横比、嘴部纵横比、头部姿态欧拉角、眼睛视线方向的得分,结合各个得分,设置注意力检测模块阈值,大于等于阈值判断为注意力分散,小于阈值为注意力集中;
监测提示模块,被配置执行以下动作:实时采集在线学习者在线学习视频流数据,然后跳转至数据采集模块、特征提取模块执行,之后计算眼睛纵横比、嘴部纵横比、头部姿态欧拉角、利用视线估计模型,获得眼睛视线方向,然后应用注意力检测模块,判断在线学习者注意力,并在屏幕上显示结果,并且发出警报声音提醒用户。
使用专注判断模块判断用户是否专注,该模块综合打哈欠检测模块、眨眼检测模块、头部姿态检测模块、视线估计模块得到的结果进行判断。若每分钟眨眼次数超过20次,或者每分钟打哈欠次数超过1次,或者每分钟头部偏转次数超过2次,或者每分钟视线偏离次数超过2次,就推定用户产生了注意力不集中的状况。
如果监测结果得知学生注意力不集中,应该有适当的提示来提醒学生专心学习,本发明中,如果学生出现注意力不集中的行为,会在屏幕中显示提示文本来提醒学生专注。考虑到学生如果闭上眼睛就看不到提示信息,本发明还加入了声音提醒功能,一旦学生出现注意力不集中的行为,那就发出蜂鸣声来提醒学生专注,此功能采用python中winsound模块中的beep函数来实现。
本发明通过实验验证了各个模块的准确性,每个模块进行25次实验,以眨眼模块为例,受试者进行眨眼25次,实验记录每次眨眼动作是否都能被检测出,经过实验可得,25次眨眼动作中其中21次被检出,因此该模块的准确率为84%,其他实验结果如表1所示:
表1本发明提出的方法各模块的准确率
由表1的实验数据可知,本发明各模块的综合准确率为85%,具有较高的准确性。
本发明最适用的应用场景就是用于学生的在线学习专注度监测,学生仅需要带摄像头的笔记本电脑或者台式机,不需要佩戴其他额外的仪器,就可满足本发明的环境要求。由于学生在线上上课的时候,对学生的监管是个很难解决的问题,学生经常在上课的时候分心,或者因疲劳造成影响,从而导致教学质量下降,而本发明所提出的方法和装置能解决该问题。具体步骤为:
S1:采用前置摄像头获取学生实时帧图像。
S2:通过人脸检测模型检测学生的人脸。
S3:眨眼检测模型,嘴部张合检测模型、头部姿态检测模块、视线估计模块检测学生的上课专注度。
S4:通过专注判断模块判断学生是否专注,如果判断学生不专注,则结果反馈到屏幕上,同时电脑发出蜂鸣声提醒学生专心上课,否则屏幕上显示专注,并且继续对学生进行监测。
虽然本发明已以较佳实施例阐述如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (10)

1.一种在线学习专注度检测方法,其特征在于,包括如下步骤:
S1、提取在线学习者视频流数据的帧图像数据;
S2、对帧图像数据进行面部特征提取,获得人脸特征点、以及眼部图像;其中人脸特征点包括眼部特征、嘴部特征、头部特征;
S3、根据眼部特征,计算眼睛纵横比;根据嘴部特征,计算嘴部纵横比;根据头部特征,计算对头部姿态欧拉角;以眼部图像为输入、对应的眼睛视线方向为输出构建并训练视线估计模型;
S4、根据眼睛纵横比、嘴部纵横比、头部姿态欧拉角、以及视线估计模型,构建并获得注意力检测模块,具体为:分别设置眼睛纵横比、嘴部纵横比、头部姿态欧拉角、眼睛视线方向的得分,结合各个得分,设置注意力检测模块阈值,大于等于阈值判断为注意力分散,小于阈值为注意力集中;
S5、实时采集在线学习者在线学习视频流数据,然后执行步骤S1至步骤S2;之后执行步骤S3计算眼睛纵横比、嘴部纵横比、头部姿态欧拉角,并应用视线估计模型获得眼睛视线方向,然后应用步骤S4的注意力检测模块,判断在线学习者注意力。
2.根据权利要求1所述的一种在线学习专注度检测方法,其特征在于,步骤S2包括以下子步骤:
S201:初始化Dlib人脸检测器,然后创建面部标志物预测;
S202;获得脸部位置检测器;
S203:获得脸部特征位置检测器;
S204:获取左右眼面部标志的索引;
S205、对本地摄像头采集的视频流数据的帧图像数据进行灰度化处理,得到预设数量的人脸特征点。
3.根据权利要求1所述的一种在线学习专注度检测方法,其特征在于,步骤S3中,所述眼睛纵横比,按如下公式计算:
其中,P0、P1、P2、P3、P4、P5分别为dlib库中人脸标志物检测点之中眼睛的六个特征点,眼睛纵横比EAR用于体现眼睛的开合程度,当眼睛睁开时,EAR会在一个值上下小幅度波动,当眼睛闭上时,EAR会迅速降为接近零。
4.根据权利要求1所述的一种在线学习专注度检测方法,其特征在于,步骤S3中,嘴部纵横比,按如下公式计算:其中,P51、P59、P53、P57、P49、P55分别为dlib库中人脸标志物检测点之中的嘴部特征点,和EAR类似,采用嘴部横坐标和纵坐标的比来计算嘴部开合度,计算P51与P59以及P53与P57之间的欧氏距离,除以P49和P55的欧氏距离计算嘴部纵横比MAR值,当用户打哈欠时嘴巴张开,MAR升高,当用户嘴巴闭上时,MAR迅速降低。
5.根据权利要求1所述的一种在线学习专注度检测方法,其特征在于,步骤S3中,对应的头部姿态欧拉角按如下步骤获得:
S301、将世界坐标系UVW转换到相机坐标系XYZ,如下式:
其中,(X,Y,Z)表示相机坐标系的点,(U,V,W)表示世界坐标系的点,R表示旋转矩阵,T表示平移向量;
S302、由相机坐标系XYZ转换到像素坐标系xy,如下式:
其中,(x,y)表示像素坐标系的点,fz和fy是沿z轴和y轴的焦距,cz和cy是图像中心的坐标;s表示尺度因子;
S303、像素坐标系和世界坐标系的关系如下式:
S304、用直接线性变换法结合最小二乘进行迭代求解上述函数,得到图像中心坐标系到像素坐标系公式如下式:
305、然后得到旋转矩阵后求头部姿态欧拉角如下式:
其中,rij表示旋转矩阵中i行j列的值;ψ表示俯仰角,φ表示偏航角,γ表示滚动角。
6.根据权利要求1所述的一种在线学习专注度检测方法,其特征在于,步骤S3中视线估计模型包括视线高分辨率网络、以及与该视线高分辨率网络连接的图像帧生成模块、以及视线帧网络;
视线高分辨率网络作为主干网络,是视线估计模型的特征提取网络,采用HRNet网络架构,该主干网络包括若干个分支,各个分支用于提取不同分辨率的眼部图像的特征,且各个分支交互进行特征融合,获得热力图、标记点坐标、注视点半径,并将热力图、标记点坐标输入至图像帧生成模块,图像帧生成模块生成新的图像帧融合了眼睛形状和瞳孔位置信息,视线帧网络包括依次连接的第一卷积层、第二卷积层、第三卷积层、以及一个全连接层,第一卷积层作为视线帧网络的输入端接收新的图像帧,之后经过第二卷积层、第三卷积层后与视线高分辨率网络中得到的注视点的半径进行拼接,最后通过全连接层进行线性回归得到最终的视线估计二维值。
7.根据权利要求6所述的一种在线学习专注度检测方法,其特征在于,视线高分辨率网络进行特征提取具体为:将眼部图像输入至主干网络,主干网络特征融合的输入输出如下式:
输入={X1,X2,…,Xn}
输出={Y1,Y2,…,Yn},
其中,{X1,X2,…,Xn}表示输入的不同分辨率,{Y1,Y2,…,Yn}表示输出特征,具体特征融合步骤公式如下所示:
其中Yk表示不同分辨率对应的输出特征,通过下采样和上采样后特征的元素和来生成,n表示不同的分辨率的数字,如果n相同则表示输入输出的宽度和分辨率相同,在第四阶段结束后连接所有阶段的信息来创建特征块
其中,上采样是通过一个卷积核大小为1×1的卷积层然后经过批归一化层,最后经过最邻近插值上采样直接放大n倍;下采样每下采样两倍都要增加一个卷积核大小为3×3,步长为2的卷积层,最后经过一个批归一化层;视线高分辨率网络最后一层的卷积层用于生成预测结果,视线高分辨率网络的输出为热力图、标记点坐标、注视点半径。
8.根据权利要求6所述的一种在线学习专注度检测方法,其特征在于,第一层卷积层根据输入图像是否为高分辨率图像来界定第一层卷积层步长的大小,如果是高分辨率图像,那么步长为2,否则步长为1,每一个卷积层后面都连接归一化层和relu激活函数。
9.根据权利要求7所述的一种在线学习专注度检测方法,其特征在于,视线高分辨率网络的损失函数由热力图损失、标记点损失、半径损失构成,都使用均方误差损失,计算预测值和真实值之间的误差,如下式:
其中,表示热力图损失,/>表示标记点损失,/>表示半径损失,H′是预测的热力图,H是真实热力图;r′是预测半径,r是真实半径,l′是预测标记点坐标,l是真实标记点坐标;视线高分辨率网络的损失函数由上面三个损失函数相加,如下式:
视线帧网络的损失函数使用角度损失函数,计算预测值和真实值标签之间的角度差,损失函数就是所有样本角度差的平均值,如下式:
其中,t(·)表示将角度转换为单位向量的函数,ξ′表示视线预测值,ξ表示视线真实值。
10.一种在线学习专注度检测系统,其特征在于,包括:
数据采集模块,用于提取在线学习者视频流数据的帧图像数据;
特征提取模块,用于对帧图像数据进行面部特征提取,获得人脸特征点、以及眼部图像;其中人脸特征点包括眼部特征、嘴部特征、头部特征;
模型训练模块,被配置执行以下动作:
根据眼部特征,计算眼睛纵横比;根据嘴部特征,计算嘴部纵横比;根据头部特征,计算对头部姿态欧拉角;以眼部图像为输入、对应的眼睛视线方向为输出构建并训练视线估计模型;根据眼睛纵横比、嘴部纵横比、头部姿态欧拉角、以及视线估计模型,构建并获得注意力检测模块,具体为:分别设置眼睛纵横比、嘴部纵横比、头部姿态欧拉角、眼睛视线方向的得分,结合各个得分,设置注意力检测模块阈值,大于等于阈值判断为注意力分散,小于阈值为注意力集中;
监测提示模块,被配置执行以下动作:实时采集在线学习者在线学习视频流数据,然后跳转至数据采集模块、特征提取模块执行,之后计算眼睛纵横比、嘴部纵横比、头部姿态欧拉角、利用视线估计模型,获得眼睛视线方向,然后应用注意力检测模块,判断在线学习者注意力,并在屏幕上显示结果,并且发出警报声音提醒用户。
CN202311240937.1A 2023-09-25 一种在线学习专注度监测方法 Active CN117315536B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311240937.1A CN117315536B (zh) 2023-09-25 一种在线学习专注度监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311240937.1A CN117315536B (zh) 2023-09-25 一种在线学习专注度监测方法

Publications (2)

Publication Number Publication Date
CN117315536A true CN117315536A (zh) 2023-12-29
CN117315536B CN117315536B (zh) 2024-06-04

Family

ID=

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120189160A1 (en) * 2010-08-03 2012-07-26 Canon Kabushiki Kaisha Line-of-sight detection apparatus and method thereof
CN110197169A (zh) * 2019-06-05 2019-09-03 南京邮电大学 一种非接触式的学习状态监测系统及学习状态检测方法
CN110532887A (zh) * 2019-07-31 2019-12-03 郑州大学 一种基于面部特征融合的疲劳驾驶检测方法及系统
CN112183238A (zh) * 2020-09-10 2021-01-05 广州大学 一种远程教育注意力检测方法及系统
CN114120432A (zh) * 2021-11-17 2022-03-01 湖北大学 基于视线估计的在线学习注意力跟踪方法及其应用
CN114373226A (zh) * 2021-12-31 2022-04-19 华南理工大学 手术室场景下基于改进HRNet网络的人体姿态估计方法
CN114708658A (zh) * 2022-03-30 2022-07-05 安徽师范大学 一种在线学习专注度识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120189160A1 (en) * 2010-08-03 2012-07-26 Canon Kabushiki Kaisha Line-of-sight detection apparatus and method thereof
CN110197169A (zh) * 2019-06-05 2019-09-03 南京邮电大学 一种非接触式的学习状态监测系统及学习状态检测方法
CN110532887A (zh) * 2019-07-31 2019-12-03 郑州大学 一种基于面部特征融合的疲劳驾驶检测方法及系统
CN112183238A (zh) * 2020-09-10 2021-01-05 广州大学 一种远程教育注意力检测方法及系统
CN114120432A (zh) * 2021-11-17 2022-03-01 湖北大学 基于视线估计的在线学习注意力跟踪方法及其应用
CN114373226A (zh) * 2021-12-31 2022-04-19 华南理工大学 手术室场景下基于改进HRNet网络的人体姿态估计方法
CN114708658A (zh) * 2022-03-30 2022-07-05 安徽师范大学 一种在线学习专注度识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
熊碧辉;周后盘;黄经州;阮益权;周里程;: "一种融合视线检测的注意力检测方法", 软件导刊, no. 07, 30 May 2018 (2018-05-30) *
郭赟;张剑妹;连玮;: "基于头部姿态的学习注意力判别研究", 科学技术与工程, no. 14, 18 May 2020 (2020-05-18) *

Similar Documents

Publication Publication Date Title
Pabba et al. An intelligent system for monitoring students' engagement in large classroom teaching through facial expression recognition
Kaur et al. Prediction and localization of student engagement in the wild
Dewan et al. A deep learning approach to detecting engagement of online learners
Booth et al. Toward active and unobtrusive engagement assessment of distance learners
Revadekar et al. Gauging attention of students in an e-learning environment
Zhao et al. Driver distraction detection method based on continuous head pose estimation
CN114120432A (zh) 基于视线估计的在线学习注意力跟踪方法及其应用
Abdulkader et al. Optimizing student engagement in edge-based online learning with advanced analytics
Johnson et al. Detecting hand posture in piano playing using depth data
Sumer et al. Teachers' perception in the classroom
Dubbaka et al. Detecting learner engagement in MOOCs using automatic facial expression recognition
Zaletelj Estimation of students' attention in the classroom from kinect features
Su et al. A video analytic in-class student concentration monitoring system
CN115205764B (zh) 基于机器视觉的在线学习专注度监测方法、系统及介质
CN111814718A (zh) 一种融合多种判别技术的注意力检测方法
Dari et al. A neural network-based driver gaze classification system with vehicle signals
Khan et al. Human distraction detection from video stream using artificial emotional intelligence
CN114973126A (zh) 在线课程的学生参与度实时可视化分析方法
CN115937928A (zh) 基于多视觉特征融合的学习状态监测方法及系统
CN113239794B (zh) 一种面向在线学习的学习状态自动识别方法
Tang et al. Automatic facial expression analysis of students in teaching environments
CN114155512A (zh) 一种基于3d卷积网络多特征融合的疲劳检测方法及系统
CN117315536B (zh) 一种在线学习专注度监测方法
CN117315536A (zh) 一种在线学习专注度监测方法及系统
CN115116117A (zh) 一种基于多模态融合网络的学习投入度数据的获取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant