CN113239794A - 一种面向在线学习的学习状态自动识别方法 - Google Patents
一种面向在线学习的学习状态自动识别方法 Download PDFInfo
- Publication number
- CN113239794A CN113239794A CN202110514825.5A CN202110514825A CN113239794A CN 113239794 A CN113239794 A CN 113239794A CN 202110514825 A CN202110514825 A CN 202110514825A CN 113239794 A CN113239794 A CN 113239794A
- Authority
- CN
- China
- Prior art keywords
- image
- state
- eye
- learner
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000002996 emotional effect Effects 0.000 claims abstract description 21
- 230000014509 gene expression Effects 0.000 claims abstract description 17
- 238000012544 monitoring process Methods 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 25
- 210000000554 iris Anatomy 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 16
- 210000003128 head Anatomy 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000008451 emotion Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 206010048909 Boredom Diseases 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000002146 bilateral effect Effects 0.000 claims description 3
- 230000007797 corrosion Effects 0.000 claims description 3
- 238000005260 corrosion Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 230000036544 posture Effects 0.000 abstract description 8
- 230000004424 eye movement Effects 0.000 abstract description 3
- 230000008909 emotion recognition Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000994 depressogenic effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012806 monitoring device Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/62—Analysis of geometric attributes of area, perimeter, diameter or volume
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/66—Analysis of geometric attributes of image moments or centre of gravity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/19—Sensors therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
- G06T2207/20028—Bilateral filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Data Mining & Analysis (AREA)
- Educational Technology (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Psychiatry (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Social Psychology (AREA)
- Ophthalmology & Optometry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种面向在线学习的学习状态自动识别方法,首先使用网络摄像头收集学习者的表情、身体姿态和眼动等信息,再通过视频图像对学习者进行情感状态、专注状态和注视状态三种状态的识别,然后使用加权平均法对三种状态按照权重求和进行信息融合,计算出学习状态,最后由学习状态得出学习者积极或消极的结果。使用本发明方法学习者只需使用配备网络摄像头的台式电脑、笔记本电脑或各种移动设备进行在线学习,就可以进行实时学习状态监测,不需要配备额外的专业设备,是一种低成本可大范围应用的方案。
Description
技术领域
本发明属于模式识别技术领域,具体涉及一种学习状态自动识别方法。
背景技术
随着信息技术逐渐应用于教育领域,新的教育模式和教育方法不断出现,其中在线学习以其优异的灵活性与便利性为人们提供了大量学与教的选择,以中国大学MOOC、慕课网及腾讯课堂等为代表的各种MOOCs学习平台的广泛应用,使得之前受限于时间和空间的优质教育资源能够被全球的学习者共享。
在基于传统教室的教学活动中,老师在讲台上能够根据每个学生的面部表情和姿态动作,及时察觉到学生的学习状态。师生之间面对面的实时互动,是基于传统教室的教学方式的巨大优势。在线学习虽然拥有优异的灵活性与便利性,但是其信息传输在教师与学生之间是单向的,教师在面对远多于传统课堂的学生人数时,无法及时了解学生的课堂学习情况,从而对教学进度和课程内容做出相应调整,目前的网络学习平台大多通过课堂检测与课后习题来获取学生的学习状态,但是这些方式不具有实时性,且需要学生的主动配合。
科学的教学评价和个性化的网络教学需要准确有效的学习状态反馈机制作为辅助。学习者的面部表情、身体姿态以及视线体现出其学习状态:学习者露出困惑的表情,表明其在对困难内容进行思考;学习者专注于学习时,身体会前倾,视线集中于屏幕;学习者空闲时,身体向后倾,视线可能离开屏幕。因此,利用智能设备,获取学习者学习过程中的面部表情、眼睛、身体姿势等信息,实时计算出学习者的情感和专注度等状态,构建能够自动记录学习过程、感知学习情境的智能学习环境,能够让教师或专家根据学习者的状态做出相应的反馈与调整,从而提升学习效果。
目前,在在线学习状态识别领域中,存在识别技术不够全面,以单模态为主,且对于状态大数研究只集中在单个方面的问题。许多研究者使用了昂贵的定制化设备,通用性不强。监测不够人性化,识别时会影响学习过程。
专利“一种基于多模态情感识别的虚拟学习环境自然交互方法:CN201710014881.6[P].2017-07-03”公开了一种多模态的情感识别方法,该方法使用Kinect采集学习者彩色图像和深度图像,使用麦克风采集学习者的语音,然后对表情识别结果、语音情感识别结果和姿势情感识别结果采用求积规则融合算法在决策层进行融合。该方法使用了昂贵和多种类的监测设备,通用性不强,适合大范围应用,而且较大的监测设备会让学习者明显体会到被监控的感觉,影响学习体验。
发明内容
为了克服现有技术的不足,本发明提供了一种面向在线学习的学习状态自动识别方法,首先使用网络摄像头收集学习者的表情、身体姿态和眼动等信息,再通过视频图像对学习者进行情感状态、专注状态和注视状态三种状态的识别,然后使用加权平均法对三种状态按照权重求和进行信息融合,计算出学习状态,最后由学习状态得出学习者积极或消极的结果。使用本发明方法学习者只需使用配备网络摄像头的台式电脑、笔记本电脑或各种移动设备进行在线学习,就可以进行实时学习状态监测,不需要配备额外的专业设备,是一种低成本可大范围应用的方案。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:使用摄像头获取学习者在线学习时的视频,所述摄像头视线与显示屏法线方向平行,并且摄像头位于显示屏上沿中间位置;
步骤2:针对步骤1获得的视频,对学习者进行情感状态、专注状态和注视状态三种状态的识别;
步骤2.1:定义七种学习者情感状态,分别为:生气、厌烦、快乐、沮丧、惊讶、困惑、中性;
对视频进行预处理、特征提取与情感状态识别;
步骤2.1.1:对视频进行预处理:将视频中的每一帧图像灰度化,从图像中搜索人脸,将学习者的正脸图像用矩形框框定并裁切,处理成48×48像素的矩形图像进行归一化与人脸扶正;
步骤2.1.2:进行表情特征提取:
对VGG神经网络进行简化,构建表情特征提取卷积神经网络,网络结构如下:由七个卷积层和三个池化层堆叠而成,分为3块;其中第一块包含两个卷积核为3×3且通道数为64的卷积层,后接一个最大池化层;第二块包含两个卷积核为3×3且通道数为64的卷积层,后接一个最大池化层;第三块包含三个卷积核为3×3且通道数为128的卷积层,后接一个最大池化层;所有卷积层的激活函数都使用relu函数;
将矩形图像输入表情特征提取卷积神经网络,依次经过第一块、第二块和第三块,矩形图像的高和宽依次变为24*24像素、13*13像素、7*7像素;
步骤2.1.3:表情特征提取卷积神经网络后接三层全连接层进行情感判别;全连接层第一层有1024个节点,第二层有512个节点,第三层有6个节点,前两层的激活函数使用relu函数,第三层的激活函数使用softmax函数;输出识别的情感状态;
步骤2.2:定义两种专注状态,分别为专注和松散;
对视频图像进行预处理、特征提取与专注状态识别;
步骤2.2.1:从视频图像中检测出学习者的头部与人眼,获取面部图像;
步骤2.2.2:进行专注度的特征提取,将学习者身体倾斜程度作为专注度的判断依据,学习者身体倾斜程度包含两个指标:面部到摄像头的距离distance、头部倾斜角度angle;
将面部定义为:
face=x,y,w,h
其中面部位置坐标为(x,y),面部尺寸为(w,h);
将视频图像命名为bgr_image,面部图像命名为face_image,则面部图像在视频图像中表示为:
face_image=bgr_image[y:y+h,x:x+w];
则面部与摄像头的距离distance表示为:
在face_image图像中进行人眼检测,利用眼睛的相对位置计算学习者头部倾斜角度,具体如下:
定义左眼坐标为(x1,y1),右眼坐标为(x2,y2),则学习者头部倾斜角度的斜率slope表示为:
头部倾斜角度angle计算公式为:
angle=|arctan(slope)|
步骤2.2.3:设定默认的距离参照值R,距离参照值R或者为学习者在线学习处于专注状态时的距离平均值,或者由学习者设定自己处于专注坐姿时的距离值;再设定宽容度T,用于调整监测专注度时的识别灵敏程度;
当距离distance满足条件:
min≤distance≤max
则学习者处于专注状态,其中:
min=R×(1-T)
max=R×(1+T)
步骤2.3:定义两种注视状态,分别为注视屏幕和离开屏幕;
对视频图像进行预处理、特征提取与注视状态识别;
步骤2.3.1:使用人脸68个关键点检测法定位内外眼角点,利用每只眼睛的关键点生成一个眼部矩形区域,直接在眼部矩形区域内搜索虹膜;
设定边缘值margin,对于左眼和右眼,将x1,x2,y1,y2表示为:
x1=min(EYE_X)-margin
x2=max(EYE_X)+margin
y1=min(EYE_Y)-margin
y2=max(EYE_Y)+margin
式中:
EYE_X——眼部所有关键点的横坐标;
EYE_Y——眼部所有关键点的纵坐标;
眼部图像的高度height和宽度width为:
height=y2-y1
width=x2-x1
步骤2.3.2:对眼部矩形区域进行双边滤波操作;再进行腐蚀操作,消除眼部矩形区域中不相关的细节;然后进行二值化;
获取二值化图像后,提取眼部轮廓,并计算眼部轮廓面积,眼部轮廓面积表示为所有像素点的个数;
令(Xc,Yc)表示虹膜中心的坐标,计算公式为:
其中,m00和m10为图像空间距,图像空间矩的表示如下:
针对一幅图像,把像素的坐标看成是二维随机变量(x,y),则一副灰度图能用二维灰度图密度函数进行表示,并用空间矩描述灰度图像的特征;能够通过面积获得图像的空间矩,空间矩的公式为:
步骤2.3.3:设左眼虹膜坐标为(Xl,Yl),左眼眼部中心坐标为(Xlc,Ylc);右眼虹膜坐标为(Xr,Yr),右眼眼部中心坐标为(Xrc,Yrc);则虹膜的水平偏移比率ratio表示为:
学习者的水平注视方向判定标准为:
步骤3:识别出学习者的情感状态、专注状态及注视状态之后,使用加权平均法对三种状态按照权重求和进行信息融合,计算出学习状态state,其计算如下:
式中:
xi——第i个状态按规则量化后得出的状态值;
λi——xi对应的权重;
xi的计算如下:
x1为情感状态值,赋值如下:
x2为专注状态值,赋值如下和:
x3为注视状态值,赋值如下:
当学习状态state小于0.5时判定为消极状态,状态值大于等于0.5时判定为积极状态;
步骤4:将识别结果实时显示;
步骤5:学习结束后将整个学习过程中的状态变化情况进行存储。
优选地,所述步骤2.1.1中使用Viola-Jones检测算法的Haar-like人脸检测器从图像中搜索人脸。
优选地,所述宽容度T的值介于0.05到0.3之间。
本发明的有益效果如下:
1、使用本发明方法学习者只需使用配备网络摄像头的台式电脑、笔记本电脑或各种移动设备进行在线学习,就可以进行实时学习状态监测,不需要配备额外的专业设备,是一种低成本可大范围应用的方案。
2、本发明方法同时监测学习者的情感、专注度和注视方向,并对三种状态进行综合全面地分析,能有效且实时识别学习者当前学习状态。
附图说明
图1为表情特征提取卷积神经网络结构示意图。
图2为人脸68个关键点检测法示意图。
图3为本发明方法的学习交互过程示意图。
图4为本发明方法的数据流示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
为了解决现有在线学习状态识别技术存在的问题,本发明以在线学习中的学习者为研究对象,提出了以非侵入的方式,用通用性强的普通网络摄像头收集学习者的表情,身体姿态和眼动等信息,用机器学习等工具分析这些信息并判断学习者当前的情绪、专注度和注视方向,通过信息融合的方式实时综合监测学习者的学习状态的方法。
一种面向在线学习的学习状态自动识别方法,包括如下步骤:
步骤1:使用摄像头获取学习者在线学习时的视频,所述摄像头视线与显示屏法线方向平行,并且摄像头位于显示屏上沿中间位置;
步骤2:针对步骤1获得的视频,对学习者进行情感状态、专注状态和注视状态三个状态的识别;
步骤2.1:定义七种学习者情感状态,分别为:生气、厌烦、快乐、沮丧、惊讶、困惑、中性;
对视频进行预处理、特征提取与情感状态识别;
步骤2.1.1:对视频进行预处理:将视频中的每一帧图像灰度化以降低计算复杂度,使用Viola-Jones检测算法的Haar-like人脸检测器从图像中搜索人脸,被检测到的最合理的学习者的正脸图像用矩形框框定并裁切,处理成48×48像素的矩形图像进行归一化与人脸扶正;
步骤2.1.2:进行表情特征提取:
对VGG神经网络进行简化,构建表情特征提取卷积神经网络,网络结构如下:由七个卷积层和三个池化层堆叠而成,分为3块;其中第一块包含两个卷积核为3×3且通道数为64的卷积层,后接一个最大池化层;第二块包含两个卷积核为3×3且通道数为64的卷积层,后接一个最大池化层;第三块包含三个卷积核为3×3且通道数为128的卷积层,后接一个最大池化层;所有卷积层的激活函数都使用relu函数;
relu函数为:
f(x)=max(0,x)
将矩形图像输入表情特征提取卷积神经网络,依次经过第一块、第二块和第三块,矩形图像的高和宽依次变为24*24像素、13*13像素、7*7像素;
步骤2.1.3:表情特征提取卷积神经网络后接三层全连接层进行情感判别;全连接层第一层有1024个节点,第二层有512个节点,第三层有6个节点,前两层的激活函数使用relu函数,第三层的激活函数使用softmax函数;输出识别的情感状态;
步骤2.2:定义两种专注状态,分别为专注和松散;
对视频图像进行预处理、特征提取与专注状态识别;
步骤2.2.1:使用Viola-Jones检测算法的正脸分类器及眼睛分类器从视频图像中检测出学习者的头部与人眼,获取面部图像;
步骤2.2.2:进行专注度的特征提取,将学习者身体倾斜程度作为专注度的判断依据,学习者身体倾斜程度包含两个指标:面部到摄像头的距离distance、头部倾斜角度angle;
将面部定义为:
face=x,y,w,h
其中面部位置坐标为(x,y),面部尺寸为(w,h);
将视频图像命名为bgr_image,面部图像命名为face_image,则面部图像在视频图像中表示为:
face_image=bgr_image[y:y+h,x:x+w];
则面部与摄像头的距离distance表示为:
为了提高检测速度,直接在face_image图像中进行人眼检测,利用眼睛的相对位置计算学习者头部倾斜角度,具体如下:
人眼检测器可以同时检测出左眼和右眼,定义左眼坐标为(x1,y1),右眼坐标为(x2,y2),则学习者头部倾斜角度的斜率slope表示为:
头部倾斜角度angle计算公式为:
angle=|arctan(slope)|
步骤2.2.3:设定默认的距离参照值R,距离参照值R或者为学习者在线学习处于专注状态时的距离平均值,或者由学习者设定自己处于专注坐姿时的距离值;再设定宽容度T,宽容度T的值介于0.05到0.3之间,用于调整监测专注度时的识别灵敏程度;
当距离distance满足条件:
min≤distance≤max
则学习者处于专注状态,其中:
min=R×(1-T)
max=R×(1+T)
步骤2.3:定义两种注视状态,分别为注视屏幕和离开屏幕;
对视频图像进行预处理、特征提取与注视状态识别;
步骤2.3.1:使用人脸68个关键点检测法定位内外眼角点,利用每只眼睛的关键点生成一个眼部矩形区域,直接在眼部矩形区域内搜索虹膜;
为了快速定位虹膜中心,先裁剪出眼部图像;为提高鲁棒性,设定边缘值margin,对于左眼和右眼,将x1,x2,y1,y2表示为:
x1=min(EYE_X)-margin
x2=max(EYE_X)+margin
y1=min(EYE_Y)-margin
y2=max(EYE_Y)+margin
式中:
EYE_X——眼部所有关键点的横坐标;
EYE_Y——眼部所有关键点的纵坐标;
眼部图像的高度height和宽度width为:
height=y2-y1
width=x2-x1
步骤2.3.2:进行快速虹膜定位,虹膜在眼睛图像中是一个占据区域比例较大的连续的深色圆形区域;对眼部矩形区域进行双边滤波操作;再进行腐蚀操作,消除眼部矩形区域中不相关的细节;然后进行二值化;
获取二值化图像后,提取眼部轮廓,并计算眼部轮廓面积,眼部轮廓面积表示为所有像素点的个数;
令(Xc,Yc)表示虹膜中心的坐标,计算公式为:
其中,m00和m10为图像空间距,图像空间矩的表示如下:
针对一幅图像,把像素的坐标看成是二维随机变量(x,y),则一副灰度图能用二维灰度图密度函数进行表示,并用空间矩描述灰度图像的特征;能够通过面积获得图像的空间矩,空间矩的公式为:
步骤2.3.3:设左眼虹膜坐标为(Xl,Yl),左眼眼部中心坐标为(Xlc,Ylc);右眼虹膜坐标为(Xr,Yr),右眼眼部中心坐标为(Xrc,Yrc);则虹膜的水平偏移比率ratio表示为:
学习者的水平注视方向判定标准为:
步骤3:识别出学习者的情感状态、专注状态及注视状态之后,使用加权平均法对三种状态按照权重求和进行信息融合,计算出学习状态state,其计算如下:
式中:
xi——第i个状态按规则量化后得出的状态值;
λi——xi对应的权重;
学习者或老师可以自己设置权重选择监测哪些状态,同时检测三种状态时,也可以直接使用默认的权重。
xi的计算如下:
x1为情感状态值,赋值如下:
x2为专注状态值,赋值如下和:
x3为注视状态值,赋值如下:
当学习状态state小于0.5时判定为消极状态,状态值大于等于0.5时判定为积极状态;
步骤4:将识别结果实时显示;
步骤5:学习结束后将整个学习过程中的状态变化情况进行存储。
具体实施例:
1、学习者开始学习前选择默认权重的参数,该参数由志愿者的学习数据计算得出,取情感状态对应的权重为0.3,专注状态对应的权重为0.3,注视状态对应的权重为0.4。
2、进行情感识别。使用cv2包中的VideoCapture函数捕获指定摄像头的实时视频流,如果捕获成功,使用cvtColor函数对每一帧图像灰度化以降低计算复杂度,将该视频流命名为capture。
使用Viola-Jones检测算法的Haar-like人脸检测器从capture中提取每一帧图像搜索人脸,该分类器的最有效检测范围是摄像头朝向与学习者面部朝向所在直线的45度夹角内。该分类器的使用方式为直接加载名称为haarcascade_frontalface_alt2.xml的文件。被检测到的最合理的正脸图像会被矩形框选出来并裁切,然后被处理成48×48像素的矩形图像进行归一化与人脸扶正
将处理后的图像输入到我们设计的卷积神经网络中,输出为生气、厌烦、快乐、沮丧、惊讶、困惑、中性七种状态中的一种,且定义生气、厌烦、沮丧属于消极状态,快乐、惊讶、困惑积极状态,中性状态则介于两者之间。假设输出为困惑状态。
3、进行专注识别。使用cv2包中的VideoCapture函数调用指定摄像头获取实时学习场景视频流,开启摄像头的同时开始计时,使每一个视频帧都有对应的时间戳。
继续使用Viola-Jones检测算法其正脸分类器及眼睛分类器进行人脸识别。由公式计算得到distance的值为231.4,头部倾斜角度值为14.7°。设定一个默认的距离参照值(distance_reference)R=163.517,设定一个宽容度(thoracolumbar_tolerance)T=0.12,则min=143.894,max=183.139。由于此时:
distance>max
则认为学习者此时的姿态推断其处于松散状态。
4、进行注视状态识别。加载名为shape_predictor_68_face_landmarks.dat的模型文件来使用人脸关键点检测器,可将左眼与右眼用数组表示为:
LEFTEYE=[37,38,39,40,41,42]
RIGHTEYE=[43,44,45,46,47,48]
式中:
LEFTEYE——左眼关键点坐标数组
RIGHTEYE——右眼关键点坐标数组
设定5个像素的边缘值(margin=5),计算得到ratio=0.45,由于此时:
0.35<ratio<0.65"
则判定学习者正注视屏幕。
步骤5:进行学习状态综合分析,根据步骤3中xi的计算方法,对情感状态值、专注状态值、注视状态值分别赋值,x1=1,x2=0,x3=1,计算得出state=0.7。根据经验和实验研究对数据进行分析,将最终状态值按范围划分为两类,状态值小于0.5时为消极状态,状态值大于0.5时为积极状态。由于此时:
state>0.5
则最终判定学习者处于积极的学习状态。
6、将识别结果实时显示。
7、学习结束后将整个学习过程中的状态变化情况进行存储。
Claims (3)
1.一种面向在线学习的学习状态自动识别方法,其特征在于,包括以下步骤:
步骤1:使用摄像头获取学习者在线学习时的视频,所述摄像头视线与显示屏法线方向平行,并且摄像头位于显示屏上沿中间位置;
步骤2:针对步骤1获得的视频,对学习者进行情感状态、专注状态和注视状态三种状态的识别;
步骤2.1:定义七种学习者情感状态,分别为:生气、厌烦、快乐、沮丧、惊讶、困惑、中性;
对视频进行预处理、特征提取与情感状态识别;
步骤2.1.1:对视频进行预处理:将视频中的每一帧图像灰度化,从图像中搜索人脸,将学习者的正脸图像用矩形框框定并裁切,处理成48×48像素的矩形图像进行归一化与人脸扶正;
步骤2.1.2:进行表情特征提取:
对VGG神经网络进行简化,构建表情特征提取卷积神经网络,网络结构如下:由七个卷积层和三个池化层堆叠而成,分为3块;其中第一块包含两个卷积核为3×3且通道数为64的卷积层,后接一个最大池化层;第二块包含两个卷积核为3×3且通道数为64的卷积层,后接一个最大池化层;第三块包含三个卷积核为3×3且通道数为128的卷积层,后接一个最大池化层;所有卷积层的激活函数都使用relu函数;
将矩形图像输入表情特征提取卷积神经网络,依次经过第一块、第二块和第三块,矩形图像的高和宽依次变为24*24像素、13*13像素、7*7像素;
步骤2.1.3:表情特征提取卷积神经网络后接三层全连接层进行情感判别;全连接层第一层有1024个节点,第二层有512个节点,第三层有6个节点,前两层的激活函数使用relu函数,第三层的激活函数使用softmax函数;输出识别的情感状态;
步骤2.2:定义两种专注状态,分别为专注和松散;
对视频图像进行预处理、特征提取与专注状态识别;
步骤2.2.1:从视频图像中检测出学习者的头部与人眼,获取面部图像;
步骤2.2.2:进行专注度的特征提取,将学习者身体倾斜程度作为专注度的判断依据,学习者身体倾斜程度包含两个指标:面部到摄像头的距离distance、头部倾斜角度angle;
将面部定义为:
face=x,y,w,h
其中面部位置坐标为(x,y),面部尺寸为(w,h);
将视频图像命名为bgr_image,面部图像命名为face_image,则面部图像在视频图像中表示为:
face_image=bgr_image[y:y+h,x:x+w];
则面部与摄像头的距离distance表示为:
在face_image图像中进行人眼检测,利用眼睛的相对位置计算学习者头部倾斜角度,具体如下:
定义左眼坐标为(x1,y1),右眼坐标为(x2,y2),则学习者头部倾斜角度的斜率slope表示为:
头部倾斜角度angle计算公式为:
angle=|arctan(slope)|
步骤2.2.3:设定默认的距离参照值R,距离参照值R或者为学习者在线学习处于专注状态时的距离平均值,或者由学习者设定自己处于专注坐姿时的距离值;再设定宽容度T,用于调整监测专注度时的识别灵敏程度;
当距离distance满足条件:
min≤distance≤max
则学习者处于专注状态,其中:
min=R×(1-T)
max=R×(1+T)
步骤2.3:定义两种注视状态,分别为注视屏幕和离开屏幕;
对视频图像进行预处理、特征提取与注视状态识别;
步骤2.3.1:使用人脸68个关键点检测法定位内外眼角点,利用每只眼睛的关键点生成一个眼部矩形区域,直接在眼部矩形区域内搜索虹膜;
设定边缘值margin,对于左眼和右眼,将x1,x2,y1,y2表示为:
x1=min(EYE_X)-margin
x2=max(EYE_X)+margin
y1=min(EYE_Y)-margin
y2=max(EYE_Y)+margin
式中:
EYE_X——眼部所有关键点的横坐标;
EYE_Y——眼部所有关键点的纵坐标;
眼部图像的高度height和宽度width为:
height=y2-y1
width=x2-x1
步骤2.3.2:对眼部矩形区域进行双边滤波操作;再进行腐蚀操作,消除眼部矩形区域中不相关的细节;然后进行二值化;
获取二值化图像后,提取眼部轮廓,并计算眼部轮廓面积,眼部轮廓面积表示为所有像素点的个数;
令(Xc,Yc)表示虹膜中心的坐标,计算公式为:
其中,m00和m10为图像空间距,图像空间矩的表示如下:
针对一幅图像,把像素的坐标看成是二维随机变量(x,y),则一副灰度图能用二维灰度图密度函数进行表示,并用空间矩描述灰度图像的特征;能够通过面积获得图像的空间矩,空间矩的公式为:
步骤2.3.3:设左眼虹膜坐标为(Xl,Yl),左眼眼部中心坐标为(Xlc,Ylc);右眼虹膜坐标为(Xr,Yr),右眼眼部中心坐标为(Xrc,Yrc);则虹膜的水平偏移比率ratio表示为:
学习者的水平注视方向判定标准为:
步骤3:识别出学习者的情感状态、专注状态及注视状态之后,使用加权平均法对三种状态按照权重求和进行信息融合,计算出学习状态state,其计算如下:
式中:
xi——第i个状态按规则量化后得出的状态值;
λi——xi对应的权重;
xi的计算如下:
x1为情感状态值,赋值如下:
x2为专注状态值,赋值如下和:
x3为注视状态值,赋值如下:
当学习状态state小于0.5时判定为消极状态,状态值大于等于0.5时判定为积极状态;
步骤4:将识别结果实时显示;
步骤5:学习结束后将整个学习过程中的状态变化情况进行存储。
2.根据权利要求1所述的一种面向在线学习的学习状态自动识别方法,其特征在于,所述步骤2.1.1中使用Viola-Jones检测算法的Haar-like人脸检测器从图像中搜索人脸。
3.根据权利要求1所述的一种面向在线学习的学习状态自动识别方法,其特征在于,所述宽容度T的值介于0.05到0.3之间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110514825.5A CN113239794B (zh) | 2021-05-11 | 2021-05-11 | 一种面向在线学习的学习状态自动识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110514825.5A CN113239794B (zh) | 2021-05-11 | 2021-05-11 | 一种面向在线学习的学习状态自动识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113239794A true CN113239794A (zh) | 2021-08-10 |
CN113239794B CN113239794B (zh) | 2023-05-23 |
Family
ID=77133823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110514825.5A Active CN113239794B (zh) | 2021-05-11 | 2021-05-11 | 一种面向在线学习的学习状态自动识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239794B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115205764A (zh) * | 2022-09-15 | 2022-10-18 | 深圳市企鹅网络科技有限公司 | 基于机器视觉的在线学习专注度监测方法、系统及介质 |
CN116912808A (zh) * | 2023-09-14 | 2023-10-20 | 四川公路桥梁建设集团有限公司 | 架桥机控制方法、电子设备和计算机可读介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008064431A1 (en) * | 2006-12-01 | 2008-06-05 | Latrobe University | Method and system for monitoring emotional state changes |
CN105303170A (zh) * | 2015-10-16 | 2016-02-03 | 浙江工业大学 | 一种基于人眼特征的视线估计方法 |
CN105516280A (zh) * | 2015-11-30 | 2016-04-20 | 华中科技大学 | 一种多模态学习过程状态信息压缩记录方法 |
CN105574474A (zh) * | 2014-10-14 | 2016-05-11 | 中国科学院大连化学物理研究所 | 一种基于质谱信息的生物特征图像识别方法 |
CN107038422A (zh) * | 2017-04-20 | 2017-08-11 | 杭州电子科技大学 | 基于空间几何约束深度学习的疲劳状态识别方法 |
CN108108684A (zh) * | 2017-12-15 | 2018-06-01 | 杭州电子科技大学 | 一种融合视线检测的注意力检测方法 |
CN108154450A (zh) * | 2016-12-06 | 2018-06-12 | 上海交通大学 | 数字学习智能监控系统 |
CN108399376A (zh) * | 2018-02-07 | 2018-08-14 | 华中师范大学 | 学生课堂学习兴趣智能分析方法及系统 |
CN108805009A (zh) * | 2018-04-20 | 2018-11-13 | 华中师范大学 | 基于多模态信息融合的课堂学习状态监测方法及系统 |
CN109960966A (zh) * | 2017-12-21 | 2019-07-02 | 上海聚虹光电科技有限公司 | 基于机器学习的驾驶员视线判断方法 |
CN110175596A (zh) * | 2019-06-04 | 2019-08-27 | 重庆邮电大学 | 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法 |
CN110287792A (zh) * | 2019-05-23 | 2019-09-27 | 华中师范大学 | 一种处于自然教学环境的课堂中学生学习状态实时分析方法 |
CN110334626A (zh) * | 2019-06-26 | 2019-10-15 | 北京科技大学 | 一种基于情感状态的在线学习系统 |
CN110345872A (zh) * | 2019-06-27 | 2019-10-18 | 浙江天地人科技有限公司 | 一种学习状态水平判断方法 |
CN111199378A (zh) * | 2018-11-20 | 2020-05-26 | 深圳云天励飞技术有限公司 | 学员管理方法、装置、电子设备及存储介质 |
-
2021
- 2021-05-11 CN CN202110514825.5A patent/CN113239794B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008064431A1 (en) * | 2006-12-01 | 2008-06-05 | Latrobe University | Method and system for monitoring emotional state changes |
CN105574474A (zh) * | 2014-10-14 | 2016-05-11 | 中国科学院大连化学物理研究所 | 一种基于质谱信息的生物特征图像识别方法 |
CN105303170A (zh) * | 2015-10-16 | 2016-02-03 | 浙江工业大学 | 一种基于人眼特征的视线估计方法 |
CN105516280A (zh) * | 2015-11-30 | 2016-04-20 | 华中科技大学 | 一种多模态学习过程状态信息压缩记录方法 |
CN108154450A (zh) * | 2016-12-06 | 2018-06-12 | 上海交通大学 | 数字学习智能监控系统 |
CN107038422A (zh) * | 2017-04-20 | 2017-08-11 | 杭州电子科技大学 | 基于空间几何约束深度学习的疲劳状态识别方法 |
CN108108684A (zh) * | 2017-12-15 | 2018-06-01 | 杭州电子科技大学 | 一种融合视线检测的注意力检测方法 |
CN109960966A (zh) * | 2017-12-21 | 2019-07-02 | 上海聚虹光电科技有限公司 | 基于机器学习的驾驶员视线判断方法 |
CN108399376A (zh) * | 2018-02-07 | 2018-08-14 | 华中师范大学 | 学生课堂学习兴趣智能分析方法及系统 |
CN108805009A (zh) * | 2018-04-20 | 2018-11-13 | 华中师范大学 | 基于多模态信息融合的课堂学习状态监测方法及系统 |
CN111199378A (zh) * | 2018-11-20 | 2020-05-26 | 深圳云天励飞技术有限公司 | 学员管理方法、装置、电子设备及存储介质 |
CN110287792A (zh) * | 2019-05-23 | 2019-09-27 | 华中师范大学 | 一种处于自然教学环境的课堂中学生学习状态实时分析方法 |
CN110175596A (zh) * | 2019-06-04 | 2019-08-27 | 重庆邮电大学 | 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法 |
CN110334626A (zh) * | 2019-06-26 | 2019-10-15 | 北京科技大学 | 一种基于情感状态的在线学习系统 |
CN110345872A (zh) * | 2019-06-27 | 2019-10-18 | 浙江天地人科技有限公司 | 一种学习状态水平判断方法 |
Non-Patent Citations (3)
Title |
---|
SHIMENG PENG等: "Recognition of Students’ Mental States in Discussion Based on Multimodal Data and its Application to Educational Support", 《IEEE ACCESS》 * |
任婕: "基于机器视觉的学生专注度综合评价研究", 《中国优秀硕士学位论文全文数据库 社会科学Ⅱ辑》 * |
吴慧婷: "基于多维度信息融合的学生在线学习投入度研究", 《中国博士学位论文全文数据库 社会科学Ⅱ辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115205764A (zh) * | 2022-09-15 | 2022-10-18 | 深圳市企鹅网络科技有限公司 | 基于机器视觉的在线学习专注度监测方法、系统及介质 |
CN115205764B (zh) * | 2022-09-15 | 2022-11-25 | 深圳市企鹅网络科技有限公司 | 基于机器视觉的在线学习专注度监测方法、系统及介质 |
CN116912808A (zh) * | 2023-09-14 | 2023-10-20 | 四川公路桥梁建设集团有限公司 | 架桥机控制方法、电子设备和计算机可读介质 |
CN116912808B (zh) * | 2023-09-14 | 2023-12-01 | 四川公路桥梁建设集团有限公司 | 架桥机控制方法、电子设备和计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113239794B (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334626B (zh) | 一种基于情感状态的在线学习系统 | |
CN109657553B (zh) | 一种学生课堂注意力检测方法 | |
CN107545302B (zh) | 一种人眼左右眼图像联合的视线方向计算方法 | |
CN110287790B (zh) | 一种面向静态多人场景的学习状态混合分析方法 | |
CN106599881A (zh) | 学生状态的确定方法、装置及系统 | |
CN110287792A (zh) | 一种处于自然教学环境的课堂中学生学习状态实时分析方法 | |
CN113239794B (zh) | 一种面向在线学习的学习状态自动识别方法 | |
CN111507592B (zh) | 一种面向服刑人员的主动改造行为的评估方法 | |
CN110889672A (zh) | 一种基于深度学习的学生打卡及上课状态的检测系统 | |
CN111166290A (zh) | 一种健康状态检测方法、设备和计算机存储介质 | |
CN111543934A (zh) | 一种视力检测方法、装置、电子产品及存储介质 | |
CN110837750A (zh) | 一种人脸质量评价方法与装置 | |
CN111046734A (zh) | 基于膨胀卷积的多模态融合视线估计方法 | |
CN112883867A (zh) | 一种基于图像情感分析的学生在线学习评估方法及系统 | |
CN114973126A (zh) | 在线课程的学生参与度实时可视化分析方法 | |
WO2010142455A2 (en) | Method for determining the position of an object in an image, for determining an attitude of a persons face and method for controlling an input device based on the detection of attitude or eye gaze | |
CN106873853A (zh) | 屏幕显示方法及装置 | |
CN113781408A (zh) | 一种图像拍摄智能指导系统及方法 | |
Ray et al. | Design and implementation of affective e-learning strategy based on facial emotion recognition | |
CN113569761B (zh) | 一种基于深度学习的学生视点估计方法 | |
CN116110091A (zh) | 一种线上学习状态监测系统 | |
EP2261857A1 (en) | Method for determining the position of an object in an image, for determining an attitude of a persons face and method for controlling an input device based on the detection of attitude or eye gaze | |
Huang et al. | Research on learning state based on students’ attitude and emotion in class learning | |
Leng et al. | An automated object detection method for the attention of classroom and conference participants | |
KR102038413B1 (ko) | 그레이디언트 벡터 필드와 칼만 필터를 이용한 온라인 강의 모니터링 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |