CN112287891A - 基于表情及行为特征提取的通过视频评估学习专注力的方法 - Google Patents
基于表情及行为特征提取的通过视频评估学习专注力的方法 Download PDFInfo
- Publication number
- CN112287891A CN112287891A CN202011319889.1A CN202011319889A CN112287891A CN 112287891 A CN112287891 A CN 112287891A CN 202011319889 A CN202011319889 A CN 202011319889A CN 112287891 A CN112287891 A CN 112287891A
- Authority
- CN
- China
- Prior art keywords
- features
- face
- expression
- network
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于表情及行为特征提取的通过视频评估学习专注力的方法,首先通过人体骨骼点检测方法AlphaPose获取人体骨架,通过轻量化人脸检测模型检测人脸;接着将骨架编码转换为图像,通过神经网络分类器进行动作分类;将获取到的人脸框,先通过VGG‑A网络提取特征,再经过Segmentation网络进一步拟合得到精确的人脸位置,接着将人脸裁剪为多个区域,并使用CNN网络提取特征,通过自注意力模块对不同人脸区域进行加权,融合多个区域的局部特征形成整体特征进行表情分类;最后融合动作和表情识别结果,通过LSTM网络得到最终的专注力分析结果。其针对学生行为构建了有效的运动特征,相对传统的动作识别难以有效地解决视角差异和动作差异带来的问题。
Description
技术领域
本发明属于机器学习与计算机视觉技术领域,尤其涉及一种基于表情及行为特征提取的通过视频评估学习专注力的方法。
背景技术
随着科技的发展,人们学习的途径越来越多,如网课教学、互动直播等,其中线上教学的方式最受大众欢迎,尤其是疫情期间,同学们都只能在家中学习,这更有力的推动了线上教育的发展。然而通过视频学习的方式难以保证学生的学习效率,老师家长也不能及时了解到学生的学习情况,教学质量无法保障。如何不在老师家长的监督下,有效的保证学生的学习质量成为现下最值得关注的问题之一。现如今的专注力研究方法,大多基于脑电波的监测,这对硬件要求十分的高,对学生来说也十分的不便。
发明内容
为了填补现有技术的空白,本发明提出一种基于表情及行为特征提取的通过视频评估学习专注力的方法,能够根据采集的图像对学生或其他用户的注意力特征进行有效的提取,并实现识别和评估。
本发明具体采用以下技术方案:
一种基于表情及行为特征提取的通过视频评估学习专注力的方法,其特征在于:首先通过人体骨骼点检测方法AlphaPose获取人体骨架,通过轻量化人脸检测模型检测人脸;接着将骨架编码转换为图像,通过神经网络分类器进行动作分类;将获取到的人脸框,先通过VGG-A网络提取特征,再经过Segmentation网络进一步拟合得到精确的人脸位置,接着将人脸裁剪为多个区域,并使用CNN网络提取特征,通过自注意力模块对不同人脸区域进行加权,融合多个区域的局部特征形成整体特征进行表情分类;最后融合动作和表情识别结果,通过LSTM网络得到最终的专注力分析结果。
进一步地,其具体包括以下步骤:
步骤S1:通过视频收集学生行为动作图像,进行数据增强处理,利用AlphaPose提取人体骨架信息,利用Ultra-Light-Fast-Generic-Face-Detector-1M提取人脸信息;
步骤S2:对人体骨架进行预处理,并将其编码转换为图像,构造运动特征,搭建神经网络分类器,并基于人体运动特征数据进行训练,将处理后的图像输入到训练好的神经网络分类器中进行分类,得到分类结果;
步骤S3:将获取的人脸信息,通过VGG-A预训练模型提取特征,然后通过Segmentation网络得到精确的人脸位置,将获取的人脸图像裁剪为25个区域,使用CNN卷积网络提取特征,通过自注意力模块对不同人脸区域进行加权,融合25个区域的局部特征形成整体特征进行表情分类;
步骤S4:融合动作和表情识别结果,通过LSTM网络计算学习专注力结果。
进一步地,在步骤S1中:
所述数据增强处理包括对学生行为动作图像进行随机角度翻转、裁剪、镜像的处理,从而获得学生行为数据集;
所述AlphaPose是自上而下的人体骨架关键点检测模型,运用了RMPE框架,由对称空间变换器网络SSTN、参数姿势非最大抑制PNMS、姿势引导建议发生器PGPG的模块组成;
所述SSTN即对称空间变换网络,由STN,SDTN两部分组成,STN用于接收人体候选框,SDTN产生候选姿态;
所述PNMS即参数姿势非最大抑制,用于过滤掉多余的姿态估计,避免冗余;
所述PGPG即姿态引导建议发生器就是SPPE这一部分,可以产生各种姿态图片,供训练过程使用;
利用AlphaPose提取人体骨架信息的具体过程为:先利用AlphaPose检测出图像中的人,然后对其进行人体骨骼点提取,从图像中获取人体骨骼点的坐标;其中,骨骼关键点及其坐标和置信度为″Person″:{″0″:[x0,y0],″1″:[x1,y1],...,″17″:[x17,y17]},其中Person表示检测到的人体,″0″-″17″分别对应鼻子、右眼、左眼、右耳、左耳、右肩、左肩、右肘、左肘、右腕、左腕、右髋、左髋、右膝、左膝、右脚踝、左脚踝、颈部,x和y表示骨骼点相对于图片的坐标s;
利用Ultra-Light-Fast-Generic-Face-Detector-1M提取的人脸信息为人脸框位置。
进一步地,步骤S2具体包括以下步骤:
步骤S21:对得到的人体骨架信息,先将坐标转换为向量,以人体的颈部关节坐标为中心,将其他骨骼点坐标转换为以颈部关节为坐标原点的坐标值,转换公式如下:
v=Pn-P0.(n=1,2,3,…,N)
其中Pn表示除颈部关节之外的其他骨骼点坐标,P0表示颈部关节坐标,所得v为其他骨骼点以颈部关节为起点的向量;
步骤S22:将向量进行归一化,具体公式如下:
其中,H为图片大小;
步骤S23:根据处理获得的骨骼关键点数据,在对应的人体躯干两端之间增加一个中点,得到更为精细的人体姿态;
步骤S24:对于人体骨骼点信息,将x、y和z位置经过处理编码作为RGB图像中的红、绿和蓝通道值:其中蓝色通道设置为0或1,红、绿通道规范化为0到1的连续范围内的值;再将图中的骨骼关键点位置规格化为0-255;
步骤S25:将转换获得的像素值,按照人体上半身部位位置进行排列;依次将头部、身体部位加入矩阵;
步骤S26:搭建神经网络分类器:包括三层对处理完的图片进行卷积提取特征的卷积层、对数据按批进行归一化的批量归一层、线性整流层和用于进行分类的三层全连接层,并利用交叉熵损失函数计算损失;将处理得到的图像输入到神经网络分类器进行训练,得到训练完毕的神经网络分类器;
步骤S27:将处理得到的图像输入到训练完毕的神经网络分类器进行分类。
进一步地,步骤S3具体包括以下步骤:
步骤S31:将人脸框输入到预训练好的VGG-A模型获取特征,然后通过Segmentation网络输出一个更为精确的掩膜,并得出准确性分数;
所述Segmentation网络由一个1*1的包含ReLU非线性层的卷积层和一个分类层组成;分类的classificationlayer由图像像素总数个像素分类器组成,每一个像素分类器用于识别给定的像素是否属于输入框中心的目标;
步骤S32:将获取的人脸图像随机剪裁为25个不重叠的部分,然后经过CNN卷积网络进行特征提取:
将局部区域提取的特征经过全连接层,然后通过激活函数得到对应的权重:
其中μi为第i个剪裁区域的权重,Fi为第i个剪裁区域提取的特征,q0表示全连接层的参数,f表示激活函数;T为矩阵转置;
将局部区域进行加权表示为整体特征,然后将区域局部特征与整体特征作一个concat操作,经过全连接层和激活函数,融合局部与整体的特征得到权重,最后经过全连接层进行分类:
整体特征表示为:
其中Fm为整体特征,μi为上文所述第i个剪裁区域的权重,Fi为第i个剪裁区域提取的特征。
局部和整体的权重:
ρi=f((Fi:Fm)Tq1)
ρi为局部和整体特征的权重,q1表示全连接层的参数。同理,对特征进行加权得到局部和整体特征结合的全局特征:
其中Fall为处理得到的全局特征。
进一步地,步骤S4具体包括以下步骤:
步骤S41:对表情、动作进行初始权重的分配,对于学习行为给予正向激励,对非学习行为给予负向激励;
步骤S42:对视频相隔一帧采样分析表情和动作,使用LSTM网络进行训练:
所述LSTM网络由遗忘门、输入门、输出门组成,其计算公式如下:
St=σ(Ws[ht-1,xt]+bs)
遗忘门决定了上一时刻的单元有多少信息保留到当前时刻,Ws是遗忘门的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,bs是遗忘门的偏置项,σ是sigmoid函数,ht-1为上一时刻的输出值,xt为当前时刻的输入值;
It=σ(Wi[ht-1,xt]+bi)
输入门决定了当前时刻网络的输入xt有多少保存到单元状态Ct,其中It决定需要更新的信息,Wi为输入门sigmoid即σ层的权重,bi为输入门σ层的偏置项,为本时刻备选用来更新的信息,tanh为激活函数,WC为tanh层的权重,bC为tanh层的偏置项;
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
输出门控制单元状态Ct有多少输出到LSTM的当前输出值ht,最终得到专注力评分,其中ot决定输出的信息,Wo为输出门sigmoid即σ层的权重,bo为输出门σ层的偏置项。
与现有技术相比,本发明及其优选方案有以下有益效果:
1、本发明基于摄像头的动作识别和表情识别,相对于传统脑电波检测,不需要佩戴相应硬件。可直接使用现有手机、平板电脑、笔记本电脑等已有设备搭建实现方案的硬件平台,成本低。
2、本发明的动作识别针对学生行为构建了有效的运动特征,相对传统的动作识别难以有效地解决视角差异和动作差异带来的问题,本发明利用编码图像加以神经网络分类器,有效的改善了此类问题。
3、相对于主观的专注力判别方法,本发明将学生行为和表情的变化转换为特征输入到LSTM网络训练获得的相关参量并实现量化评分,使结果更加客观,可用于在线教育等场景。
附图说明
下面结合附图和具体实施方式对本发明进一步详细的说明:
图1为本发明实施例方法原理及流程示意图。
具体实施方式
为让本专利的特征和优点能更明显易懂,下文特举实施例,作详细说明如下:
如图1所示,本实施提供了一种基于表情及行为特征提取的通过视频评估学习专注力的方法,包括以下步骤:
步骤S1:通过监控视频收集学生或其他类似用户的行为动作,进行数据增强处理,利用AlphaPose提取人体骨架信息,利用Ultra-Light-Fast-Generic-Face-Detector-1M提取人脸信息;
步骤S2:对人体骨架进行预处理,并将其编码转换为图像,构造有效的运动特征,搭建神经网络分类器,并基于人体运动特征数据进行训练,将处理后的图像输入到训练好的神经网络分类器中进行分类,得到分类结果;
步骤S3:将获取的人脸信息,通过VGG-A预训练模型提取特征,然后通过Segmentation网络得到精确的人脸位置,将获取的人脸图片裁剪为25个区域,使用CNN卷积网络提取特征,通过自注意力模块对不同人脸区域进行加权,融合25个区域的局部特征形成整体特征进行表情分类;
步骤S4:融合动作和表情识别结果,通过LSTM网络计算学习专注力结果。
在本实施例中,步骤S1具体包括以下内容:
收集学生行为数据集,对其进行随机角度翻转、裁剪、镜像等数据增强;
采用的AlphaPose是自上而下的人体骨架关键点检测模型,运用了RMPE框架,由对称空间变换器网络SSTN、参数姿势非最大抑制PNMS、姿势引导建议发生器PGPG几个模块组成;
采用的SSTN即对称空间变换网络,由STN,SDTN两部分组成,STN负责接收人体候选框,SDTN产生候选姿态;
采用的PNMS即参数姿势非最大抑制负责过滤掉多余的姿态估计,避免冗余;
采用的PGPG即姿态引导建议发生器就是SPPE这一部分,可以产生各种姿态图片,供训练过程使用;
在本实施例中,先利用AlphaPose检测出视频中的人,然后对其进行人脸提取和人体骨骼点提取,图像中获取人脸部位坐标及人体骨骼点的坐标。
其中,骨骼关键点及其坐标和置信度为″Person″:{″0″:[x0,y0],″1″:[x1,y1],...,″17″:[x17,y17]},其中Person表示检测到的学生,″0″-″17″分别对应鼻子、右眼、左眼、右耳、左耳、右肩、左肩、右肘、左肘、右腕、左腕、右髋、左髋、右膝、左膝、右脚踝、左脚踝、颈部,x和y表示骨骼点相对于图片的坐标。
本实施例利用Ultra-Light-Fast-Generic-Face-Detector-1M检测人脸,得到人脸框位置。
其中,Ultra-Light-Fast-Generic-Face-Detector-1M为一种适用于边缘计算设备、移动端设备以及PC的超轻量级通用人脸检测模型,该模型文件大小仅1MB,320x240输入下计算量仅90MFlops。
在本实施例中,步骤S2具体包括以下步骤:
步骤S21:由于AlphaPose截取的图片大小存在差异,会影响到各个动作骨骼点位置,使得相同动作差异性增大,因此本实施例将得到的骨架信息,先将坐标转换为向量,以人体的颈部关节坐标为中心,将其他骨骼点坐标转换为以颈部关节为坐标原点的坐标值,转换公式如下:
v=Pn-P0.(n=1,2,3,…,N)
其中Pn表示除颈部关节之外的其他骨骼点坐标,P0表示颈部关节坐标,所得v为其他骨骼点以颈部关节为起点的向量;
步骤S22:由于个体差异,向量大小也会存在差异,所以,需要将向量进行归一化,具体公式如下:
其中,H为图片大小;
步骤S23:由于AlphaPose所得关键点有限,所以在本实施例中进行增加点的处理,即对应的人体躯干两端之间增加一个中点(可以视情况多加几个点),得到更为精细的人体姿态。
步骤S24:对于处理好的人体骨骼点信息,在本实施例中将x、y和z位置经过处理编码作为RGB图像中的红、绿和蓝通道值,由于是二维的图片,转换图像编码时则不使用z值,即可以将蓝色通道设置为0(或者1),为将检测到的关键点全局坐标转换为相应的“像素值”,需先将它们规格化。在本实施例中先将这些值规范化为从0到1的连续范围内的值,而不是从0到255的离散整数值,为了实现可视化,再将图中的骨骼关键点位置规格化为0-255;
步骤S25:在本实施例中转换得到了相应的像素值,并按照人体上半部位的位置进行排列。依次将头部、身体分别加入分配矩阵中,例如分配在(1+3)×5×3的矩阵中,则其中头部占一行,身体3行,5为横向划分关键点的列,矩阵中没有关键点的位置在本实施例中全部设为0;
步骤S26:搭建神经网络分类器,主要包括三层的卷积对处理完的图片进行卷积提取特征、紧接着批量归一层对数据按批进行归一化,然后通过线性整流层和三层全连接进行分类,并利用交叉熵损失函数计算损失,将处理得到的图像输入到神经网络分类器进行训练,得到神经网络分类器;
步骤S27:将处理得到的图像输入到神经网络分类器进行分类。
在本实施例中,步骤S3具体包括以下步骤:
步骤S31:将人脸框输入到预训练好的VGG-A模型获取特征,然后通过Segmentation网络输出一个更为精确的掩膜,并得出准确性分数;
其中,Segmentation网络由一个1*1的卷积层(包含ReLU非线性层)和一个分类层组成。分类的classificationlayer由图像像素总数个分类器组成,每一个负责识别给定的像素是否属于输入框中心的目标。每一个像素分类器都要能够充分利用整个特征图的信息,来获得对目标的完整的视觉表示。
步骤S32:对基于获取的人脸行裁剪为25份,剪裁方法为随机面部位置剪裁,即将图片剪裁为随机剪裁为25个不重叠的部分,然后经过CNN卷积网络进行特征提取:
将局部区域提取的特征经过全连接层,然后通过激活函数得到对应的权重:
其中μi为第i个剪裁区域的权重,Fi为第i个剪裁区域提取的特征,q0表示全连接层的参数,f表示激活函数。
将局部区域进行加权表示为整体特征,然后将区域局部特征与整体特征作一个concat操作,经过全连接层和激活函数,融合局部与整体的特征得到权重,最后经过全连接层进行分类:
整体特征表示为:
其中Fm为整体特征,μi为上文所述第i个剪裁区域的权重,Fi为第i个剪裁区域提取的特征。
局部和整体的权重:
ρi=f((Fi:Fm)Tq1)
ρi为局部和整体特征的权重,q1表示全连接层的参数。同理,对特征进行加权得到局部和整体特征结合的全局特征:
其中Fall为处理得到的全局特征。
在本实施例中,步骤S4具体包括以下步骤:
步骤S41:对表情、动作进行初始权重的分配,对于学习行为给予正向激励,对非学习行为给予负向激励。
步骤S42:对视频相隔一帧采样分析表情和动作,使用LSTM网络进行训练;
步骤S43:LSTM网络由遗忘门、输入门、输出门组成,其计算公式如下:
St=σ(Ws[ht-1,xt]+bs)
遗忘门决定了上一时刻的单元有多少信息保留到当前时刻,Ws是遗忘门的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,bs是遗忘门的偏置项,σ是sigmoid函数,ht-1为上一时刻的输出值,xt为当前时刻的输入值;
It=σ(Wi[ht-1,xt]+bi)
输入门决定了当前时刻网络的输入xt有多少保存到单元状态Ct,其中It决定需要更新的信息,Wi为sigmoid即σ层的权重,bi为偏置项,为本时刻备选用来更新的信息,tanh为激活函数,WC为tanh层的权重,bC为该层偏置项。
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
输出门控制单元状态Ct有多少输出到LSTM的当前输出值ht,最终得到专注力评分,其中ot决定输出的信息,Wo为sigmoid即σ层的权重,bo为偏置项。
特别的,本实施例基于动作识别和表情识别,更加客观的展示学生学习情况,并对学生行为专注力进行评分。本实施例基于摄像头的动作识别和表情识别,相对于传统脑电波检测,不需要佩戴相应硬件。可直接使用现有手机、平板电脑、笔记本电脑等已有设备,成本低。本实施例采用的动作识别针对学生行为构建了有效的运动特征,相对传统的二维动作识别,难以有效的解决视角差异和动作差异带来的问题,本实施例利用编码图像加以神经网络分类器,有效的改善了此类问题。本实施例采用的表情识别通过整体和局部特征的提取,针对不同视角的表情有效的进行识别。
本专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的基于表情及行为特征提取的通过视频评估学习专注力的方法,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本专利的涵盖范围。
Claims (6)
1.一种基于表情及行为特征提取的通过视频评估学习专注力的方法,其特征在于:首先通过人体骨骼点检测方法AlphaPose获取人体骨架,通过轻量化人脸检测模型检测人脸;接着将骨架编码转换为图像,通过神经网络分类器进行动作分类;将获取到的人脸框,先通过VGG-A网络提取特征,再经过Segmentation网络进一步拟合得到精确的人脸位置,接着将人脸裁剪为多个区域,并使用CNN网络提取特征,通过自注意力模块对不同人脸区域进行加权,融合多个区域的局部特征形成整体特征进行表情分类;最后融合动作和表情识别结果,通过LSTM网络得到最终的专注力分析结果。
2.根据权利要求1所述的基于表情及行为特征提取的通过视频评估学习专注力的方法,其特征在于,包括以下步骤:
步骤S1:通过视频收集学生行为动作图像,进行数据增强处理,利用AlphaPose提取人体骨架信息,利用Ultra-Light-Fast-Generic-Face-Detector-1M提取人脸信息;
步骤S2:对人体骨架进行预处理,并将其编码转换为图像,构造运动特征,搭建神经网络分类器,并基于人体运动特征数据进行训练,将处理后的图像输入到训练好的神经网络分类器中进行分类,得到分类结果;
步骤S3:将获取的人脸信息,通过VGG-A预训练模型提取特征,然后通过Segmentation网络得到精确的人脸位置,将获取的人脸图像裁剪为25个区域,使用CNN卷积网络提取特征,通过自注意力模块对不同人脸区域进行加权,融合25个区域的局部特征形成整体特征进行表情分类;
步骤S4:融合动作和表情识别结果,通过LSTM网络计算学习专注力结果。
3.根据权利要求2所述的基于表情及行为特征提取的通过视频评估学习专注力的方法,其特征在于,在步骤S1中:
所述数据增强处理包括对学生行为动作图像进行随机角度翻转、裁剪、镜像的处理,从而获得学生行为数据集;
所述AlphaPose是自上而下的人体骨架关键点检测模型,运用了RMPE框架,由对称空间变换器网络SSTN、参数姿势非最大抑制PNMS、姿势引导建议发生器PGPG的模块组成;
所述SSTN即对称空间变换网络,由STN,SDTN两部分组成,STN用于接收人体候选框,SDTN产生候选姿态;
所述PNMS即参数姿势非最大抑制,用于过滤掉多余的姿态估计,避免冗余;
所述PGPG即姿态引导建议发生器就是SPPE这一部分,可以产生各种姿态图片,供训练过程使用;
利用AlphaPose提取人体骨架信息的具体过程为:先利用AlphaPose检测出图像中的人,然后对其进行人体骨骼点提取,从图像中获取人体骨骼点的坐标;其中,骨骼关键点及其坐标和置信度为″Person″:{″0″:[x0,y0],″1″:[x1,y1],...,″17″:[x17,y17]},其中Person表示检测到的人体,″0″-″17″分别对应鼻子、右眼、左眼、右耳、左耳、右肩、左肩、右肘、左肘、右腕、左腕、右髋、左髋、右膝、左膝、右脚踝、左脚踝、颈部,x和y表示骨骼点相对于图片的坐标;
利用Ultra-Light-Fast-Generic-Face-Detector-1M提取的人脸信息为人脸框位置。
4.根据权利要求3所述的基于表情及行为特征提取的通过视频评估学习专注力的方法,其特征在于:
步骤S2具体包括以下步骤:
步骤S21:对得到的人体骨架信息,先将坐标转换为向量,以人体的颈部关节坐标为中心,将其他骨骼点坐标转换为以颈部关节为坐标原点的坐标值,转换公式如下:
v=Pn-P0.(n=1,2,3,…,N)
其中Pn表示除颈部关节之外的其他骨骼点坐标,P0表示颈部关节坐标,所得v为其他骨骼点以颈部关节为起点的向量;
步骤S22:将向量进行归一化,具体公式如下:
其中,H为图片大小;
步骤S23:根据处理获得的骨骼关键点数据,在对应的人体躯干两端之间增加一个中点,得到更为精细的人体姿态;
步骤S24:对于人体骨骼点信息,将x、y和z位置经过处理编码作为RGB图像中的红、绿和蓝通道值:其中蓝色通道设置为0或1,红、绿通道规范化为0到1的连续范围内的值;再将图中的骨骼关键点位置规格化为0-255;
步骤S25:将转换获得的像素值,按照人体上半身部位位置进行排列;依次将头部、身体部位加入矩阵;
步骤S26:搭建神经网络分类器:包括三层对处理完的图片进行卷积提取特征的卷积层、对数据按批进行归一化的批量归一层、线性整流层和用于进行分类的三层全连接层,并利用交叉熵损失函数计算损失;将处理得到的图像输入到神经网络分类器进行训练,得到训练完毕的神经网络分类器;
步骤S27:将处理得到的图像输入到训练完毕的神经网络分类器进行分类。
5.根据权利要求4所述的基于表情及行为特征提取的通过视频评估学习专注力的方法,其特征在于:
步骤S3具体包括以下步骤:
步骤S31:将人脸框输入到预训练好的VGG-A模型获取特征,然后通过Segmentation网络输出一个更为精确的掩膜,并得出准确性分数;
所述Segmentation网络由一个1*1的包含ReLU非线性层的卷积层和一个分类层组成;分类的classification layer由图像像素总数个像素分类器组成,每一个像素分类器用于识别给定的像素是否属于输入框中心的目标;
步骤S32:将获取的人脸图像随机剪裁为25个不重叠的部分,然后经过CNN卷积网络进行特征提取:
将局部区域提取的特征经过全连接层,然后通过激活函数得到对应的权重:
其中μi为第i个剪裁区域的权重,Fi为第i个剪裁区域提取的特征,q0表示全连接层的参数,f表示激活函数;T为矩阵转置;
将局部区域进行加权表示为整体特征,然后将区域局部特征与整体特征作一个concat操作,经过全连接层和激活函数,融合局部与整体的特征得到权重,最后经过全连接层进行分类:
整体特征表示为:
其中Fm为整体特征,μi为第i个剪裁区域的权重,Fi为第i个剪裁区域提取的特征;
局部和整体的权重:
ρi=f((Fi:Fm)Tq1)
ρi为局部和整体特征的权重,q1表示全连接层的参数;同理,对特征进行加权得到局部和整体特征结合的全局特征:
其中Fall为处理得到的全局特征。
6.根据权利要求5所述的基于表情及行为特征提取的通过视频评估学习专注力的方法,其特征在于:
步骤S4具体包括以下步骤:
步骤S41:对表情、动作进行初始权重的分配,对于学习行为给予正向激励,对非学习行为给予负向激励;
步骤S42:对视频相隔一帧采样分析表情和动作,使用LSTM网络进行训练:
所述LSTM网络由遗忘门、输入门、输出门组成,其计算公式如下:
St=σ(Ws[ht-1,xt]+bs)
遗忘门决定了上一时刻的单元有多少信息保留到当前时刻,Ws是遗忘门的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,bs是遗忘门的偏置项,σ是sigmoid函数,ht-1为上一时刻的输出值,xt为当前时刻的输入值;
It=σ(Wi[ht-1,xt]+bi)
输入门决定了当前时刻网络的输入xt有多少保存到单元状态Ct,其中It决定需要更新的信息,Wi为输入门sigmoid即σ层的权重,bi为输入门σ层的偏置项,为本时刻备选用来更新的信息,tanh为激活函数,WC为tanh层的权重,bC为tanh层的偏置项;
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
输出门控制单元状态Ct有多少输出到LSTM的当前输出值ht,最终得到专注力评分,其中ot决定输出的信息,Wo为输出门sigmoid即σ层的权重,bo为输出门σ层的偏置项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011319889.1A CN112287891B (zh) | 2020-11-23 | 2020-11-23 | 基于表情行为特征提取的通过视频评估学习专注力的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011319889.1A CN112287891B (zh) | 2020-11-23 | 2020-11-23 | 基于表情行为特征提取的通过视频评估学习专注力的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112287891A true CN112287891A (zh) | 2021-01-29 |
CN112287891B CN112287891B (zh) | 2022-06-10 |
Family
ID=74425227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011319889.1A Active CN112287891B (zh) | 2020-11-23 | 2020-11-23 | 基于表情行为特征提取的通过视频评估学习专注力的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287891B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966673A (zh) * | 2021-05-19 | 2021-06-15 | 南京视察者智能科技有限公司 | 一种行人重识别模型的构建方法及行人重识别方法 |
CN113065460A (zh) * | 2021-03-31 | 2021-07-02 | 吉林农业大学 | 基于多任务级联的猪脸面部表情识别框架的建立方法 |
CN113159002A (zh) * | 2021-05-26 | 2021-07-23 | 重庆大学 | 一种基于自注意力权重辅助模块的人脸表情识别方法 |
CN113221798A (zh) * | 2021-05-24 | 2021-08-06 | 南京伯索网络科技有限公司 | 一种基于网络课堂学员积极度评价系统 |
CN113361336A (zh) * | 2021-05-19 | 2021-09-07 | 浙江工业大学 | 基于注意力机制的视频监控场景下行人视图属性的定位与识别方法 |
CN113723233A (zh) * | 2021-08-17 | 2021-11-30 | 之江实验室 | 一种基于分层时序多示例学习的学生学习参与度评估方法 |
CN114463805A (zh) * | 2021-12-28 | 2022-05-10 | 北京瑞莱智慧科技有限公司 | 深度伪造检测方法、装置、存储介质及计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309732A (zh) * | 2019-06-13 | 2019-10-08 | 浙江大学 | 基于骨架视频的行为识别方法 |
CN111291613A (zh) * | 2019-12-30 | 2020-06-16 | 新大陆数字技术股份有限公司 | 一种课堂表现评价方法及系统 |
US20200193148A1 (en) * | 2018-12-14 | 2020-06-18 | Alibaba Group Holding Limited | Method and system for recognizing user actions with respect to objects |
CN111967379A (zh) * | 2020-08-14 | 2020-11-20 | 西北工业大学 | 一种基于rgb视频和骨架序列的人体行为识别方法 |
-
2020
- 2020-11-23 CN CN202011319889.1A patent/CN112287891B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200193148A1 (en) * | 2018-12-14 | 2020-06-18 | Alibaba Group Holding Limited | Method and system for recognizing user actions with respect to objects |
CN110309732A (zh) * | 2019-06-13 | 2019-10-08 | 浙江大学 | 基于骨架视频的行为识别方法 |
CN111291613A (zh) * | 2019-12-30 | 2020-06-16 | 新大陆数字技术股份有限公司 | 一种课堂表现评价方法及系统 |
CN111967379A (zh) * | 2020-08-14 | 2020-11-20 | 西北工业大学 | 一种基于rgb视频和骨架序列的人体行为识别方法 |
Non-Patent Citations (3)
Title |
---|
CHATZITOFIS,ANARGYROS ET AL.: "HUMAN4D: A Human-Centric Multimodal Dataset for Motions and Immersive Media", 《IEEE ACCESS》, vol. 8, 15 October 2020 (2020-10-15), pages 176241 - 176262, XP011812233, DOI: 10.1109/ACCESS.2020.3026276 * |
巩维: "基于骨骼关键点检测的学生学习行为识别系统的设计与实现", 《中国优秀博硕士学位论文全文数据库(硕士)》, no. 12, 15 December 2019 (2019-12-15), pages 1 - 58 * |
林灿然 等: "基于多模态数据的课堂学生行为识别技术的探究", 《现代计算机》, no. 06, 25 February 2020 (2020-02-25), pages 69 - 75 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065460A (zh) * | 2021-03-31 | 2021-07-02 | 吉林农业大学 | 基于多任务级联的猪脸面部表情识别框架的建立方法 |
CN112966673A (zh) * | 2021-05-19 | 2021-06-15 | 南京视察者智能科技有限公司 | 一种行人重识别模型的构建方法及行人重识别方法 |
CN112966673B (zh) * | 2021-05-19 | 2021-07-23 | 南京视察者智能科技有限公司 | 一种行人重识别模型的构建方法及行人重识别方法 |
CN113361336A (zh) * | 2021-05-19 | 2021-09-07 | 浙江工业大学 | 基于注意力机制的视频监控场景下行人视图属性的定位与识别方法 |
CN113361336B (zh) * | 2021-05-19 | 2024-03-29 | 浙江工业大学 | 基于注意力机制的视频监控场景下行人视图属性的定位与识别方法 |
CN113221798A (zh) * | 2021-05-24 | 2021-08-06 | 南京伯索网络科技有限公司 | 一种基于网络课堂学员积极度评价系统 |
CN113159002A (zh) * | 2021-05-26 | 2021-07-23 | 重庆大学 | 一种基于自注意力权重辅助模块的人脸表情识别方法 |
CN113723233A (zh) * | 2021-08-17 | 2021-11-30 | 之江实验室 | 一种基于分层时序多示例学习的学生学习参与度评估方法 |
CN113723233B (zh) * | 2021-08-17 | 2024-03-26 | 之江实验室 | 一种基于分层时序多示例学习的学生学习参与度评估方法 |
CN114463805A (zh) * | 2021-12-28 | 2022-05-10 | 北京瑞莱智慧科技有限公司 | 深度伪造检测方法、装置、存储介质及计算机设备 |
CN114463805B (zh) * | 2021-12-28 | 2022-11-15 | 北京瑞莱智慧科技有限公司 | 深度伪造检测方法、装置、存储介质及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112287891B (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112287891B (zh) | 基于表情行为特征提取的通过视频评估学习专注力的方法 | |
CN110837784B (zh) | 一种基于人体头部特征的考场偷窥作弊检测系统 | |
Latif et al. | An automatic Arabic sign language recognition system based on deep CNN: an assistive system for the deaf and hard of hearing | |
CN106650619A (zh) | 一种人体动作识别方法 | |
CN110135251B (zh) | 一种基于注意力机制和混合网络的群体图像情绪识别方法 | |
Sharma et al. | Vision-based sign language recognition system: A Comprehensive Review | |
Yasir et al. | Two-handed hand gesture recognition for Bangla sign language using LDA and ANN | |
CN111507592A (zh) | 一种面向服刑人员的主动改造行为的评估方法 | |
CN112949622A (zh) | 融合文本与图像的双模态性格分类方法及装置 | |
CN110163567A (zh) | 基于多任务级联卷积神经网络的课堂点名系统 | |
CN114998983A (zh) | 一种基于增强现实技术和姿态识别技术的肢体康复方法 | |
CN115482580A (zh) | 一种基于机器视觉骨骼追踪术的多人评测系统 | |
CN112257639A (zh) | 基于人体骨架的学生学习行为识别方法 | |
CN112883867A (zh) | 一种基于图像情感分析的学生在线学习评估方法及系统 | |
CN113516005A (zh) | 一种基于深度学习和姿态估计的舞蹈动作评价系统 | |
CN114898460A (zh) | 一种基于图卷积神经网络的教师非言语行为检测方法 | |
Rafiq et al. | Real-time vision-based bangla sign language detection using convolutional neural network | |
Tabassum et al. | Enhancement of single-handed bengali sign language recognition based on hog features | |
Silva et al. | POEM-based facial expression recognition, a new approach | |
CN112597842B (zh) | 基于人工智能的运动检测面瘫程度评估系统 | |
Handayani et al. | Design of SIBI sign language recognition using artificial neural network backpropagation | |
Rajanishree et al. | Sign Language Conversion to Speech with the Application of KNN Algorithm | |
CN115188051A (zh) | 基于对象行为的在线课程推荐方法及系统 | |
Zhang et al. | Skeleton-based action recognition with attention and temporal graph convolutional network | |
Furtado et al. | Interactive and Markerless Visual Recognition of Brazilian Sign Language Alphabet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |