CN113076885A

CN113076885A - 一种基于人眼动作特征的专注度分级方法及系统

Info

Publication number: CN113076885A
Application number: CN202110380324.2A
Authority: CN
Inventors: 张东; 王梦瑶; 余萌; 陈伟聪; 何坚
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2021-07-06
Anticipated expiration: 2041-04-09
Also published as: CN113076885B

Abstract

本发明公开了一种基于人眼动作特征的专注度分级方法及系统，该方法包括：录制待测视频数据；根据待测视频数据提取用户的左眼视频数据、右眼视频数据、眨眼时长和眨眼频次，得到用户眼部动作特征；将用户眼部动作特征输入到预训练的分类网络，得到用户专注状态的眨眼次数和用户非专注状态的眨眼次数；根据用户专注状态的眨眼次数与用户非专注状态的眨眼次数的比值，判断用户的专注度等级。该系统包括：数据采集模块、特征提取模块、分类模块和分级模块。通过使用本发明，能够分析出该学生在上网课时的专注程度，从而提高学生学习的质量。本发明作为一种基于人眼动作特征的专注度分级方法及系统，可广泛应用于视频处理领域。

Description

一种基于人眼动作特征的专注度分级方法及系统

技术领域

本发明涉及视频处理领域，尤其涉及一种基于人眼动作特征的专注度分级方法及系统。

背景技术

随着互联网技术的普及发展，远程网络学习方式也越来越成熟，网络远程教育因其形式的特殊性，使学习者和授课者可以打破时间和空间的限制。目前网络远程教育的应用领域逐渐扩大，为我们的现代教育提供了很好的资源平台，学生们在无法返校的情况下也可以完成教学计划。但广泛应用的网络远程教育也逐渐出现了各种问题，由于上网课的学生与授课的老师受到时空的限制无法实时沟通，导致学生长时间面对电脑屏幕时产生疲惫厌烦的现象，进而导致学习专注度下降，影响老师的授课效果以及学生学习的质量，目前还没有一种较为完整专注度识别方法。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于人眼动作特征的专注度分级方法及系统，通过人眼的动作特征分析出该学生在上网课时的专注程度，从而提高学生学习的质量。

本发明所采用的第一技术方案是：一种基于人眼动作特征的专注度分级方法，包括以下步骤：

录制用户在观看网课时的视频，得到待测视频数据；

根据待测视频数据提取用户的左眼视频数据、右眼视频数据、眨眼时长和眨眼频次，得到用户眼部动作特征；

将用户眼部动作特征输入到预训练的分类网络，得到用户专注状态的眨眼次数和用户非专注状态的眨眼次数；

根据用户专注状态的眨眼次数与用户非专注状态的眨眼次数的比值，判断用户的专注度等级。

进一步，所述根据待测视频数据提取用户的左眼视频数据、右眼视频数据、眨眼时长和眨眼频次，得到用户眼部动作特征这一步骤，其具体包括：

基于人脸配准算法对待测视频数据进行眼部特征点定位找到人眼位置，得到待测视频中的左眼视频数据和右眼视频数据；

根据眼部特征点计算人眼横纵比值；

根据人眼横纵比值判断用户的眨眼动作，并计算得到用户视频中的眨眼时长和眨眼频次；

整合左眼视频数据、右眼视频数据、眨眼时长和眨眼频次，得到用户眼部动作特征。

进一步，所述人脸配准算法包括68个特征点，所述人眼横纵比值的计算公式如下：

上式中，EAR表示人眼横纵比值，h₁表示左眼高度，定义为特征点37与特征点41之间的欧氏距离和特征点38与特征点40之间的欧式距离的平均值，l₁表示左眼宽度，定义为特征点36与特征点39之间的欧式距离，h₂表示右眼高度，定义为特征点43与特征点47之间的欧氏距离和特征点44与特征点46之间的欧式距离的平均值，l₂表示右眼宽度，定义为特征点42与特征点45之间的欧氏距离。

进一步，所述根据人眼横纵比值判断用户的眨眼动作，并计算得到用户视频中的眨眼时长和眨眼频次这一步骤，其具体包括：

计算用户视频所有帧的人眼横纵比值；

对人眼横纵比值进行平滑滤波并对平滑滤波后的人眼横纵比值取局部最小值；

基于动态阈值方式设定人眼横纵比阈值；

将局部最小值与人眼横纵比阈值进行比较，判定眨眼动作，得到眨眼过程和眨眼次数；

以单次眨眼过程的开始帧到结束帧之间的帧数作为眨眼时长；

基于用户视频的眨眼次数并除以用户视频的时长，得到眨眼频次。

进一步，所述基于动态阈值方式设定人眼横纵比阈值这一步骤，其具体包括：

取时间段内每一帧人眼横纵比值进行从大到小的排序，取前10000个值的平均值作为最大人眼横纵比，取该时间段后5000个人眼横纵比值的平均值作为最小人眼横纵比；

最大人眼横纵比与最小人眼横纵比作差，得到该时间段内的人眼横纵比范围值；

将最小人眼横纵比与人眼横纵比范围值的10％相加，得到该时间段的人眼横纵比阈值。

进一步，所述将局部最小值与人眼横纵比阈值进行比较，判定眨眼动作，得到眨眼过程和眨眼次数这一步骤，其具体包括：

判断到局部最小值小于人眼横纵比阈值，该局部最小值对应的视频帧为闭眼状态视频帧；

判断到局部最小值不小于人眼横纵比阈值，该局部最小值对应的视频帧为睁眼状态视频帧；

以闭眼状态视频帧为中心向前拓展4帧、向后拓展5帧，记录10帧眨眼视频片段并分割为左眼眨眼视频样本及右眼眨眼视频样本；

将睁眼状态视频帧变为闭眼状态视频帧再到睁眼状态视频帧的过程定为眨眼过程；

根据用户视频内眨眼过程的次数确定眨眼次数。

进一步，所述分类网络包括左眼特征分支、右眼特征分支、眨眼频次分支、单次眨眼时长分支，所述左眼特征分支和右眼特征分支分别包括眼部特征提取和残差特征提取模块。

进一步，所述预训练的分类网络的训练步骤包括：

获取训练用视频数据并提取左眼视频训练数据、右眼视频训练数据、眨眼时长训练数据和眨眼频次训练数据；

将左眼视频训练数据、右眼视频训练数据、眨眼时长训练数据和眨眼频次训练数据分别输入到左眼特征分支、右眼特征分支、眨眼频次分支和单次眨眼时长分支，得到对应的特征向量；

将对应的特征向量进行向量拼接，经过归一化、激活层以及全连接层得到分类向量；

将分类向量经过softmax，得到分类结果；

根据分类结果和训练用视频数据的真实标签对分类网络的学习率进行调整，得到预训练的分类网络。

进一步，所述根据用户专注状态的眨眼次数与用户非专注状态的眨眼次数的比值，判断用户的专注度等级这一步骤，其具体包括：

当n₁:n₂＞1:2，判断用户为专注；

当1:2≤n₁:n₂＜2:1，判断用户为一般专注；

当n₁:n₂≥2:1，判断用户为不专注；

所述n₁表示用户专注状态的眨眼次数，n₂表示用户非专注状态的眨眼次数。

本发明所采用的第二技术方案是：一种基于人眼动作特征的专注度分级系统，包括：

数据采集模块，用于录制用户在观看网课时的视频，得到待测视频数据；

特征提取模块，用于根据待测视频数据提取用户的左眼视频数据、右眼视频数据、眨眼时长和眨眼频次，得到用户眼部动作特征；

分类模块，用于将用户眼部动作特征输入到预训练的分类网络，得到用户专注状态的眨眼次数和用户非专注状态的眨眼次数；

分级模块，用于根据用户专注状态的眨眼次数与用户非专注状态的眨眼次数的比值，判断用户的专注度等级。

本发明方法及系统的有益效果是：本发明首先利用摄像头拍摄学生在观看屏幕播放教学片段时的视频，然后利用神经网络分析用户眼部动作特征，并且结合受试者单位时间内的眨眼频次以及单次眨眼时间信息，最终识别学生的专注度等级，从而提高学生学习的质量。

附图说明

图1是本发明一种基于人眼动作特征的专注度分级方法的步骤流程图；

图2是本发明具体实施例dlib人脸识别的特征点示意图；

图3是本发明一种基于人眼动作特征的专注度分级系统的步骤流程图；

图4是本发明具体实施例左眼特征分支或右眼特征分支的结构示意图；

图5是本发明具体实施例ResNet-3D网络结构的示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

本发明利用卷积神经网络对人眼外观特征进行分析，找到人眼外观特征与专注度分级结果之间的联系，实现对上网课的学生专注等级的识别。

参照图1，本发明提供了一种基于人眼动作特征的专注度分级方法，该方法包括以下步骤：

S1、录制用户在观看网课时的视频，得到待测视频数据；

具体地，播放教学视频并开启电脑摄像头采集学生上课视频。

S2、根据待测视频数据提取用户的左眼视频数据、右眼视频数据、眨眼时长和眨眼频次，得到用户眼部动作特征；

S3、将用户眼部动作特征输入到预训练的分类网络，得到用户专注状态的眨眼次数和用户非专注状态的眨眼次数；

S4、根据用户专注状态的眨眼次数与用户非专注状态的眨眼次数的比值，判断用户的专注度等级。

具体地，将专注度等级分为专注、一般专注和不专注三个等级。

进一步作为本方法的优选实施例，所述根据待测视频数据提取用户的左眼视频数据、右眼视频数据、眨眼时长和眨眼频次，得到用户眼部动作特征这一步骤，其具体包括：

具体地，人脸配准算法中的特征点参照图2。

根据眼部特征点计算人眼横纵比值；

进一步作为本方法的优选实施例，所述人脸配准算法具体为dlib人脸识别，包括68个特征点，所述人眼横纵比值的计算公式如下：

进一步作为本方法的优选实施例，所述根据人眼横纵比值判断用户的眨眼动作，并计算得到用户视频中的眨眼时长和眨眼频次这一步骤，其具体包括：

计算用户视频所有帧的人眼横纵比值；

具体地，局部最小值对应的帧纵横比需满足比前后五帧纵横比都小。

基于动态阈值方式设定人眼横纵比阈值；

进一步作为本方法优选实施例，所述基于动态阈值方式设定人眼横纵比阈值这一步骤，其具体包括：

具体地，假设样本中最大人眼横纵比为0.2，最小人眼横纵比为0.1，则人眼横纵比阈值为0.1+(0.2-0.1)*10％＝0.11。

进一步作为本方法优选实施例，所述将局部最小值与人眼横纵比阈值进行比较，判定眨眼动作，得到眨眼过程和眨眼次数这一步骤，其具体包括：

根据用户视频内眨眼过程的次数确定眨眼次数。

进一步作为本方法优选实施例，所述分类网络包括左眼特征分支、右眼特征分支、眨眼频次分支、单次眨眼时长分支，所述左眼特征分支和右眼特征分支分别包括眼部特征提取和残差特征提取模块。

具体地，左眼特征分支和右眼特征分支的结构图参照图4，眼部特征提取模块为ResNet-3D网络结构，参照图5，Resnet-3D模块由一个3D卷积层，一个最大值池化层，一个均值池化层，四个Resblock模块以及一个全连接层组成，其中3D卷积层的维度采用(7，7，7)尺寸的卷积核，最大值池化层采用(3，3，3)尺寸进行池化，均值池化层采用(1，1，1)尺寸进行池化。Resblock模块由两个三维卷积层、两个批次归一化层、一个激活层及一个相加函数组成。其卷积核尺寸均为(3，3，3)。输入向量经过卷积、归一化、激活函数、卷积、归一化后与自身相加作为输出。最后一个残差模块的输出经过均值池化后输入至全连接层得到(N,16)维度的眼部特征。

残差特征提取模块使用5层残差模块进行视频帧的初步特征提取工作，每个残差模块由两个卷积层，两个批次归一化层，两个ReLU激活函数及一个相加操作组成。卷积层的卷积核为3*3滑动步长为1，padding为1，通道数为3，用以保证输出尺寸与输入尺寸一致。输入向量经过卷积、归一化、激活函数、卷积、归一化后与自身相加作为输出。

进一步作为本方法优选实施例，所述预训练的分类网络的训练步骤包括：

将分类向量经过softmax，得到分类结果；

具体地，将输入左右眼视频数据输入至眼部特征提取模块对眼部视频流提取特征得到维度为(N,16)的眼部特征；同时将左右眼视频数据输入残差特征提取模块，将提取到的残差特征输入时序特征提取模块，得到维度为(N,3)的时序特征，左眼眼部特征(N,16)，左眼时序特征(N,3),右眼眼部特征(N,16)与右眼时序特征(N,3)结合眨眼频次(N,1)与时长(N,1)共同组合为此眨眼视频片段的特征，其维度为(N,40)。(在拼接眨眼频次与时长特征时，进行min-max标准化处理，将其结果映射到[0,1]区间)。将此特征向量输入分类模块，输出维度为(N,3)的结果向量，该结果向量经过softmax后得到最终的分类结果及置信度。

具体地，利用Pytorch深度学习框架进行网络的训练。采用批次化训练(batch)，训练及验证阶段batch size均设置为8，即8个样本作为一个批次输入至模型中。数据集中全部数据都输入至模型称为一个轮次(epoch)，设置共训练100个轮次。一轮训练结束后，计算损失值，Loss函数采用分类任务中常用的CrossEntropyLoss。采用阶段式减小学习率的方式在训练过程中对学习率进行调整，在第30和60个epoch时，学习率调整为之前的0.2倍。

进一步作为本方法的优选实施例，所述根据用户专注状态的眨眼次数与用户非专注状态的眨眼次数的比值，判断用户的专注度等级这一步骤，其具体包括：

当n₁:n₂＞1:2，判断用户为专注；

当1:2≤n₁:n₂＜2:1，判断用户为一般专注；

当n₁:n₂≥2:1，判断用户为不专注；

如图3所示，一种基于人眼动作特征的专注度分级系统，包括：

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于人眼动作特征的专注度分级方法，其特征在于，包括以下步骤：

录制用户在观看网课时的视频，得到待测视频数据；

2.根据权利要求1所述一种基于人眼动作特征的专注度分级方法，其特征在于，所述根据待测视频数据提取用户的左眼视频数据、右眼视频数据、眨眼时长和眨眼频次，得到用户眼部动作特征这一步骤，其具体包括：

根据眼部特征点计算人眼横纵比值；

3.根据权利要求2所述一种基于人眼动作特征的专注度分级方法，其特征在于，所述人脸配准算法包括68个特征点，所述人眼横纵比值的计算公式如下：

4.根据权利要求3所述一种基于人眼动作特征的专注度分级方法，其特征在于，所述根据人眼横纵比值判断用户的眨眼动作，并计算得到用户视频中的眨眼时长和眨眼频次这一步骤，其具体包括：

计算用户视频所有帧的人眼横纵比值；

基于动态阈值方式设定人眼横纵比阈值；

5.根据权利要求4所述一种基于人眼动作特征的专注度分级方法，其特征在于，所述基于动态阈值方式设定人眼横纵比阈值这一步骤，其具体包括：

6.根据权利要求5所述一种基于人眼动作特征的专注度分级方法，其特征在于，所述将局部最小值与人眼横纵比阈值进行比较，判定眨眼动作，得到眨眼过程和眨眼次数这一步骤，其具体包括：

根据用户视频内眨眼过程的次数确定眨眼次数。

7.根据权利要求6所述一种基于人眼动作特征的专注度分级方法，其特征在于，所述分类网络包括左眼特征分支、右眼特征分支、眨眼频次分支、单次眨眼时长分支，所述左眼特征分支和右眼特征分支分别包括眼部特征提取和残差特征提取模块。

8.根据权利要求7所述一种基于人眼动作特征的专注度分级方法，其特征在于，所述预训练的分类网络的训练步骤包括：

将分类向量经过softmax，得到分类结果；

9.根据权利要求8所述一种基于人眼动作特征的专注度分级方法，其特征在于，所述根据用户专注状态的眨眼次数与用户非专注状态的眨眼次数的比值，判断用户的专注度等级这一步骤，其具体包括：

当n₁:n₂＞1:2，判断用户为专注；

当1:2≤n₁:n₂＜2:1，判断用户为一般专注；

当n₁:n₂≥2:1，判断用户为不专注；

所述n₁表示用户专注状态的眨眼次数，所述n₂表示用户非专注状态的眨眼次数。

10.一种基于人眼动作特征的专注度分级系统，其特征在于，包括：