CN115984968A

CN115984968A - 一种学生时空动作识别方法、装置、终端设备及介质

Info

Publication number: CN115984968A
Application number: CN202310031388.0A
Authority: CN
Inventors: 罗京; 胡超; 费洪晓; 陈黎; 梁锴; 余瑞实
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-04-18

Abstract

本申请适用于教学管理系统技术领域，提供了一种学生时空动作识别方法、装置、终端设备及介质，该方法包括：根据改进后的人脸识别方法和图像特征提取神经网络模型构建人脸特征提取模型；根据人体检测模型和时空特征提取神经网络模型构建时空动作识别模型；利用人脸检测模型和时空动作识别模型对待处理视频数据进行处理，得到动作管集合和人脸标注框集合；对动作管集合和人脸标注框集合进行空间交并，得到待识别动作集合；利用人脸特征提取模型提取每个人脸标注框的人脸特征数据；将目标学生的人脸特征数据与预处理人脸特征数据进行匹配，得到目标学生的身份信息以及动作信息。本申请能对学生的时空动作与学生身份进行匹配。

Description

一种学生时空动作识别方法、装置、终端设备及介质

技术领域

本申请属于教学管理系统技术领域，尤其涉及一种学生时空动作识别方法、装置、终端设备及介质。

背景技术

随着国家教育信息化规划的推进，越来越多的人工智能技术与智能边缘设备被运用于高质量信息化教学实践之中，在教学场景下已经产生了大量原始数据可供研究，这些数据是多模态的，包含了学生的各方面信息，通过使用人工智能技术对这些视频、音频、文本数据的挖掘分析可以获得目标任务所需信息。特别的，教室教学场景下学生观测视频数据具有大容量、获取便利等特点，其数据挖掘工作成为了当前计算机视觉与教育学领域交叉研究的热点。当前对于学生观测视频数据的研究工作主要集中于动作识别与人脸识别两个通用研究方向上，通过对课堂中学生的动作识别和人脸识别实现课堂考勤、教学质量验证等应用。

人脸识别方法通常包括人脸检测与人脸验证两个阶段，特别的，目前的对于课堂场景下的人脸验证方法大多在小规模下进行身份匹配，无法泛化到大规模学生身份验证的场景下。而目前的动作识别方法只关注对课堂动作的识别，识别到的动作未与学生具体身份对应，获取到的动作数据只能用于特定课堂中整体的教学评价，无法对特定学生的动作进行分析。

综上，目前学生时空动作识别方法无法将学生的时空动作与学生身份进行匹配。

发明内容

本申请实施例提供了一种学生时空动作识别方法、装置、终端设备及介质，可以解决学生时空动作识别方法无法对学生的时空动作与学生身份进行匹配的问题。

第一方面，本申请实施例提供了一种学生时空动作识别方法，包括：

根据改进后的人脸识别方法和图像特征提取神经网络模型构建人脸特征提取模型；

根据预先训练后的人体检测模型和时空特征提取神经网络模型构建时空动作识别模型；

利用预先训练后的人脸检测模型和时空动作识别模型对待处理视频数据进行处理，得到动作管集合和人脸标注框集合；动作管集合包括多个动作标注框集合；

对动作管集合和人脸标注框集合进行空间交并操作，得到待识别动作集合；待识别动作集合包括多个人脸标注框以及每个人脸标注框对应的动作标注框；

利用人脸特征提取模型提取待识别动作集合中每个人脸标注框的人脸特征数据；人脸特征数据包括多个人脸特征；

将目标学生的人脸特征数据与特征数据库中的预处理人脸特征数据进行匹配，得到目标学生的身份信息以及该目标学生的动作信息。

可选的，根据改进后的人脸识别模型和图像特征提取神经网络模型构建人脸特征提取模型，包括：

通过计算公式

得到改进的ArcFace损失函数L；其中，N表示每个训练批的大小，n表示类别的数量，m₁、m₂、m₃分别表示SphereFace的乘性角度边距惩罚、ArcFace的加性角度边距惩罚和CosFace的加性余弦边距惩罚，θ表示训练批样本特征向量和权重矩阵列向量的夹角，下标j表示权重矩阵的列数，y_i表示训练批第i个样本特征向量实际类别对应的列数，s表示训练所得超平面的半径；

将预先训练后的PyramidVision Transformer v2-B2-li神经网络模型作为图像特征提取神经网络模型，并利用改进的ArcFace损失函数L对Pyramid Vision Transformerv2-B2-li神经网络模型进行优化训练，得到人脸识别特征提取模型。

可选的，根据预先训练后的人体检测模型和时空特征提取神经网络模型构建时空动作识别模型，包括：

利用预先训练后的人体检测模型对原始视频数据进行检测，得到多个人体标注框；

将ResNet50作为SlowFast神经网络模型的主干网络，并利用SlowFast神经网络模型提取原始视频数据的时空特征和多个人体标注框中每个人体标注框的动作信息；

根据时空特征和动作信息构建时空动作识别模型。

可选的，对动作管集合和人脸标注框集合进行空间交并操作，包括：

分别将动作管集合A和人脸标注框集合F，与待处理视频数据进行时序对齐，得到含时间戳的动作管集合和含时间戳的人脸标注框集合；其中，A＝A₁,A₂,...,A_q，F＝F₁,F₂,...,F_m，q表示动作管的总数量，m表示人脸标注框的总数量；

对含时间戳的动作管集合进行双重裁切，得到视频帧集合；视频帧集合包括多个含时间戳的动作管；

针对视频帧集合中的每个动作标注框，通过计算公式

h_inter＝max(0,min(ay2,by2)-max(ay1,by1))

w_inter＝max(0,min(ax2,bx2)-max(ax1,bx1))

得到该动作标注框与相同时间戳下所有人脸标注框的交并比IoU；其中，动作标注框坐标为(ax1,ay1,ax2,ay2)，人脸标注框坐标为(bx1,by1,bx2,by2)，IoU＝IoU₁,IoU₂,...,IoU_g，g表示相同时间戳下该动作标注框对应的人脸标注框的总数量；

将交并比最高且与该动作标注框中心点几何距离最近的人脸标注框作为该动作标注框中动作的发起者，得到一组人脸动作数据；

根据所有动作标注框对应的多组人脸动作数据构建待识别动作集合。

可选的，对含时间戳的动作管集合进行双重裁切，得到视频帧集合，包括：

对含时间戳的动作管集合进行裁切，得到第一视频切片；

通过正态分布对第一视频切片进行区域划分，得到多个视频切片区域；

对多个视频切片区域随机抽取视频帧，得到视频帧集合。

可选的，将目标学生的人脸特征数据与特征数据库中的预处理人脸特征数据进行匹配，包括：

通过计算公式

得到目标学生人脸特征与特征数据库中预处理人脸特征的余弦相似度cosθ，其中，目标学生人脸特征为

ax_i表示目标学生人脸特征的第i个特征分量，特征数据库中预处理人脸特征为

bx_i表示特征数据库中预处理人脸特征的第i个特征分量，n表示学生人脸特征特征分量的总数；

若cosθ大于余弦相似度预设阈值，则确定目标学生人脸特征与该预处理人脸特征匹配，并将特征数据库中该预处理人脸特征对应的身份信息确定为目标学生的身份信息；

将待识别动作集合中目标学生人脸特征数据对应的动作标注框中的动作信息确定为该目标学生的动作信息。

可选的，在根据改进后的人脸识别模型和图像特征提取神经网络模型构建人脸特征提取模型后，本申请提供的学生时空动作识别方法还包括：

利用人脸特征提取模型提取所有学生的人脸特征数据，并根据所有学生的人脸特征数据构建特征数据库。

第二方面，本申请实施例提供了一种学生时空动作识别装置，包括：

人脸特征模块，用于根据改进后的人脸识别方法和图像特征提取神经网络模型构建人脸特征提取模型；

时空动作识别模块，用于根据预先训练后的人体检测模型和时空特征提取神经网络模型构建时空动作识别模型；

视频处理模块，用于利用预先训练后的人脸检测模型和时空动作识别模型对待处理视频数据进行处理，得到动作管集合和人脸标注框集合；动作管集合包括多个动作标注框集合；

空间交并模块，用于对动作管集合和人脸标注框集合进行空间交并操作，得到待识别动作集合；待识别动作集合包括多个人脸标注框以及每个人脸标注框对应的动作标注框；

人脸特征提取模块，用于利用人脸特征提取模型提取待识别动作集合中每个人脸标注框的人脸特征数据；人脸特征数据包括多个人脸特征；

人脸特征匹配模块，用于将目标学生的人脸特征数据与特征数据库中的预处理人脸特征数据进行匹配，得到目标学生的身份信息以及该目标学生的动作信息。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述的学生时空动作识别方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述的学生时空动作识别方法。

本申请的上述方案有如下的有益效果：

在本申请的一些实施例中，通过对动作管集合和人脸标注框集合进行空间交并操作，能够将动作管集合中学生的时空动作与人脸标注框相匹配；将目标学生的人脸特征数据与特征数据库中的预处理人脸特征数据进行匹配，得到目标学生的身份信息以及该目标学生的动作信息，从而使得学生的时空动作与学生的身份相匹配。

本申请的其它有益效果将在随后的具体实施方式部分予以详细说明。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的学生时空动作识别方法的流程图；

图2为本申请一实施例提供的学生时空动作识别装置的结构示意图；

图3为本申请一实施例提供的学生时空动作识别方法对待处理视频进行处理的流程图；

图4为本申请一实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

针对目前学生时空动作识别方法无法对学生的时空动作与学生身份进行匹配的问题，本申请提供了一种学生时空动作识别方法，通过对动作管集合和人脸标注框集合进行空间交并操作，能够将动作管集合中学生的时空动作与人脸标注框相匹配；将目标学生的人脸特征数据与特征数据库中的预处理人脸特征数据进行匹配，得到目标学生的身份信息以及该目标学生的动作信息，从而使得学生的时空动作与学生的身份相匹配。

如图1所示，本申请提供的学生时空动作识别方法包括以下步骤：

步骤11，根据改进后的人脸识别方法和图像特征提取神经网络模型构建人脸特征提取模型。

在构建上述人脸特征提取模型后，还需要利用该人脸特征提取模型提取所有学生的人脸特征数据，构建人脸特征数据库，以便后续对学生的身份进行匹配。

在本申请的一些实施例中，在对图像特征提取神经网络模型进行预训练时，对ArcFace(一种损失函数(用来度量模型的预测值f(x)与真实值Y的差异程度的运算函数，它是一个非负实值函数，通常使用L(Y,f(x))来表示，损失函数越小，模型的z准确性就越高))边距惩罚进行改进，融合添加SphereFace及CosFace两种边距惩罚模式(乘性角度边距惩罚和加性余弦边距惩罚)，增强了网络构建的特征空间，在ArcFace的基础上进一步优化了测地距离边距，对大规模特征提取工作的适配性更强。

在本申请的一些实施例中，使用Pyramid Vision Transformer v2-B2-li(PVT-v2-B2-li)作为人脸特征提取模型的主干网络(用于对图像进行特征提取的神经网络)用于处理不同大小的输入图像，与ResNet-50相比，PVT-v2-B2-li的优点是：在相近模型大小下PVT-v2-B2-li参数量更少，计算资源消耗更小，对图像分类的能力更强。

PVT-v2通过多个Transformer Encoder(Transformer神经网络中的编码器，可以将输入编码转化为机器可学习的向量，本申请所使用的Pyramid Vision Transformer v2-B2-li中编码器的结构由多个编码器层组成，每个编码器都包含一个线性空间缩减注意力层(Li-SRA，linear spatial reduction attention layer)与前馈层)堆叠完成对多尺寸特征的提取，并通过使用线性空间缩减注意力层完成计算简化。阶段i的Li-SRA可由如下公式描述：

其中，Concat(·)是注意力计算中的连接操作，

是线性投影的参数，C_i是阶段i特征通道的数量，

表示实数域，N_i是阶段i中多头注意力层的头数量，d_head是每个注意力头的维度，Q表示查询向量，K表示键向量，V表示值向量，分别由输入与对应矩阵相乘得到。SR_ap(·)是采用平均池化(AveragePooling，对局部接受域中的所有值求均值，在本申请中用来缩减编码器输出向量的大小以减少计算开销)间缩减入序列空间维度的操作，公式如下，

SR_ap(x)＝Norm(AvgPool(x,S_i)),

其中

表示输入序列，S_i表示阶段i中注意力层的化尺寸，AvgPool(x,S_i)表示对输入序列x进行尺寸为S_i的平均池化操作，Norm(·)表示层标准化(layernormalization，对输入特征进行层级标准化以降低网络层波动)操作。

步骤12，根据预先训练后的人体检测模型和时空特征提取神经网络模型构建时空动作识别模型。

上述时空动作识别(Spatio-temporal Action Detection)是指同时识别动作出现的时间范围和对应类别，并在空间范围中标记出动作发起人的空间位置。

步骤13，利用预先训练后的人脸检测模型和时空动作识别模型对待处理视频数据进行处理，得到动作管集合和人脸标注框集合。

上述人体检测、人脸检测模型本质上是一种目标检测模型，用于判断输入图像中物体出现位置与类别的模型，目前主要有两类：单阶段(One-Stage)和双阶段(Two-Stage)。单阶段模型直接通过网络提取特征，预测目标的分类与定位，以Yolo系列为典型代表；双阶段模型先进行候选区域生成，再通过神经网络预测目标的分类与定位，以Faster-RCNN为典型代表。上述动作管(Action Tube)表示一系列行为标注框(bounding box)依照时间顺序组织的有序集合。

步骤14，对动作管集合和人脸标注框集合进行空间交并操作，得到待识别动作集合。

对动作管集合和人脸标注框集合进行空间交并(Spatial Intersection)操作，是为了将动作管集合中学生的时空动作与人脸标注框相匹配。

步骤15，利用人脸特征提取模型提取待识别动作集合中每个人脸标注框的人脸特征数据。

步骤16，将目标学生的人脸特征数据与特征数据库中的预处理人脸特征数据进行匹配，得到目标学生的身份信息以及该目标学生的动作信息。

一个学生的人脸特征数据包括多个人脸特征向量(如：正脸特征向量和侧脸特征向量)，在此将目标学生的人脸特征数据与特征数据库中的预处理人脸特征数据进行匹配，首先匹配向量再匹配身份，能够提高身份识别的准确率。

可见，本申请通过对动作管集合和人脸标注框集合进行空间交并操作，能够将动作管集合中学生的时空动作与人脸标注框相匹配；将目标学生的人脸特征数据与特征数据库中的预处理人脸特征数据进行匹配，得到目标学生的身份信息以及该目标学生的动作信息，从而使得学生的时空动作与学生的身份相匹配。

需要说明的是，在执行本申请提供的学生时空动作识别方法之前，需要对原始视频数据进行预处理，以便得到学生时空动作识别方法中各类模型的训练数据，过程如下：

步骤a，数据采集：主要通过教室部署的摄像头收集课堂教学场景下的视频数据，对视频数据进行抽帧与视频切割分段处理，分别得到图片数据集与视频数据集。

具体的，为了确保采集过程中所采集视频数据的真实性与学生动作的自发性，可以通过在多个教室中进行数据采集以保证视频数据中环境的多样性，对尽可能多的教学科目的课堂教学进行采集，以确保训练样本的多样性。

对采集到的原始视频数据以教室与课堂教学科目的形式进行组织归类，通过抽取视频RGB帧的方式对每个视频进行处理得到图片数据，具体操作为按照课堂教学标准时长对视频进行分割得到视频单元，在每个视频单元内以10秒为间隔抽取RGB帧，将得到的图片数据组织为原始图片数据集；通过视频分割的方式对每个视频进行处理得到视频数据，具体操作为以视频实际时长为基准，在视频每八分之一处分割出时长为3秒的视频片段，将得到的视频片段组织为原始视频数据集。

步骤b，数据定义与标注：对数据集中出现的学生身份匿名化处理，并结合教学阶段对学生课堂动作进行定义，在图像数据集中使用标注工具对人脸部分进行标注，得到学生人脸数据集D_f，在视频数据集中用脚本处理为AVA格式(符合Atomic Visual Actions数据集的数据组织格式，其中对数据的标记包括人物标注框及其对应的动作类别，在视频数据中每秒取1帧作为关键帧进行标记)，标注课堂学生人体以及定义动作表中对应的时空性动作，得到学生人体数据集D_b和学生动作数据集D_a。

示例性的，在对视频数据进行标注前，将学生身份信息匿名化，对参与数据采集过程的学生的身份进行编号，同时对课堂教学场景下学生动作进行定义与分类，根据教学阶段的不同制定出相应的学生动作标签词汇表V_a，默认课堂教学场景为初等教育，学生动作标签词汇表包括认真听讲、讨论、举手、做笔记等。选取原始图片数据集中画面清晰的图片数据进行标注，使用图像标注工具对原始图片数据进行标注，标注的内容包括学生人脸、人脸关键点与人体，在标注过程中将学生人脸标注框与学生身份编号对应，最终得到组织好的学生人脸数据集D_f与学生人体数据集D_b。

学生人脸数据集D_f可以用作人脸检测模型的训练数据集，学生人体数据集D_b可以用作人体检测模型的训练数据集，学生动作数据集D_a可以用作时空动作识别模型的训练数据集。

以AVA格式对原始视频数据集进行处理，首先分别以每秒1帧与每秒30帧的方式对视频进行抽帧处理，再通过Faster-RCNN生成学生人体坐标并导入标注工具，人工对标注框进行修正，并根据制定的学生动作标签词汇表V_a分配各个标注框的动作标签，最终得到AVA格式的学生动作视频数据集D_a。

下面对步骤11(根据改进后的人脸识别方法和图像特征提取神经网络模型构建人脸特征提取模型)的具体过程做示例性说明。

步骤11.1，通过计算公式

得到改进的ArcFace损失函数L；其中，N表示每个训练批(batch)的大小，n表示类别的数量，m₁、m₂、m₃分别表示SphereFace的乘性角度边距惩罚、ArcFace的加性角度边距惩罚和CosFace的加性余弦边距惩罚，θ表示训练批样本特征向量和权重矩阵列向量的夹角，下标j表示权重矩阵的列数，y_i表示训练批第i个样本特征向量实际类别对应的列数，s表示训练所得超平面的半径。

步骤11.2，将预先训练后的PyramidVision Transformer v2-B2-li神经网络模型作为图像特征提取神经网络模型，并利用改进的ArcFace损失函数L对Pyramid VisionTransformer v2-B2-li神经网络模型进行优化训练，得到人脸识别特征提取模型。

下面对步骤12(根据预先训练后的人体检测模型和时空特征提取神经网络模型构建时空动作识别模型)的具体过程做示例性说明。

步骤12.1，利用预先训练后的人体检测模型对原始视频数据进行检测，得到多个人体标注框。

步骤12.2，将ResNet50作为SlowFast神经网络模型的主干网络，并利用SlowFast神经网络模型提取原始视频数据的时空特征和多个人体标注框中每个人体标注框的动作信息。

上述SlowFast神经网络模型是一种用于视频识别的神经网络模型。

步骤12.3，根据时空特征和动作信息构建时空动作识别模型。

下面对步骤14(对动作管集合和人脸标注框集合进行空间交并操作，得到待识别动作集合)中，对动作管集合和人脸标注框集合进行空间交并操作的具体过程做示例性说明。

步骤14.1，分别将动作管集合A和人脸标注框集合F，与待处理视频数据进行时序对齐，得到含时间戳的动作管集合和含时间戳的人脸标注框集合。

其中，A＝A₁,A₂,...,A_q，F＝F₁,F₂,...,F_m，q表示动作管的总数量，m表示人脸标注框的总数量。

步骤14.2，对含时间戳的动作管集合进行双重裁切，得到视频帧集合；视频帧集合包括多个含时间戳的动作管。

值得一提的是，对动作管进行裁切可以将处理对象精简化，减少计算量和复杂度，提高识别的精确性。

步骤14.2具体包括如下步骤：

步骤14.2.1，对含时间戳的动作管集合进行裁切，得到第一视频切片。

具体的，第一次裁切为动态裁切(Motion Clipping)，对原视频中出现动作管的片段裁切得到粗糙视频切片

步骤14.2.2，通过正态分布对第一视频切片进行区域划分，得到多个视频切片区域。

具体的，第二次裁切为随机正态裁切(Random Normal Clipping)，通过正态分布对粗糙视频切片进行区域划分。

步骤14.2.3，对多个视频切片区域随机抽取视频帧，得到视频帧集合。

具体的，在选中的区域内随机选取视频帧，得到的视频帧根据时间戳组织归类得到视频帧集合。

步骤14.3，针对视频帧集合中的每个动作标注框，通过计算公式

h_inter＝max(0,min(ay2,by2)-max(ay1,by1))

w_inter＝max(0,min(ax2,bx2)-max(ax1,bx1))

得到该动作标注框与相同时间戳下所有人脸标注框的交并比(IoU，IntersectionoverUnion)IoU；其中，动作标注框坐标为(ax1,ay1,ax2,ay2)，人脸标注框坐标为(bx1,by1,bx2,by2)，IoU＝IoU₁,IoU₂,...,IoU_g，g表示相同时间戳下该动作标注框对应的人脸标注框的总数量。

步骤14.4，将交并比最高且与该动作标注框中心点几何距离最近的人脸标注框作为该动作标注框中动作的发起者，得到一组人脸动作数据。

步骤14.5，根据所有动作标注框对应的多组人脸动作数据构建待识别动作集合。

下面对步骤16(将目标学生的人脸特征数据与特征数据库中的预处理人脸特征数据进行匹配，得到目标学生的身份信息以及该目标学生的动作信息)中，将目标学生的人脸特征数据与特征数据库中的预处理人脸特征数据进行匹配的具体过程做示例性说明。

步骤161，通过计算公式

bx_i表示特征数据库中预处理人脸特征的第i个特征分量，n表示学生人脸特征的特征分量总数。

步骤16.2，若cosθ大于余弦相似度预设阈值，则确定目标学生人脸特征与该预处理人脸特征匹配，并将特征数据库中该预处理人脸特征对应的身份信息确定为目标学生的身份信息。

示例性的，设置余弦相似度预设阈值为α，当cosθ>α时，确定人脸特征匹配，进而实现身份匹配，此处需注意，多个预处理人脸特征可指向同一学生身份；否则确定人脸特征不匹配，继续计算与特征数据库中其他预处理人脸特征的余弦相似度。

步骤16.3，将待识别动作集合中目标学生人脸特征数据对应的动作标注框中的动作信息确定为该目标学生的动作信息。

下面结合具体实施例对本申请提供的学生时空动作识别方法对待处理视频进行处理的过程做示例性说明。

如图3所示，在本申请的一实施例中，先利用预先训练后的人脸检测模型和时空动作识别模型对待处理视频数据进行处理，得到动作管集合和人脸标注框集合。再分别将动作管集合A和人脸标注框集合F，与待处理视频数据进行时序对齐，得到含时间戳的动作管集合和含时间戳的人脸标注框集合。然后对含时间戳的动作管集合进行双重裁切，得到视频帧集合。然后对动作管集合和人脸标注框集合进行空间交并操作，得到待识别动作集合。之后利用人脸特征提取模型提取待识别动作集合中每个人脸标注框的人脸特征数据。最后将目标学生的人脸特征数据与特征数据库中的预处理人脸特征数据进行匹配，得到目标学生的身份信息以及该目标学生的动作信息。

本申请提供的学生时空动作识别方法有如下优点：

1、通过采用前沿的技术模型完成技术迭代与表现提升，受迁移学习启发，在开源有难度的数据集上对模型进行预训练，再在实际数据集上训练，得到泛化能力好、检测速度快、检测精度高的可用模型。

2、使用基于改进ArcFace的人脸验证方法，显著提升学习到的面部表示的类内紧凑性和类间差异性，结合PVT-v2-b2-li可得到能支持百万级身份/实体识别的大规模身份验证模型。

3、区别于传统帧级动作检测，本申请提供的学生时空动作识别方法联合学生人体检测模型与时空动作识别模型实现课堂教学场景下对学生的可靠时空动作检测。

4、区别于以往身份与动作数据分开收集利用的方法，本申请提供的学生时空动作识别方法可同时识别并匹配学生的身份与动作，实现对学生个体的信息收集，所获信息存储于数据库中，可为学生个性化分析与教学方案制定等后续应用提供数据支撑。

下面结合具体实施例对本申请提供的学生时空动作识别装置进行示例性的说明。

如图2所示，本申请的实施例提供了一种学生时空动作识别装置，该学生时空动作识别装置200包括：

人脸特征模块201，用于根据改进后的人脸识别方法和图像特征提取神经网络模型构建人脸特征提取模型。

时空动作识别模块202，用于根据预先训练后的人体检测模型和时空特征提取神经网络模型构建时空动作识别模型；

视频处理模块203，用于利用预先训练后的人脸检测模型和时空动作识别模型对待处理视频数据进行处理，得到动作管集合和人脸标注框集合；动作管集合包括多个动作标注框集合。

空间交并模块204，用于对动作管集合和人脸标注框集合进行空间交并操作，得到待识别动作集合；待识别动作集合包括多个人脸标注框以及每个人脸标注框对应的动作标注框。

人脸特征提取模块205，用于利用人脸特征提取模型提取待识别动作集合中每个人脸标注框的人脸特征数据；人脸特征数据包括多个人脸特征。

人脸特征匹配模块206，用于将目标学生的人脸特征数据与特征数据库中的预处理人脸特征数据进行匹配，得到目标学生的身份信息以及该目标学生的动作信息。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

如图4所示，本申请的实施例提供了一种终端设备，该实施例的终端设备D10包括：至少一个处理器D100(图4中仅示出一个处理器)、存储器D101以及存储在所述存储器D101中并可在所述至少一个处理器D100上运行的计算机程序D102，所述处理器D100执行所述计算机程序D102时实现上述任意各个方法实施例中的步骤。

具体的，所述处理器D100执行所述计算机程序D102时，通过根据改进后的人脸识别方法和图像特征提取神经网络模型构建人脸特征提取模型；根据人体检测模型和时空特征提取神经网络模型构建时空动作识别模型；利用人脸检测模型和时空动作识别模型对待处理视频数据进行处理，得到动作管集合和人脸标注框集合；对动作管集合和人脸标注框集合进行空间交并，得到待识别动作集合；利用人脸特征提取模型提取每个人脸标注框的人脸特征数据；将目标学生的人脸特征数据与预处理人脸特征数据进行匹配，得到目标学生的身份信息以及动作信息，从而对学生的时空动作与学生身份进行匹配。

所称处理器D100可以是中央处理单元(CPU，Central Processing Unit)，该处理器D100还可以是其他通用处理器、数字信号处理器(DSP，Digital Signal Processor)、专用集成电路(ASIC，Application Specific Integrated Circuit)、现成可编程门阵列(FPGA，Field-Programmable GateArray)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器D101在一些实施例中可以是所述终端设备D10的内部存储单元，例如终端设备D10的硬盘或内存。所述存储器D101在另一些实施例中也可以是所述终端设备D10的外部存储设备，例如所述终端设备D10上配备的插接式硬盘，智能存储卡(SMC，SmartMedia Card)，安全数字(SD，Secure Digital)卡，闪存卡(Flash Card)等。进一步地，所述存储器D101还可以既包括所述终端设备D10的内部存储单元也包括外部存储设备。所述存储器D101用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器D101还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到学生时空动作识别装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种学生时空动作识别方法，其特征在于，包括：

利用预先训练后的人脸检测模型和所述时空动作识别模型对待处理视频数据进行处理，得到动作管集合和人脸标注框集合；所述动作管集合包括多个动作标注框集合；

对所述动作管集合和所述人脸标注框集合进行空间交并操作，得到待识别动作集合；所述待识别动作集合包括多个人脸标注框以及每个人脸标注框对应的动作标注框；

利用所述人脸特征提取模型提取所述待识别动作集合中每个人脸标注框的人脸特征数据；所述人脸特征数据包括多个人脸特征；

2.根据权利要求1所述的识别方法，其特征在于，所述根据改进后的人脸识别方法和图像特征提取神经网络模型构建人脸特征提取模型，包括：

通过计算公式

将预先训练后的Pyramid Vision Transformer v2-B2-li神经网络模型作为所述图像特征提取神经网络模型，并利用所述改进的ArcFace损失函数L对Pyramid VisionTransformer v2-B2-li神经网络模型进行优化训练，得到所述人脸识别特征提取模型。

3.根据权利要求1所述的识别方法，其特征在于，所述根据预先训练后的人体检测模型和时空特征提取神经网络模型构建时空动作识别模型，包括：

利用所述预先训练后的人体检测模型对原始视频数据进行检测，得到多个人体标注框；

将ResNet50作为SlowFast神经网络模型的主干网络，并利用SlowFast神经网络模型提取所述原始视频数据的时空特征和所述多个人体标注框中每个人体标注框的动作信息；

根据所述时空特征和所述动作信息构建所述时空动作识别模型。

4.根据权利要求1所述的识别方法，其特征在于，所述对所述动作管集合和所述人脸标注框集合进行空间交并操作，包括：

分别将所述动作管集合A和所述人脸标注框集合F，与所述待处理视频数据进行时序对齐，得到含时间戳的动作管集合和含时间戳的人脸标注框集合；其中，A＝A₁,A₂,...,A_q，F＝F₁,F₂,...,F_m，q表示动作管的总数量，m表示人脸标注框的总数量；

对所述含时间戳的动作管集合进行双重裁切，得到视频帧集合；所述视频帧集合包括多个含时间戳的动作管；

针对所述视频帧集合中的每个动作标注框，通过计算公式

i_inter＝h_inter*w_inter

h_inter＝max(0,min(ay2,by2)-max(ay1,by1))

w_inter＝max(0,min(ax2,bx2)-max(ax1,bx1))

根据所有动作标注框对应的多组人脸动作数据构建所述待识别动作集合。

5.根据权利要求4所述的识别方法，其特征在于，所述对所述含时间戳的动作管集合进行双重裁切，得到视频帧集合，包括：

对所述所述含时间戳的动作管集合进行裁切，得到第一视频切片；

通过正态分布对所述第一视频切片进行区域划分，得到多个视频切片区域；

对所述多个视频切片区域随机抽取视频帧，得到所述视频帧集合。

6.根据权利要求1所述的识别方法，其特征在于，所述将目标学生的人脸特征数据与特征数据库中的预处理人脸特征数据进行匹配，包括：

通过计算公式

得到目标学生人脸特征与特征数据库中预处理人脸特征的余弦相似度cosθ，其中，所述目标学生人脸特征为

ax_i表示目标学生的人脸特征的第i个特征分量，所述特征数据库中预处理人脸特征为

bx_i表示所述特征数据库中预处理人脸特征的第i个特征分量，n表示所述学生人脸特征的特征分量总数；

若cosθ大于余弦相似度预设阈值，则确定所述目标学生人脸特征与该预处理人脸特征匹配，并将所述特征数据库中该预处理人脸特征对应的身份信息确定为目标学生的身份信息；

将所述待识别动作集合中目标学生人脸特征数据对应的动作标注框中的动作信息确定为该目标学生的动作信息。

7.根据权利要求1所述的识别方法，其特征在于，在所述根据改进后的人脸识别方法和图像特征提取神经网络模型构建人脸特征提取模型后，所述识别方法还包括：

利用所述人脸特征提取模型提取所有学生的人脸特征数据，并根据所有学生的人脸特征数据构建特征数据库。

8.一种学生时空动作识别装置，其特征在于，包括：

视频处理模块，用于利用预先训练后的人脸检测模型和所述时空动作识别模型对待处理视频数据进行处理，得到动作管集合和人脸标注框集合；所述动作管集合包括多个动作标注框集合；

空间交并模块，用于对所述动作管集合和所述人脸标注框集合进行空间交并操作，得到待识别动作集合；所述待识别动作集合包括多个人脸标注框以及每个人脸标注框对应的动作标注框；

人脸特征提取模块，用于利用所述人脸特征提取模型提取所述待识别动作集合中每个人脸标注框的人脸特征数据；所述人脸特征数据包括多个人脸特征；

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的学生时空动作识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的学生时空动作识别方法。