CN110781843B

CN110781843B - 课堂行为检测方法及电子设备

Info

Publication number: CN110781843B
Application number: CN201911039534.4A
Authority: CN
Inventors: 施智平; 温兴森; 孙众; 韩旭; 关永; 张永祥; 姜那
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2022-11-04
Anticipated expiration: 2039-10-29
Also published as: CN110781843A

Abstract

本公开实施例公开了一种课堂行为检测方法及电子设备。该方法首先对待检测视频进行关键帧的提取，形成视频关键帧序列，其可以去掉视频中的冗余信息，减少网络的运算量从而大大提高预测速度。然后从视频中提取出至少一个教师和/或学生的人体骨骼关键点序列，同时结合师生人脸识别技术，再与人体骨骼关键点序列进行一一匹配，确定人体骨骼关键点序列对应的师生身份信息。最后将人体骨骼关键点序列以及对应的视频关键帧序列输入至预先训练好的双流神经网络模型，获得所述教师和/或学生的课堂行为类别。

Description

课堂行为检测方法及电子设备

技术领域

本公开涉及计算机技术领域，具体涉及一种基于骨骼关键点双流卷积神经网络的课堂行为检测方法及电子设备。

背景技术

在人工智能的发展下，智慧教育的概念应运而生，同时产生了对课堂教学视频分析的需求。目前对行为分析相关研究，行为识别在视频监控、辅助医疗、虚拟现实和人机智能交互等领域有着广泛应用，从而成为计算机视觉领域的研究热点。动作识别技术是指通过一些方法使计算机对视频或者图像序列中的运动行为，提取具有分辨能力的特征进行识别分析。尽管目前已经提出了许多行为识别的方法，但是这个问题依然具有挑战性，特别实在课堂教学场中人数众多的场景。行为识别的主要难点是设计合适模型，使其不仅能从背景中检测出目标和行为，而且能准确识变化多样的行为，比如部分被遮挡的动作和同一动作在不同的环境下发生时导致的变化等。

发明内容

本公开实施例提供一种课堂行为检测方法及电子设备。

第一方面，本公开实施例中提供了一种课堂行为检测方法，该方法包括：

对待检测视频提取关键帧并形成视频关键帧序列；

从所述视频关键帧序列提取出待检测视频中至少一个教师和/或学生的人体骨骼关键点序列；

将所述人体骨骼关键点序列以及对应的视频关键帧序列输入至预先训练好的人工智能模型，获得所述教师和/或学生的课堂行为类别。

其中，从所述对待检测视频提取关键帧并形成视频关键帧序列，包括：

计算所述待检测视频中相邻视频帧之间的第一相似度；

在所述第一相似度小于或等于第一预设阈值的连续视频帧的数量大于第二预设阈值，或者所述第一相似度大于所述第一预设阈值时，将所述相邻视频帧中的第一帧选取为关键帧，并从所述后一帧的下一视频帧开始重新选取所述关键帧；

在所述第一相似度小于或等于第一预设阈值的连续视频帧的数量小于第二预设阈值时，从所述连续视频帧中选择第一帧作为一个关键帧。

其中，从所述视频关键帧序列提取出待检测视频中至少一个教师和/或学生的人体骨骼关键点序列，包括：

从所述的视频关键帧序列中依次通过人体姿态估计算法预测出所述关键帧中的人体骨骼关键点信息；

从所述人体骨骼关键点信息按照时间顺序形成人体骨骼关键点序列。

针对所述视频关键帧序列中的关键帧，提取人体骨骼关键点，以及识别所述教师或者学生的人脸图像；

针对同一所述关键帧，将所述教师和所述学生的人脸图像与人体骨骼关键点进行匹配，以确定所述教师和所述学生分别对应的所述人体骨骼关键点序列。

其中，将所述教师和所述学生的人脸图像与人体骨骼关键点信息进行匹配，包括：

在所述人脸图像与所述人体骨骼关键点中位于人体头部的所有人体骨骼关键点重合时，确定所述人脸图像与所述人体骨骼关键点相匹配。

其中，从所述视频关键帧序列提取出至少一个教师和/或学生的人体骨骼关键点序列，包括：

针对所述视频关键帧序列中任意一个关键帧，识别所述教师和/或学生的人脸图像；

针对所述视频关键帧序列中的每一关键帧，提取人体骨骼关键点；

根据所述视频关键帧序列中相邻关键帧中所述人体骨骼关键点之间的相似度确定属于同一人体的人体骨骼关键点序列；

将所述教师和所述学生的人脸图像与所述人体骨骼关键点序列进行匹配，以确定所述教师和所述学生分别对应的所述人体骨骼关键点序列。

其中，根据所述视频关键帧序列中相邻关键帧中所述人体骨骼关键点之间的相似度确定属于同一人体的人体骨骼关键点序列，包括：

计算相邻两关键帧中同一人体位置处的两个人体骨骼关键点之间的欧式距离；

在所述欧式距离小于或等于第三预设阈值时，确定所述两个人体骨骼关键点属于同一人体。

其中，所述人工智能模型采用双流神经网络模型。

其中，将所述人体骨骼关键点序列以及所述对应的视频关键帧序列输入至预先训练好的人工智能模型，获得所述教师和学生的课堂行为类别，包括：

将所述视频关键帧序列输入至所述双流神经网络模型中的空间流深度卷积神经网络中，获得所述视频帧序列中的空间行为特征；

将所述人体骨骼关键点序列输入至时间流深度卷积神经网络中，获得所述视频帧序列中的时间行为特征；

将所述空间行为特征和时间行为特征进行融合得到所述待检测视频中所述教师和学生的行为类别。

第二方面，本公开实施例提供了一种电子设备，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行上述课堂行为检测方法。

本公开实施例提供的技术方案可以包括以下有益效果：

本公开实施例通过利用人工智能的方法，分析课堂教学视频的师生行为信息。通过提取师生的骨骼关键点信息并跟踪，采用基于骨骼关键点双流神经网络分析出师生的课堂行为。本公开实施例还结合人脸识别技术确认师生身份信息，可以记录每个人的长期课堂行为数据。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开实施方式的课堂行为检测方法的流程图；

图2示出根据本公开实施方式从对待检测视频提取关键帧并形成视频关键帧序列的流程图；

图3示出根据本公开实施方式从待检测视频中提取形成视频关键帧序列的示意图；

图4示出根据本公开实施方式从视频关键帧序列中识别出教师和学生的人体骨骼关键点序列的流程图；

图5示出根据本公开实施方式的人体骨骼关键点的结构示意图；

图6示出根据本公开实施方式从视频关键帧中提取教师和学生人体骨骼关键点的效果示意图；

图7出根据本公开实施方式获得教师和学生的课堂行为类别的神经网络的流程图；

图8示出根据本公开实施方式中基于骨骼关键点的双流神经网络结构示意图；

图9是适于用来实现根据本公开一实施方式的课堂行为检测方法的电子设备的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出根据本公开实施方式的课堂行为检测方法的流程图，所述课堂行为检测方法包括以下步骤：

在步骤S101中，对待检测视频提取关键帧并形成视频关键帧序列；

在步骤S102中，从所述视频关键帧序列提取出待检测视频中至少一个教师和/或学生的人体骨骼关键点序列；

在步骤S103中，将所述人体骨骼关键点序列以及所述待检测视频输入至预先训练好的人工智能模型，获得所述教师和学生的课堂行为类别。

本实施例中，待检测视频可以是通过图像传感器获取的课堂教学视频。待检测视频可以包括多个连续的视频帧，每个视频帧为一幅图像。

待检测视频帧中可以包括教师和/或学生等。由于课堂教学视频中，除了教师之外，可能会有多个学生，因此可以通过人体姿态估计算法从视频关键帧中提取出教师或每个学生的人体骨骼关键点序列。

视频关键帧中所出现的每个人体均可以对应一个人体骨骼关键点序列，而每个人体骨骼关键点序列可以包括1-n组人体骨骼关键点，且每组人体骨骼关键点按照待检测视频中各个视频帧的时间顺序排列。其中，每组人体骨骼关键点可以是一个人体上可检测的部分或者所有人体骨骼关键点，其数量可以是12个有效关键点或者25个有效关键点等。例如其中人体画面只包括上半身，则检查出来就包含12个上半身的关键点，如果画面包含全身，则可以包含25个全身关键点。其中，n大于等于1，且小于等于待检测视频中视频帧的数量；可以理解的是，并非每个人体都会出现在待检测视频中的每一个视频帧中，对于未出现在某一视频帧中的某个人体，其在该视频帧中的人体骨骼关键点可以为空；此外，可以不针对待检测视频帧中的所有视频帧提取人体骨骼关键点，而是针对其中一部分视频帧提取骨骼关键点，例如仅针对待检测视频中的关键帧提取人体骨骼关键点等。

人工智能模型可以采用神经网络等，可以预先训练好。人工智能模型的输入为从视频关键帧中检测出来的人体骨骼关键点序列以及待检测视频，而输出为该待检测视频中所出现的教师和/或学生的行为类别，例如，教师在讲台讲授、教师在黑板书写、教师在学生区域讲授、学生举手、学生起立、学生讲话、学生上讲台、学生在座位写字、学生在黑板上写字等。教师和/或学生的行为类别可以根据实际情况设定，在此不做限制。

本实施针对具有代表性的关键帧进行识别，能够减少识别工作量，加快识别效率。计算所述待检测视频中相邻视频帧之间的第一相似度；根据相邻帧之间的所述的相似度确定关键帧的候选；按照时间顺序，重新排列成视频关键帧序列；可以从待检测视频中提取出视频关键帧序列，视频关键帧序列包括按待检测视频中的时间顺序所排序的多个关键帧，每个关键帧可以是待检测视频帧中具有代表性的视频帧。

在本实施例的一个可选实现方式中，如图2所示，所述步骤S101，即从对待检测视频提取关键帧并形成视频关键帧序列，进一步包括以下步骤：

在步骤S201中，计算所述待检测视频中相邻视频帧之间的第一相似度；

在步骤S202中，根据相邻帧之间的所述的相似度确定关键帧的候选；

在步骤S203中，按照时间顺序，重新排列成视频关键帧序列；

该可选的实现方式中，如图3所示，可以从待检测视频中提取出视频关键帧序列，视频关键帧序列包括按待检测视频中的时间顺序所排序的多个关键帧，每个关键帧可以是待检测视频帧中具有代表性的视频帧。在提取出视频关键帧序列之后，可以针对视频关键帧序列识别出教师和/或学生的人体骨骼关键点序列。这种方式下，可以仅针对具有代表性的关键帧进行识别，能够减少识别工作量，加快识别效率。

该可选的实现方式中，根据相邻帧之间的所述的相似度确定关键帧的候选，进一步包括以下步骤：

该可选的实现方式中，针对待检测视频帧，可以通过相似度选取关键帧。对于连续多帧的相似度较大，例如相似度大于第一预设阈值时，可以从这些相似的多个连续帧中选取其中一个作为关键帧，而对于这类的连续帧数量过多时，可以进行分组，每组的数量不超过第二预设阈值，并针对每组选取其中一个作为关键帧。而对于相似度较小的两相邻连续帧，例如相似度小于第一预设阈值时，可以把后一帧作为关键帧，并从该后一帧从下一帧开始重新按照上述规则选取关键帧。

在一些实施例中，相邻两关键帧之间的相似度可以利用颜色直方图来计算，计算公式如下：

其中H_t(j),H_t+1(j)分别是前一关键帧t和后一关键帧t+1的直方图留在灰度级j上的值，n是灰度级的数量，D(t,t+1)为帧t和帧t+1之间相似度距离。

在本实施例的一个可选实现方式中，如图4所示，所述步骤S102，从所述视频关键帧序列中识别出所述教师和所述学生的人体骨骼关键点序列的步骤，进一步包括以下步骤：

在步骤S301中，针对所述视频关键帧序列中的关键帧，根据人体姿态估计算法提取人体骨骼关键点，人体骨骼关键点结构参考图5，课堂的师生人体骨骼关键点提取效果图参考图6；

在步骤S302中，针对所述视频关键帧序列中任意一个关键帧，识别所述教师和学生的人脸图像，赋予人体骨骼关键点身份信息；

在步骤S303中，根据所述视频关键帧序列中相邻关键帧中所述人体骨骼关键点之间的相似度确定属于同一人体的人体骨骼关键点序列；

在步骤S304中，最终可以到每一个教师或者学生的骨骼关键点序列，同时每一个序列都被赋予了身份信息。

在本实施例的一个可选实现方式中，将所述教师和所述学生的人脸图像与所述人体骨骼关键点进行匹配的步骤，进一步包括以下步骤：

在所述人脸图像与所述人体骨骼关键点中位于人体头部的所有人体骨骼关键点重合时，确定所述人脸图像与所述人体骨骼关键点相匹配。在匹配人脸图像与人体骨骼关键点时，由于人体骨骼关键点中包括人体头部的关键点，例如人体五官的骨骼关键点，因此可以通过判断人脸图像是否与人体骨骼关键点中位于人体头部的所有骨骼关键点重合来确定两者之间是否匹配。

该可选的实现方式中，识别出来的人脸图像可以是矩形图像，在该矩形图像能够绝大部分面积覆盖住一个人体对应的人体骨骼关键点中位于头部的所有人体骨骼关键点时，则可以认为两者重合，也即该人脸图像与该人体的人体骨骼关键点相匹配。

该可选的实现方式中，针对视频关键帧序列中的每一关键帧，提取人体骨骼关键点序列，并且通过关键帧在待检测视频帧中的时间顺序将所提取的属于同一个人体的人体骨骼关键点进行排列，得到每一人体对应的人体骨骼关键点序列。需要说明的是，对于相邻两关键帧，可以通过在相邻两关键帧中同一个人体位置处的相同标号的两骨骼关键点之间相似度来确定这两个骨骼关键点是否属于同一个人体。通过这种方式，可以跟踪视频关键帧序列中同一个人体在不同关键帧中的人体骨骼关键点，进而最终得到每个人物对应的人体骨骼关键点序列。

在获得人体骨骼关键点序列之后，可以通过匹配上述识别出的人脸图像和该人脸图像所在关键帧中提取出来的人体骨骼关键点，进而可以确定每个人物对应的人体骨骼关键点序列对应的人物的身份信息。

在本实施例的一个可选实现方式中，所述根据所述视频关键帧序列中相邻关键帧中所述人体骨骼关键点之间的相似度确定属于同一个人体的人体骨骼关键点序列的步骤，进一步包括以下步骤：

计算相邻关键帧中位置相近有可能属于同一个人的两个人体骨骼关键点之间的欧式距离；

人体骨骼关键点为25个相对于关键帧图像的左上角为原点的坐标对，可以用(x,y)进行表示，其中部分遮挡或者不全部分x和y的值可为0，以相邻两组的人体骨骼关键的序列的欧式计算公式如下：

其中(x1_i,y1_i)表示第一组人的骨骼关键点信息，(x2_i,y2_i)表示第二组人体骨骼关键点信息，计算出来的欧式距离用Distance表示，值越小表示越相似。

该可选的实现方式中，针对相邻关键帧，确定两个人体骨骼关键点的相似度时可以通过计算两者的欧式距离，在欧式距离小于或等于第三预设阈值时可以认为两者相似，否则不相似。第三预设阈值可以根据经验等实际情况设定，在此不做限制。

在本实施例的一个可选实现方式中，人工智能模型可以采用基于骨骼关键点的双流神经网络模型。

该可选实现方式中，如图7所示，所述步骤S103，即将所述人体骨骼关键点序列以及所述待检测视频输入至预先训练好的人工智能模型，获得所述教师和学生的课堂行为类别的步骤，进一步包括以下步骤：

在步骤S401中，将所述视频关键帧序列输入至所述双流神经网络模型中的空间流深度卷积神经网络中，获得所述视频帧序列中的空间行为特征；

在步骤S402中，将所述人体骨骼关键点序列输入至所述双流神经网络模型中的时间流深度卷积神经网络中，获得所述视频帧序列中的时间行为特征；

在步骤S403中，将所述空间行为特征和时间行为特征进行融合得到所述待检测视频中所述教师和学生的行为类别。

该可选的实现方式中，双流卷积神经网络提取特征部分均可以采用卷积神经结构的网络，网络的输入尺寸为800*800大小，神经网络的结构图如图8所示，如果了为了进步一步提高精度，可以选用更大的网络结构，但是需要计算更长的时间同时需要配置更好的GPU运算设备。

该可选的实现方式中，所述的特征融合通过深度神经网络中的若干个全连接层进行实现，最后通过全连接层的最后一层的预测概率值大小得出行为类别。

本公开实施方式还提供了一种电子设备，如图9所示，包括至少一个处理器901；以及与至少一个处理器901通信连接的存储器902；其中，存储器902存储有可被至少一个处理器901执行的指令，指令被至少一个处理器901执行以实现：

对待检测视频提取关键帧并形成视频关键帧序列；

计算所述待检测视频中相邻视频帧之间的第一相似度；

其中，所述人工智能模型采用双流神经网络模型。

具体地，处理器901、存储器902可以通过总线或者其他方式连接，图9中以通过总线连接为例。存储器902作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器901通过运行存储在存储器902中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现本公开实施例中的上述方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储航运网络运输的历史数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中，电子设备可选地包括通信组件903，存储器902可选地包括相对于处理器901远程设置的存储器，这些远程存储器可以通过通信组件903连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器902中，当被一个或者多个处理器901执行时，执行本公开实施例中的上述方法。

上述产品可执行本公开实施方式所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施方式中详尽描述的技术细节，可参见本公开实施方式所提供的方法。

附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种课堂行为检测方法，其特征在于，包括：

对待检测视频提取关键帧并形成视频关键帧序列；

从所述视频关键帧序列提取出待检测视频中至少一个教师和/或学生的人体骨骼关键点序列，并通过人脸识别赋予所述人体骨骼关键点教师和/或学生的身份信息；

将所述人体骨骼关键点序列以及对应的视频关键帧序列输入至预先训练好的人工智能模型，获得所述教师和/或学生的课堂行为类别；所述人工智能模型采用双流神经网络模型；所述视频关键帧序列作为所述双流神经网络模型中空间流深度卷积神经网络的输入得到所述视频关键帧序列中的空间行为特征，所述人体骨骼关键点序列作为所述双流神经网络模型中时间流深度卷积神经网络的输入得到所述视频关键帧序列中的时间行为特征，所述空间行为特征和时间行为特征进行融合后得到所述待检测视频中所述教师和/或学生的课堂行为类别；

计算所述待检测视频中相邻视频帧之间的第一相似度；

在所述第一相似度小于或等于第一预设阈值的连续视频帧的数量大于第二预设阈值，或者所述第一相似度大于所述第一预设阈值时，将所述相邻视频帧中的第一帧选取为关键帧，并从后一帧的下一视频帧开始重新选取所述关键帧；

2.根据权利要求1所述的方法，其特征在于，从所述视频关键帧序列提取出待检测视频中至少一个教师和/或学生的人体骨骼关键点序列，包括：

3.根据权利要求1或2所述的方法，其特征在于，从所述视频关键帧序列提取出待检测视频中至少一个教师和/或学生的人体骨骼关键点序列，包括：

4.根据权利要求3所述的方法，其特征在于，将所述教师和所述学生的人脸图像与人体骨骼关键点信息进行匹配，包括：

5.根据权利要求1或2所述的方法，其特征在于，从所述视频关键帧序列提取出至少一个教师和/或学生的人体骨骼关键点序列，包括：

6.根据权利要求5所述的方法，其特征在于，根据所述视频关键帧序列中相邻关键帧中所述人体骨骼关键点之间的相似度确定属于同一人体的人体骨骼关键点序列，包括：

7.一种电子设备，其特征在于，包括存储器和处理器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现以下权利要求1-6所述的方法。