CN110781843B - 课堂行为检测方法及电子设备 - Google Patents

课堂行为检测方法及电子设备 Download PDF

Info

Publication number
CN110781843B
CN110781843B CN201911039534.4A CN201911039534A CN110781843B CN 110781843 B CN110781843 B CN 110781843B CN 201911039534 A CN201911039534 A CN 201911039534A CN 110781843 B CN110781843 B CN 110781843B
Authority
CN
China
Prior art keywords
video
key
sequence
human
human skeleton
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911039534.4A
Other languages
English (en)
Other versions
CN110781843A (zh
Inventor
施智平
温兴森
孙众
韩旭
关永
张永祥
姜那
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Capital Normal University
Original Assignee
Capital Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Capital Normal University filed Critical Capital Normal University
Priority to CN201911039534.4A priority Critical patent/CN110781843B/zh
Publication of CN110781843A publication Critical patent/CN110781843A/zh
Application granted granted Critical
Publication of CN110781843B publication Critical patent/CN110781843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)

Abstract

本公开实施例公开了一种课堂行为检测方法及电子设备。该方法首先对待检测视频进行关键帧的提取,形成视频关键帧序列,其可以去掉视频中的冗余信息,减少网络的运算量从而大大提高预测速度。然后从视频中提取出至少一个教师和/或学生的人体骨骼关键点序列,同时结合师生人脸识别技术,再与人体骨骼关键点序列进行一一匹配,确定人体骨骼关键点序列对应的师生身份信息。最后将人体骨骼关键点序列以及对应的视频关键帧序列输入至预先训练好的双流神经网络模型,获得所述教师和/或学生的课堂行为类别。

Description

课堂行为检测方法及电子设备
技术领域
本公开涉及计算机技术领域,具体涉及一种基于骨骼关键点双流卷积神经网络的课堂行为检测方法及电子设备。
背景技术
在人工智能的发展下,智慧教育的概念应运而生,同时产生了对课堂教学视频分析的需求。目前对行为分析相关研究,行为识别在视频监控、辅助医疗、虚拟现实和人机智能交互等领域有着广泛应用,从而成为计算机视觉领域的研究热点。动作识别技术是指通过一些方法使计算机对视频或者图像序列中的运动行为,提取具有分辨能力的特征进行识别分析。尽管目前已经提出了许多行为识别的方法,但是这个问题依然具有挑战性,特别实在课堂教学场中人数众多的场景。行为识别的主要难点是设计合适模型,使其不仅能从背景中检测出目标和行为,而且能准确识变化多样的行为,比如部分被遮挡的动作和同一动作在不同的环境下发生时导致的变化等。
发明内容
本公开实施例提供一种课堂行为检测方法及电子设备。
第一方面,本公开实施例中提供了一种课堂行为检测方法,该方法包括:
对待检测视频提取关键帧并形成视频关键帧序列;
从所述视频关键帧序列提取出待检测视频中至少一个教师和/或学生的人体骨骼关键点序列;
将所述人体骨骼关键点序列以及对应的视频关键帧序列输入至预先训练好的人工智能模型,获得所述教师和/或学生的课堂行为类别。
其中,从所述对待检测视频提取关键帧并形成视频关键帧序列,包括:
计算所述待检测视频中相邻视频帧之间的第一相似度;
在所述第一相似度小于或等于第一预设阈值的连续视频帧的数量大于第二预设阈值,或者所述第一相似度大于所述第一预设阈值时,将所述相邻视频帧中的第一帧选取为关键帧,并从所述后一帧的下一视频帧开始重新选取所述关键帧;
在所述第一相似度小于或等于第一预设阈值的连续视频帧的数量小于第二预设阈值时,从所述连续视频帧中选择第一帧作为一个关键帧。
其中,从所述视频关键帧序列提取出待检测视频中至少一个教师和/或学生的人体骨骼关键点序列,包括:
从所述的视频关键帧序列中依次通过人体姿态估计算法预测出所述关键帧中的人体骨骼关键点信息;
从所述人体骨骼关键点信息按照时间顺序形成人体骨骼关键点序列。
其中,从所述视频关键帧序列提取出待检测视频中至少一个教师和/或学生的人体骨骼关键点序列,包括:
针对所述视频关键帧序列中的关键帧,提取人体骨骼关键点,以及识别所述教师或者学生的人脸图像;
针对同一所述关键帧,将所述教师和所述学生的人脸图像与人体骨骼关键点进行匹配,以确定所述教师和所述学生分别对应的所述人体骨骼关键点序列。
其中,将所述教师和所述学生的人脸图像与人体骨骼关键点信息进行匹配,包括:
在所述人脸图像与所述人体骨骼关键点中位于人体头部的所有人体骨骼关键点重合时,确定所述人脸图像与所述人体骨骼关键点相匹配。
其中,从所述视频关键帧序列提取出至少一个教师和/或学生的人体骨骼关键点序列,包括:
针对所述视频关键帧序列中任意一个关键帧,识别所述教师和/或学生的人脸图像;
针对所述视频关键帧序列中的每一关键帧,提取人体骨骼关键点;
根据所述视频关键帧序列中相邻关键帧中所述人体骨骼关键点之间的相似度确定属于同一人体的人体骨骼关键点序列;
将所述教师和所述学生的人脸图像与所述人体骨骼关键点序列进行匹配,以确定所述教师和所述学生分别对应的所述人体骨骼关键点序列。
其中,根据所述视频关键帧序列中相邻关键帧中所述人体骨骼关键点之间的相似度确定属于同一人体的人体骨骼关键点序列,包括:
计算相邻两关键帧中同一人体位置处的两个人体骨骼关键点之间的欧式距离;
在所述欧式距离小于或等于第三预设阈值时,确定所述两个人体骨骼关键点属于同一人体。
其中,所述人工智能模型采用双流神经网络模型。
其中,将所述人体骨骼关键点序列以及所述对应的视频关键帧序列输入至预先训练好的人工智能模型,获得所述教师和学生的课堂行为类别,包括:
将所述视频关键帧序列输入至所述双流神经网络模型中的空间流深度卷积神经网络中,获得所述视频帧序列中的空间行为特征;
将所述人体骨骼关键点序列输入至时间流深度卷积神经网络中,获得所述视频帧序列中的时间行为特征;
将所述空间行为特征和时间行为特征进行融合得到所述待检测视频中所述教师和学生的行为类别。
第二方面,本公开实施例提供了一种电子设备,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行上述课堂行为检测方法。
本公开实施例提供的技术方案可以包括以下有益效果:
本公开实施例通过利用人工智能的方法,分析课堂教学视频的师生行为信息。通过提取师生的骨骼关键点信息并跟踪,采用基于骨骼关键点双流神经网络分析出师生的课堂行为。本公开实施例还结合人脸识别技术确认师生身份信息,可以记录每个人的长期课堂行为数据。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开实施方式的课堂行为检测方法的流程图;
图2示出根据本公开实施方式从对待检测视频提取关键帧并形成视频关键帧序列的流程图;
图3示出根据本公开实施方式从待检测视频中提取形成视频关键帧序列的示意图;
图4示出根据本公开实施方式从视频关键帧序列中识别出教师和学生的人体骨骼关键点序列的流程图;
图5示出根据本公开实施方式的人体骨骼关键点的结构示意图;
图6示出根据本公开实施方式从视频关键帧中提取教师和学生人体骨骼关键点的效果示意图;
图7出根据本公开实施方式获得教师和学生的课堂行为类别的神经网络的流程图;
图8示出根据本公开实施方式中基于骨骼关键点的双流神经网络结构示意图;
图9是适于用来实现根据本公开一实施方式的课堂行为检测方法的电子设备的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出根据本公开实施方式的课堂行为检测方法的流程图,所述课堂行为检测方法包括以下步骤:
在步骤S101中,对待检测视频提取关键帧并形成视频关键帧序列;
在步骤S102中,从所述视频关键帧序列提取出待检测视频中至少一个教师和/或学生的人体骨骼关键点序列;
在步骤S103中,将所述人体骨骼关键点序列以及所述待检测视频输入至预先训练好的人工智能模型,获得所述教师和学生的课堂行为类别。
本实施例中,待检测视频可以是通过图像传感器获取的课堂教学视频。待检测视频可以包括多个连续的视频帧,每个视频帧为一幅图像。
待检测视频帧中可以包括教师和/或学生等。由于课堂教学视频中,除了教师之外,可能会有多个学生,因此可以通过人体姿态估计算法从视频关键帧中提取出教师或每个学生的人体骨骼关键点序列。
视频关键帧中所出现的每个人体均可以对应一个人体骨骼关键点序列,而每个人体骨骼关键点序列可以包括1-n组人体骨骼关键点,且每组人体骨骼关键点按照待检测视频中各个视频帧的时间顺序排列。其中,每组人体骨骼关键点可以是一个人体上可检测的部分或者所有人体骨骼关键点,其数量可以是12个有效关键点或者25个有效关键点等。例如其中人体画面只包括上半身,则检查出来就包含12个上半身的关键点,如果画面包含全身,则可以包含25个全身关键点。其中,n大于等于1,且小于等于待检测视频中视频帧的数量;可以理解的是,并非每个人体都会出现在待检测视频中的每一个视频帧中,对于未出现在某一视频帧中的某个人体,其在该视频帧中的人体骨骼关键点可以为空;此外,可以不针对待检测视频帧中的所有视频帧提取人体骨骼关键点,而是针对其中一部分视频帧提取骨骼关键点,例如仅针对待检测视频中的关键帧提取人体骨骼关键点等。
人工智能模型可以采用神经网络等,可以预先训练好。人工智能模型的输入为从视频关键帧中检测出来的人体骨骼关键点序列以及待检测视频,而输出为该待检测视频中所出现的教师和/或学生的行为类别,例如,教师在讲台讲授、教师在黑板书写、教师在学生区域讲授、学生举手、学生起立、学生讲话、学生上讲台、学生在座位写字、学生在黑板上写字等。教师和/或学生的行为类别可以根据实际情况设定,在此不做限制。
本实施针对具有代表性的关键帧进行识别,能够减少识别工作量,加快识别效率。计算所述待检测视频中相邻视频帧之间的第一相似度;根据相邻帧之间的所述的相似度确定关键帧的候选;按照时间顺序,重新排列成视频关键帧序列;可以从待检测视频中提取出视频关键帧序列,视频关键帧序列包括按待检测视频中的时间顺序所排序的多个关键帧,每个关键帧可以是待检测视频帧中具有代表性的视频帧。
本公开实施例通过利用人工智能的方法,分析课堂教学视频的师生行为信息。通过提取师生的骨骼关键点信息并跟踪,采用基于骨骼关键点双流神经网络分析出师生的课堂行为。本公开实施例还结合人脸识别技术确认师生身份信息,可以记录每个人的长期课堂行为数据。
在本实施例的一个可选实现方式中,如图2所示,所述步骤S101,即从对待检测视频提取关键帧并形成视频关键帧序列,进一步包括以下步骤:
在步骤S201中,计算所述待检测视频中相邻视频帧之间的第一相似度;
在步骤S202中,根据相邻帧之间的所述的相似度确定关键帧的候选;
在步骤S203中,按照时间顺序,重新排列成视频关键帧序列;
该可选的实现方式中,如图3所示,可以从待检测视频中提取出视频关键帧序列,视频关键帧序列包括按待检测视频中的时间顺序所排序的多个关键帧,每个关键帧可以是待检测视频帧中具有代表性的视频帧。在提取出视频关键帧序列之后,可以针对视频关键帧序列识别出教师和/或学生的人体骨骼关键点序列。这种方式下,可以仅针对具有代表性的关键帧进行识别,能够减少识别工作量,加快识别效率。
该可选的实现方式中,根据相邻帧之间的所述的相似度确定关键帧的候选,进一步包括以下步骤:
在所述第一相似度小于或等于第一预设阈值的连续视频帧的数量大于第二预设阈值,或者所述第一相似度大于所述第一预设阈值时,将所述相邻视频帧中的第一帧选取为关键帧,并从所述后一帧的下一视频帧开始重新选取所述关键帧;
在所述第一相似度小于或等于第一预设阈值的连续视频帧的数量小于第二预设阈值时,从所述连续视频帧中选择第一帧作为一个关键帧。
该可选的实现方式中,针对待检测视频帧,可以通过相似度选取关键帧。对于连续多帧的相似度较大,例如相似度大于第一预设阈值时,可以从这些相似的多个连续帧中选取其中一个作为关键帧,而对于这类的连续帧数量过多时,可以进行分组,每组的数量不超过第二预设阈值,并针对每组选取其中一个作为关键帧。而对于相似度较小的两相邻连续帧,例如相似度小于第一预设阈值时,可以把后一帧作为关键帧,并从该后一帧从下一帧开始重新按照上述规则选取关键帧。
在一些实施例中,相邻两关键帧之间的相似度可以利用颜色直方图来计算,计算公式如下:
Figure BDA0002252457540000071
其中Ht(j),Ht+1(j)分别是前一关键帧t和后一关键帧t+1的直方图留在灰度级j上的值,n是灰度级的数量,D(t,t+1)为帧t和帧t+1之间相似度距离。
在本实施例的一个可选实现方式中,如图4所示,所述步骤S102,从所述视频关键帧序列中识别出所述教师和所述学生的人体骨骼关键点序列的步骤,进一步包括以下步骤:
在步骤S301中,针对所述视频关键帧序列中的关键帧,根据人体姿态估计算法提取人体骨骼关键点,人体骨骼关键点结构参考图5,课堂的师生人体骨骼关键点提取效果图参考图6;
在步骤S302中,针对所述视频关键帧序列中任意一个关键帧,识别所述教师和学生的人脸图像,赋予人体骨骼关键点身份信息;
在步骤S303中,根据所述视频关键帧序列中相邻关键帧中所述人体骨骼关键点之间的相似度确定属于同一人体的人体骨骼关键点序列;
在步骤S304中,最终可以到每一个教师或者学生的骨骼关键点序列,同时每一个序列都被赋予了身份信息。
在本实施例的一个可选实现方式中,将所述教师和所述学生的人脸图像与所述人体骨骼关键点进行匹配的步骤,进一步包括以下步骤:
在所述人脸图像与所述人体骨骼关键点中位于人体头部的所有人体骨骼关键点重合时,确定所述人脸图像与所述人体骨骼关键点相匹配。在匹配人脸图像与人体骨骼关键点时,由于人体骨骼关键点中包括人体头部的关键点,例如人体五官的骨骼关键点,因此可以通过判断人脸图像是否与人体骨骼关键点中位于人体头部的所有骨骼关键点重合来确定两者之间是否匹配。
该可选的实现方式中,识别出来的人脸图像可以是矩形图像,在该矩形图像能够绝大部分面积覆盖住一个人体对应的人体骨骼关键点中位于头部的所有人体骨骼关键点时,则可以认为两者重合,也即该人脸图像与该人体的人体骨骼关键点相匹配。
该可选的实现方式中,针对视频关键帧序列中的每一关键帧,提取人体骨骼关键点序列,并且通过关键帧在待检测视频帧中的时间顺序将所提取的属于同一个人体的人体骨骼关键点进行排列,得到每一人体对应的人体骨骼关键点序列。需要说明的是,对于相邻两关键帧,可以通过在相邻两关键帧中同一个人体位置处的相同标号的两骨骼关键点之间相似度来确定这两个骨骼关键点是否属于同一个人体。通过这种方式,可以跟踪视频关键帧序列中同一个人体在不同关键帧中的人体骨骼关键点,进而最终得到每个人物对应的人体骨骼关键点序列。
在获得人体骨骼关键点序列之后,可以通过匹配上述识别出的人脸图像和该人脸图像所在关键帧中提取出来的人体骨骼关键点,进而可以确定每个人物对应的人体骨骼关键点序列对应的人物的身份信息。
在本实施例的一个可选实现方式中,所述根据所述视频关键帧序列中相邻关键帧中所述人体骨骼关键点之间的相似度确定属于同一个人体的人体骨骼关键点序列的步骤,进一步包括以下步骤:
计算相邻关键帧中位置相近有可能属于同一个人的两个人体骨骼关键点之间的欧式距离;
人体骨骼关键点为25个相对于关键帧图像的左上角为原点的坐标对,可以用(x,y)进行表示,其中部分遮挡或者不全部分x和y的值可为0,以相邻两组的人体骨骼关键的序列的欧式计算公式如下:
Figure BDA0002252457540000091
其中(x1i,y1i)表示第一组人的骨骼关键点信息,(x2i,y2i)表示第二组人体骨骼关键点信息,计算出来的欧式距离用Distance表示,值越小表示越相似。
在所述欧式距离小于或等于第三预设阈值时,确定所述两个人体骨骼关键点属于同一人体。
该可选的实现方式中,针对相邻关键帧,确定两个人体骨骼关键点的相似度时可以通过计算两者的欧式距离,在欧式距离小于或等于第三预设阈值时可以认为两者相似,否则不相似。第三预设阈值可以根据经验等实际情况设定,在此不做限制。
在本实施例的一个可选实现方式中,人工智能模型可以采用基于骨骼关键点的双流神经网络模型。
该可选实现方式中,如图7所示,所述步骤S103,即将所述人体骨骼关键点序列以及所述待检测视频输入至预先训练好的人工智能模型,获得所述教师和学生的课堂行为类别的步骤,进一步包括以下步骤:
在步骤S401中,将所述视频关键帧序列输入至所述双流神经网络模型中的空间流深度卷积神经网络中,获得所述视频帧序列中的空间行为特征;
在步骤S402中,将所述人体骨骼关键点序列输入至所述双流神经网络模型中的时间流深度卷积神经网络中,获得所述视频帧序列中的时间行为特征;
在步骤S403中,将所述空间行为特征和时间行为特征进行融合得到所述待检测视频中所述教师和学生的行为类别。
该可选的实现方式中,双流卷积神经网络提取特征部分均可以采用卷积神经结构的网络,网络的输入尺寸为800*800大小,神经网络的结构图如图8所示,如果了为了进步一步提高精度,可以选用更大的网络结构,但是需要计算更长的时间同时需要配置更好的GPU运算设备。
该可选的实现方式中,所述的特征融合通过深度神经网络中的若干个全连接层进行实现,最后通过全连接层的最后一层的预测概率值大小得出行为类别。
本公开实施方式还提供了一种电子设备,如图9所示,包括至少一个处理器901;以及与至少一个处理器901通信连接的存储器902;其中,存储器902存储有可被至少一个处理器901执行的指令,指令被至少一个处理器901执行以实现:
对待检测视频提取关键帧并形成视频关键帧序列;
从所述视频关键帧序列提取出待检测视频中至少一个教师和/或学生的人体骨骼关键点序列;
将所述人体骨骼关键点序列以及对应的视频关键帧序列输入至预先训练好的人工智能模型,获得所述教师和/或学生的课堂行为类别。
其中,从所述对待检测视频提取关键帧并形成视频关键帧序列,包括:
计算所述待检测视频中相邻视频帧之间的第一相似度;
在所述第一相似度小于或等于第一预设阈值的连续视频帧的数量大于第二预设阈值,或者所述第一相似度大于所述第一预设阈值时,将所述相邻视频帧中的第一帧选取为关键帧,并从所述后一帧的下一视频帧开始重新选取所述关键帧;
在所述第一相似度小于或等于第一预设阈值的连续视频帧的数量小于第二预设阈值时,从所述连续视频帧中选择第一帧作为一个关键帧。
其中,从所述视频关键帧序列提取出待检测视频中至少一个教师和/或学生的人体骨骼关键点序列,包括:
从所述的视频关键帧序列中依次通过人体姿态估计算法预测出所述关键帧中的人体骨骼关键点信息;
从所述人体骨骼关键点信息按照时间顺序形成人体骨骼关键点序列。
其中,从所述视频关键帧序列提取出待检测视频中至少一个教师和/或学生的人体骨骼关键点序列,包括:
针对所述视频关键帧序列中的关键帧,提取人体骨骼关键点,以及识别所述教师或者学生的人脸图像;
针对同一所述关键帧,将所述教师和所述学生的人脸图像与人体骨骼关键点进行匹配,以确定所述教师和所述学生分别对应的所述人体骨骼关键点序列。
其中,将所述教师和所述学生的人脸图像与人体骨骼关键点信息进行匹配,包括:
在所述人脸图像与所述人体骨骼关键点中位于人体头部的所有人体骨骼关键点重合时,确定所述人脸图像与所述人体骨骼关键点相匹配。
其中,从所述视频关键帧序列提取出至少一个教师和/或学生的人体骨骼关键点序列,包括:
针对所述视频关键帧序列中任意一个关键帧,识别所述教师和/或学生的人脸图像;
针对所述视频关键帧序列中的每一关键帧,提取人体骨骼关键点;
根据所述视频关键帧序列中相邻关键帧中所述人体骨骼关键点之间的相似度确定属于同一人体的人体骨骼关键点序列;
将所述教师和所述学生的人脸图像与所述人体骨骼关键点序列进行匹配,以确定所述教师和所述学生分别对应的所述人体骨骼关键点序列。
其中,根据所述视频关键帧序列中相邻关键帧中所述人体骨骼关键点之间的相似度确定属于同一人体的人体骨骼关键点序列,包括:
计算相邻两关键帧中同一人体位置处的两个人体骨骼关键点之间的欧式距离;
在所述欧式距离小于或等于第三预设阈值时,确定所述两个人体骨骼关键点属于同一人体。
其中,所述人工智能模型采用双流神经网络模型。
其中,将所述人体骨骼关键点序列以及所述对应的视频关键帧序列输入至预先训练好的人工智能模型,获得所述教师和学生的课堂行为类别,包括:
将所述视频关键帧序列输入至所述双流神经网络模型中的空间流深度卷积神经网络中,获得所述视频帧序列中的空间行为特征;
将所述人体骨骼关键点序列输入至时间流深度卷积神经网络中,获得所述视频帧序列中的时间行为特征;
将所述空间行为特征和时间行为特征进行融合得到所述待检测视频中所述教师和学生的行为类别。
具体地,处理器901、存储器902可以通过总线或者其他方式连接,图9中以通过总线连接为例。存储器902作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器901通过运行存储在存储器902中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现本公开实施例中的上述方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储航运网络运输的历史数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,电子设备可选地包括通信组件903,存储器902可选地包括相对于处理器901远程设置的存储器,这些远程存储器可以通过通信组件903连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器902中,当被一个或者多个处理器901执行时,执行本公开实施例中的上述方法。
上述产品可执行本公开实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本公开实施方式所提供的方法。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (7)

1.一种课堂行为检测方法,其特征在于,包括:
对待检测视频提取关键帧并形成视频关键帧序列;
从所述视频关键帧序列提取出待检测视频中至少一个教师和/或学生的人体骨骼关键点序列,并通过人脸识别赋予所述人体骨骼关键点教师和/或学生的身份信息;
将所述人体骨骼关键点序列以及对应的视频关键帧序列输入至预先训练好的人工智能模型,获得所述教师和/或学生的课堂行为类别;所述人工智能模型采用双流神经网络模型;所述视频关键帧序列作为所述双流神经网络模型中空间流深度卷积神经网络的输入得到所述视频关键帧序列中的空间行为特征,所述人体骨骼关键点序列作为所述双流神经网络模型中时间流深度卷积神经网络的输入得到所述视频关键帧序列中的时间行为特征,所述空间行为特征和时间行为特征进行融合后得到所述待检测视频中所述教师和/或学生的课堂行为类别;
其中,从所述对待检测视频提取关键帧并形成视频关键帧序列,包括:
计算所述待检测视频中相邻视频帧之间的第一相似度;
在所述第一相似度小于或等于第一预设阈值的连续视频帧的数量大于第二预设阈值,或者所述第一相似度大于所述第一预设阈值时,将所述相邻视频帧中的第一帧选取为关键帧,并从后一帧的下一视频帧开始重新选取所述关键帧;
在所述第一相似度小于或等于第一预设阈值的连续视频帧的数量小于第二预设阈值时,从所述连续视频帧中选择第一帧作为一个关键帧。
2.根据权利要求1所述的方法,其特征在于,从所述视频关键帧序列提取出待检测视频中至少一个教师和/或学生的人体骨骼关键点序列,包括:
从所述的视频关键帧序列中依次通过人体姿态估计算法预测出所述关键帧中的人体骨骼关键点信息;
从所述人体骨骼关键点信息按照时间顺序形成人体骨骼关键点序列。
3.根据权利要求1或2所述的方法,其特征在于,从所述视频关键帧序列提取出待检测视频中至少一个教师和/或学生的人体骨骼关键点序列,包括:
针对所述视频关键帧序列中的关键帧,提取人体骨骼关键点,以及识别所述教师或者学生的人脸图像;
针对同一所述关键帧,将所述教师和所述学生的人脸图像与人体骨骼关键点进行匹配,以确定所述教师和所述学生分别对应的所述人体骨骼关键点序列。
4.根据权利要求3所述的方法,其特征在于,将所述教师和所述学生的人脸图像与人体骨骼关键点信息进行匹配,包括:
在所述人脸图像与所述人体骨骼关键点中位于人体头部的所有人体骨骼关键点重合时,确定所述人脸图像与所述人体骨骼关键点相匹配。
5.根据权利要求1或2所述的方法,其特征在于,从所述视频关键帧序列提取出至少一个教师和/或学生的人体骨骼关键点序列,包括:
针对所述视频关键帧序列中任意一个关键帧,识别所述教师和/或学生的人脸图像;
针对所述视频关键帧序列中的每一关键帧,提取人体骨骼关键点;
根据所述视频关键帧序列中相邻关键帧中所述人体骨骼关键点之间的相似度确定属于同一人体的人体骨骼关键点序列;
将所述教师和所述学生的人脸图像与所述人体骨骼关键点序列进行匹配,以确定所述教师和所述学生分别对应的所述人体骨骼关键点序列。
6.根据权利要求5所述的方法,其特征在于,根据所述视频关键帧序列中相邻关键帧中所述人体骨骼关键点之间的相似度确定属于同一人体的人体骨骼关键点序列,包括:
计算相邻两关键帧中同一人体位置处的两个人体骨骼关键点之间的欧式距离;
在所述欧式距离小于或等于第三预设阈值时,确定所述两个人体骨骼关键点属于同一人体。
7.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现以下权利要求1-6所述的方法。
CN201911039534.4A 2019-10-29 2019-10-29 课堂行为检测方法及电子设备 Active CN110781843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911039534.4A CN110781843B (zh) 2019-10-29 2019-10-29 课堂行为检测方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911039534.4A CN110781843B (zh) 2019-10-29 2019-10-29 课堂行为检测方法及电子设备

Publications (2)

Publication Number Publication Date
CN110781843A CN110781843A (zh) 2020-02-11
CN110781843B true CN110781843B (zh) 2022-11-04

Family

ID=69387488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911039534.4A Active CN110781843B (zh) 2019-10-29 2019-10-29 课堂行为检测方法及电子设备

Country Status (1)

Country Link
CN (1) CN110781843B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113496143A (zh) * 2020-03-19 2021-10-12 北京市商汤科技开发有限公司 动作识别方法及装置、存储介质
CN111507192A (zh) * 2020-03-19 2020-08-07 北京捷通华声科技股份有限公司 一种仪容仪表监测方法和装置
CN113536857A (zh) * 2020-04-20 2021-10-22 深圳绿米联创科技有限公司 目标动作识别方法、装置、服务器及存储介质
CN111507283B (zh) * 2020-04-21 2021-11-30 浙江蓝鸽科技有限公司 基于课堂场景的学生行为识别方法及系统
CN111753665A (zh) * 2020-05-26 2020-10-09 济南浪潮高新科技投资发展有限公司 一种基于姿态估计的园区异常行为识别方法及装置
CN111814587A (zh) * 2020-06-18 2020-10-23 浙江大华技术股份有限公司 人体行为检测方法、教师行为检测方法及相关系统和装置
CN112001944A (zh) * 2020-07-09 2020-11-27 浙江大华技术股份有限公司 课堂教学质量评价数据的获取方法、计算机设备和介质
CN112016437B (zh) * 2020-08-26 2023-02-10 中国科学院重庆绿色智能技术研究院 一种基于人脸视频关键帧的活体检测方法
CN112215200A (zh) * 2020-10-28 2021-01-12 新东方教育科技集团有限公司 身份识别的方法和装置
CN112200138B (zh) * 2020-10-30 2022-07-08 福州大学 基于计算机视觉的课堂学情分析方法
CN112329634B (zh) * 2020-11-05 2024-04-02 华中师范大学 课堂行为识别方法、装置、电子设备及存储介质
CN112270302A (zh) * 2020-11-17 2021-01-26 支付宝(杭州)信息技术有限公司 肢体控制方法、装置和电子设备
CN112464904A (zh) * 2020-12-15 2021-03-09 北京乐学帮网络技术有限公司 一种课堂行为分析方法、装置、电子设备及存储介质
CN113158914B (zh) * 2021-04-25 2022-01-18 胡勇 一种舞蹈动作姿态、节奏和表情的智能评估方法
CN113361381B (zh) * 2021-06-03 2022-12-23 上海哔哩哔哩科技有限公司 人体关键点检测模型训练方法、检测方法及装置
CN113486771B (zh) * 2021-06-30 2023-07-07 福州大学 基于关键点检测的视频动作整齐度评估方法及系统
CN113657155A (zh) * 2021-07-09 2021-11-16 浙江大华技术股份有限公司 一种行为检测方法、装置、计算机设备和存储介质
CN113743319B (zh) * 2021-09-07 2023-12-26 三星电子(中国)研发中心 一种自监督型智能健身方案生成方法和装置
CN114973109A (zh) * 2022-07-11 2022-08-30 卡奥斯工业智能研究院(青岛)有限公司 基于数字孪生的工作效率显示方法、装置及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805093B (zh) * 2018-06-19 2020-09-22 华南理工大学 基于深度学习的手扶电梯乘客摔倒检测方法
CN109299646B (zh) * 2018-07-24 2021-06-25 北京旷视科技有限公司 人群异常事件检测方法、装置、系统和存储介质
CN110096950B (zh) * 2019-03-20 2023-04-07 西北大学 一种基于关键帧的多特征融合行为识别方法
CN110119703B (zh) * 2019-05-07 2022-10-04 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法

Also Published As

Publication number Publication date
CN110781843A (zh) 2020-02-11

Similar Documents

Publication Publication Date Title
CN110781843B (zh) 课堂行为检测方法及电子设备
CN110414432B (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
CN110472531B (zh) 视频处理方法、装置、电子设备及存储介质
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
CN110909651B (zh) 视频主体人物的识别方法、装置、设备及可读存储介质
CN111488773B (zh) 一种动作识别方法、装置、设备及存储介质
US20180114071A1 (en) Method for analysing media content
CN111985385B (zh) 一种行为检测方法、装置及设备
WO2017150032A1 (en) Method and system for detecting actions of object in scene
CN110852256B (zh) 时序动作提名的生成方法、装置、设备及存储介质
CN111240476B (zh) 基于增强现实的交互方法、装置、存储介质和计算机设备
CN113196289A (zh) 人体动作识别方法、人体动作识别系统及设备
CN115427982A (zh) 用于使用卷积神经网络标识数字视频中的人体行为的方法、系统和介质
US20220383639A1 (en) System and Method for Group Activity Recognition in Images and Videos with Self-Attention Mechanisms
CN111652181B (zh) 目标跟踪方法、装置及电子设备
CN111104930A (zh) 视频处理方法、装置、电子设备及存储介质
CN114332911A (zh) 一种头部姿态检测方法、装置及计算机设备
Ding et al. Simultaneous body part and motion identification for human-following robots
CN116597336A (zh) 视频处理方法、电子设备、存储介质及计算机程序产品
CN114742112A (zh) 一种对象关联方法、装置及电子设备
CN116152747A (zh) 一种基于外观辨识和动作建模的人类行为意图识别方法
CN116205723A (zh) 基于人工智能的面签风险检测方法及相关设备
CN113158870B (zh) 2d多人姿态估计网络的对抗式训练方法、系统及介质
Abdulhamied et al. Real-time recognition of American sign language using long-short term memory neural network and hand detection
CN112862840A (zh) 图像分割方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant