CN111046819B

CN111046819B - 一种行为识别处理方法及装置

Info

Publication number: CN111046819B
Application number: CN201911311563.1A
Authority: CN
Inventors: 魏乃科; 冯复标; 潘华东; 殷俊
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2023-09-05
Anticipated expiration: 2039-12-18
Also published as: CN111046819A

Abstract

本发明提供了一种行为识别处理方法及装置，其中，该方法包括：获取针对预定区域范围采集的音视频数据，对所述音视频数据进行处理，得到视频数据和音频数据；对所述视频数据进行分析，得到第一目标对象和/或第二目标对象的行为类别；对所述音频数据进行语音识别，得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息；根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别，可以解决相关技术中通过静态图像很难准确识别教师行为的问题，通过第二目标对象和/或第一目标对象的行为结合语音信息，提高了第一目标对象(即教师)行为识别的准确性。

Description

一种行为识别处理方法及装置

技术领域

本发明涉及教育信息化技术领域，具体而言，涉及一种行为识别处理方法及装置。

背景技术

随着深度学习技术的快速发展，计算机视觉得到了快速的发展。利用深度学习技术识别课堂内教师和学生的行为，效果更好，准确性更高。

课堂是教育行为最常发生的地方，而教室是教学信息传递的场所，在这个指定环境内，老师的肢体动作、语音、板书、课件、讲授的使用等，加上学生的行为和语音，共同构成了信息的传递。老师可以通过学生的行为、语言了解学生对知识的掌握情况，学生通过老师的讲授学习知识，这里信息是多维度的，既包括学生图像、老师图像，也包括他们各自的语音信息。

现有技术中基于图像的分析相当于看图说话，如果缺乏语音的补充，将丢失很多细节，或者产生歧义；比如图像中看到老师手指向学生区，如果没有对声音的理解，很难区分此时老师的真实意图；再比如，没有语音信息作为辅助，仅仅通过静态的图像很难自动得到老师此时正在讲授什么知识点，而现有技术中缺乏这样的解决方案。

针对相关技术中通过静态图像很难准确识别教师行为的问题，尚未提出解决方案。

发明内容

本发明实施例提供了一种行为识别处理方法及装置，以至少解决相关技术中通过静态图像很难准确识别教师行为的问题。

根据本发明的一个实施例，提供了一种行为识别处理方法，包括：

获取针对预定区域范围采集的音视频数据，对所述音视频数据进行处理，得到视频数据和音频数据；

对所述视频数据进行分析，得到第一目标对象和/或第二目标对象的行为类别；

对所述音频数据进行语音识别，得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息；

根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别。

可选地，对所述视频数据进行分析，得到第一目标对象和/或第二目标对象的行为类别包括：

将所述预定区域范围划分为多个子区域，并确定所述第一目标对象在所述多个子区域中的时长；

确定所述预定区域范围内第二目标对象的数量以及预定时间内的人数变动；

识别所述视频数据中所述第二目标对象的异常行为。

可选地，对所述音频数据进行语音识别，得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息包括：

对所述音频数据进行语音识别，得到所述第一目标对象的语音内容；

确定所述第一目标对象的语速、音量、语音时长，以及确定所述第一目标对象与一个或多个所述第二目标对象之间的语音互动；

获取除所述语音互动之外的所述第二目标对象的语音信息。

确定所述视频数据中所述第一目标对象和/或所述第二目标对象的人体关键点；

对所述人体关键点和RGB图像对所述第一目标对象和/或所述第二目标对象进行行为类别，得到第一目标对象和/或第二目标对象的行为类别。

可选地，对所述人体关键点和RGB图像对所述第一目标对象和/或所述第二目标对象进行行为类别，得到第一目标对象和/或第二目标对象的行为类别包括：

根据所述人体关键点生成PAF图；

将所述PAF图结合所述视频数据中的RGB图形成4通道图像；

将所述4通道图像输入到预先训练好的目标神经网络中，得到所述目标神经网络输出的所述第一目标对象和/或所述第二目标对象的行为类别。

可选地，确定所述视频数据中所述第一目标对象和/或所述第二目标对象的人体关键点包括：

使用目标检测算法检测出所述第一目标对象和/或所述第二目标对象的检测框；

对所述视频数据中的目标图像进行特征提取，生成所述第一目标对象和/或所述第二目标对象的人体关键点的热图；

在所述热图中获取与所述检测框对应的目标区域，得到包括所述目标区域的目标热图；

在所述目标热图中确定所述第一目标对象和/或所述第二目标对象的人体关键点。

可选地，根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别包括：

根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息确定所述第一目标对象的教学质量；或者

根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息确定所述第一目标对象的教学管理能力。

根据本发明的另一个实施例，还提供了一种行为识别处理装置，包括：

获取模块，用于获取针对预定区域范围采集的音视频数据，对所述音视频数据进行处理，得到视频数据和音频数据；

分析模块，用于对所述视频数据进行分析，得到第一目标对象和/或第二目标对象的行为类别；

语音识别模块，用于对所述音频数据进行语音识别，得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息；

识别模块，用于根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别。

可选地，所述分析模块包括：

第一确定子模块，用于将所述预定区域范围划分为多个子区域，并确定所述第一目标对象在所述多个子区域中的时长；

第二确定子模块，用于确定所述预定区域范围内第二目标对象的数量以及预定时间内的人数变动；

识别子模块，用于识别所述视频数据中所述第二目标对象的异常行为。

可选地，所述语音识别模块包括：

语音识别子模块，用于对所述音频数据进行语音识别，得到所述第一目标对象的语音内容；

第三确定子模块，用于确定所述第一目标对象的语速、音量、语音时长，以及确定所述第一目标对象与一个或多个所述第二目标对象之间的语音互动；

获取子模块，用于获取除所述语音互动之外的所述第二目标对象的语音信息。

可选地，所述分析模块包括：

第四确定子模块，用于确定所述视频数据中所述第一目标对象和/或所述第二目标对象的人体关键点；

分类子模块，用于对所述人体关键点和RGB图像对所述第一目标对象和/或所述第二目标对象进行行为类别，得到第一目标对象和/或第二目标对象的行为类别。

可选地，所述分类子模块包括：

生成单元，用于根据所述人体关键点生成PAF图；

形成单元，用于将所述PAF图结合所述视频数据中的RGB图形成4通道图像；

输入单元，用于将所述4通道图像输入到预先训练好的目标神经网络中，得到所述目标神经网络输出的所述第一目标对象和/或所述第二目标对象的行为类别。

可选地，所述第四确定子模块包括：

检测单元，用于使用目标检测算法检测出所述第一目标对象和/或所述第二目标对象的检测框；

特征提取单元，用于对所述视频数据中的目标图像进行特征提取，生成所述第一目标对象和/或所述第二目标对象的人体关键点的热图；

获取单元，用于在所述热图中获取与所述检测框对应的目标区域，得到包括所述目标区域的目标热图；

确定单元，用于在所述目标热图中确定所述第一目标对象和/或所述第二目标对象的人体关键点。

可选地，所述识别模块包括：

第五确定子模块，用于根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息确定所述第一目标对象的教学质量；或者

第六确定子模块，用于根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息确定所述第一目标对象的教学管理能力。

根据本发明的又一个实施例，还提供了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，获取针对预定区域范围采集的音视频数据，对所述音视频数据进行处理，得到视频数据和音频数据；对所述视频数据进行分析，得到第一目标对象和/或第二目标对象的行为类别；对所述音频数据进行语音识别，得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息；根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别，可以解决相关技术中通过静态图像很难准确识别教师行为的问题，通过第二目标对象和/或第一目标对象的行为结合语音信息，提高了第一目标对象(即教师)行为识别的准确性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种行为识别处理方法的移动终端的硬件结构框图；

图2是根据本发明实施例的一种行为识别处理方法的流程图；

图3是根据本发明实施例的课堂行为分析的示意图；

图4是根据本发明实施例的行为识别处理装置的框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种行为识别处理方法的移动终端的硬件结构框图，如图1所示，移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的报文接收方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端或网络架构的行为识别处理方法，图2是根据本发明实施例的一种行为识别处理方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取针对预定区域范围采集的音视频数据，对所述音视频数据进行处理，得到视频数据和音频数据；

具体的，可以通过摄像头采集音视频数据。

步骤S204，对所述视频数据进行分析，得到第一目标对象和/或第二目标对象的行为类别；

若上述第一目标对象为教师，第二目标对象为学生，第一目标对象的行为类别可以是巡视、讲授、板书、师生互动等，第二目标对象的行为类别可以是举手、与老师互动、与同学互动等。

步骤S206，对所述音频数据进行语音识别，得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息；

第一目标对象的语音内容可以包括授课内容、提问内容、答疑内容等，第二目标对象的语音信息可以包括回答问题、与同学交流、发出其他噪音等。

步骤S208，根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别。

通过上述步骤S202至S208，获取针对预定区域范围采集的音视频数据，对所述音视频数据进行处理，得到视频数据和音频数据；对所述视频数据进行分析，得到第一目标对象和/或第二目标对象的行为类别；对所述音频数据进行语音识别，得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息；根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别，可以解决相关技术中通过静态图像很难准确识别教师行为的问题，通过第二目标对象和/或第一目标对象的行为结合语音信息，提高了第一目标对象(即教师)行为识别的准确性。

在一个可选的实施例中，上述步骤S204具体可以包括：将所述预定区域范围划分为多个子区域，并确定所述第一目标对象在所述多个子区域中的时长；确定所述预定区域范围内第二目标对象的数量以及预定时间内的人数变动；识别所述视频数据中所述第二目标对象的异常行为。

对应的，上述步骤S206具体可以包括：对所述音频数据进行语音识别，得到所述第一目标对象的语音内容；确定所述第一目标对象的语速、音量、语音时长，以及确定所述第一目标对象与一个或多个所述第二目标对象之间的语音互动；获取除所述语音互动之外的所述第二目标对象的语音信息。

在另一个可选的实施例中，上述步骤S204具体可以包括：

S2041，确定所述视频数据中所述第一目标对象和/或所述第二目标对象的人体关键点；

进一步的，使用目标检测算法检测出所述第一目标对象和/或所述第二目标对象的检测框；对所述视频数据中的目标图像进行特征提取，生成所述第一目标对象和/或所述第二目标对象的人体关键点的热图；在所述热图中获取与所述检测框对应的目标区域，得到包括所述目标区域的目标热图；在所述目标热图中确定所述第一目标对象和/或所述第二目标对象的人体关键点。

S2042，对所述人体关键点和RGB图像对所述第一目标对象和/或所述第二目标对象进行行为类别，得到第一目标对象和/或第二目标对象的行为类别。

进一步的，根据所述人体关键点生成PAF图；将所述PAF图结合所述视频数据中的RGB图形成4通道图像；将所述4通道图像输入到预先训练好的目标神经网络中，得到所述目标神经网络输出的所述第一目标对象和/或所述第二目标对象的行为类别。

本发明实施例中，上述步骤S208具体可以包括：

下面以上述的预定区域范围为教室，第一目标对象为老师，第二目标对象为学生为例，对本发明实施例进行说明。

本发明实施例利用教室内设备采集音视频，然后对采集数据分析，对多种评价指标生成量化的结果。图3是根据本发明实施例的课堂行为分析的示意图，如图3所示，包括：

步骤S301，音视频采集，可使用任意能获得音视频的设备采集，设备可安装于课堂前方或后方的靠上位置，能覆盖整个教师场景即可。

步骤S302，教师识别，利用人脸识别和行人重识别技术，确定教师身份，并利用目标跟踪技术锁定目标。确定教师人份后进入教师活动区域统计和教师行为识别。

步骤S3021,教师活动区域统计，通过划定图像中各个活动区域的位置，统计教师在讲台区域的时长、在黑板区域活动的时长以及在教室其他区域活动的时长。

步骤S3022，教师行为识别：通过对教师人体行为的分析，统计教师在黑板书写时长，讲解PPT等行为，并利用人脸识别技术，确定人脸朝向，统计教师与学生眼神交流的行为。进一步结合语音识别结果，统计和学生互动的频率与时长。

步骤S303，学生人数统计，主要用来统计教室人数，以及人数变动的情况。

步骤S304，学生异常行为检测，主要用来识别玩手机、打闹、东张西望等不注意听讲等行为。

步骤S305，教师语音分析，对于采集的音频数据，首先使用教师语音分析识别出教师语音进一步的，包括：

S3051，教师语音互动统计，通过语音分析统计教师与学生互动的状态，可以辅助教师行为的识别。

S3052，教师语音统计，统计教师的语音语速、音量、时长等影响授课效果的信息。利用语音识别技术，分析教师说话内容，可以评价授课质量。

步骤S305，异常声音分析，主要统计课堂噪声大小以及学生随意的说话的信息，评价教师管理能力。

本发明实施例，使用深度学习技术检测人体关键点，然后再利用神经网络对关键点和RGB图像进行姿态分类，最后由预先定义的规则识别教师特定行为类别。具体包括：

人体关键点检测，包括：

第一步，使用目标检测算法，如YOLO，检测出人的边界框(对应上述的检测框)；

第二步，使用基础网络，对整图提取特征，生成对应关键点的热图；

第三步，根据YOLO检测框，在热图中扣出对应区域；

第四步，通过关键点分配网络，基于扣出的热图，预测人体关键点。

通过上述步骤，可以在保证较高精度的同时，快速检测出关键点。

之后基于关键点的姿态识别，根据上面检测出的关键点生成PAF特征图，然后结合RGB形成4通道图像，送入到分类网络，对教师姿态分类。此种方法可以大幅提高分类准确率。在得到教师姿态后，通过预先设定的规则判别教师的行为类别。

本发明实施例，全面详细统计课堂内基本环境(如学生人数)和教师的各种行为数据；将音频内容分析和视频行为分析融合。

本发明实施例中，还可以基于视频数据和音频数据，统计学生的不同课堂行为在整堂课中的比例。例如前后排学生的回答问题比例、课堂活跃度等，可以分析学生个体或群体课堂的专注力和听课的效果。将学生的不同课堂行为以图表的形式进行了比例分类，并以此作为课堂报告进行呈现。进一步的，还可以通过对比学生个体行为和班级整体行为在各个时间点的相符和背离，统计学生个体的课堂参与度和班级课堂参与度的平均趋势。即体现了学生个体是否积极参与了班级教学行为，也揭示了班级整体的课堂参与意识。

同时还可以统计第一目标对象对学生的德育评价，具体可以包括：积极表现和消级表现；并进一步根据第一目标对象和学生的行为统计，得到S-T教学分析。

具体的，上述统计学生的不同课堂行为在整堂课中的比例，具体包括：为每个学生建立课堂行为时间线，针对该学生在当前课堂上不同时间点的行为，抠取头像，构建学生相册；为每个学生建立课堂表情时间线，针对该学生在当前课堂上不同时间点的表情，并抠取头像，分析学生个体或群体课堂的专注力和听课的效果。

实施例2

根据本发明的另一个实施例，还提供了一种行为识别处理装置，图4是根据本发明实施例的行为识别处理装置的框图，如图4所示，包括：

获取模块42，用于获取针对预定区域范围采集的音视频数据，对所述音视频数据进行处理，得到视频数据和音频数据；

分析模块44，用于对所述视频数据进行分析，得到第一目标对象和/或第二目标对象的行为类别；

语音识别模块46，用于对所述音频数据进行语音识别，得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息；

识别模块48，用于根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别。

可选地，所述分析模块44包括：

可选地，所述语音识别模块包括：

可选地，所述分析模块44包括：

可选地，所述分类子模块包括：

生成单元，用于根据所述人体关键点生成PAF图；

可选地，所述第四确定子模块包括：

可选地，所述识别模块包括：

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本发明的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取针对预定区域范围采集的音视频数据，对所述音视频数据进行处理，得到视频数据和音频数据；

S2，对所述视频数据进行分析，得到第一目标对象和/或第二目标对象的行为类别；

S3，对所述音频数据进行语音识别，得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息；

S4，根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

实施例4

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种行为识别处理方法，其特征在于，包括：

根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别；

其中，对所述视频数据进行分析，得到第一目标对象和/或第二目标对象的行为类别包括：

根据所述人体关键点生成PAF图；

将所述PAF图结合所述视频数据中的RGB图形成4通道图像；

2.根据权利要求1所述的方法，其特征在于，对所述音频数据进行语音识别，得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息包括：

获取除所述语音互动之外的所述第二目标对象的语音信息。

3.根据权利要求1所述的方法，其特征在于，确定所述视频数据中所述第一目标对象和/或所述第二目标对象的人体关键点包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别包括：

5.一种行为识别处理装置，其特征在于，包括：

识别模块，用于根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别；

其中，分析模块包括：

生成单元，用于根据所述人体关键点生成PAF图；

6.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行完成权利要求1至4任一项中所述的方法。

7.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项中所述的方法。