CN111046819B - 一种行为识别处理方法及装置 - Google Patents

一种行为识别处理方法及装置 Download PDF

Info

Publication number
CN111046819B
CN111046819B CN201911311563.1A CN201911311563A CN111046819B CN 111046819 B CN111046819 B CN 111046819B CN 201911311563 A CN201911311563 A CN 201911311563A CN 111046819 B CN111046819 B CN 111046819B
Authority
CN
China
Prior art keywords
target object
behavior
video data
target
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911311563.1A
Other languages
English (en)
Other versions
CN111046819A (zh
Inventor
魏乃科
冯复标
潘华东
殷俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN201911311563.1A priority Critical patent/CN111046819B/zh
Publication of CN111046819A publication Critical patent/CN111046819A/zh
Application granted granted Critical
Publication of CN111046819B publication Critical patent/CN111046819B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Multimedia (AREA)
  • Strategic Management (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Educational Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Psychiatry (AREA)
  • Operations Research (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Social Psychology (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种行为识别处理方法及装置,其中,该方法包括:获取针对预定区域范围采集的音视频数据,对所述音视频数据进行处理,得到视频数据和音频数据;对所述视频数据进行分析,得到第一目标对象和/或第二目标对象的行为类别;对所述音频数据进行语音识别,得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息;根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别,可以解决相关技术中通过静态图像很难准确识别教师行为的问题,通过第二目标对象和/或第一目标对象的行为结合语音信息,提高了第一目标对象(即教师)行为识别的准确性。

Description

一种行为识别处理方法及装置
技术领域
本发明涉及教育信息化技术领域,具体而言,涉及一种行为识别处理方法及装置。
背景技术
随着深度学习技术的快速发展,计算机视觉得到了快速的发展。利用深度学习技术识别课堂内教师和学生的行为,效果更好,准确性更高。
课堂是教育行为最常发生的地方,而教室是教学信息传递的场所,在这个指定环境内,老师的肢体动作、语音、板书、课件、讲授的使用等,加上学生的行为和语音,共同构成了信息的传递。老师可以通过学生的行为、语言了解学生对知识的掌握情况,学生通过老师的讲授学习知识,这里信息是多维度的,既包括学生图像、老师图像,也包括他们各自的语音信息。
现有技术中基于图像的分析相当于看图说话,如果缺乏语音的补充,将丢失很多细节,或者产生歧义;比如图像中看到老师手指向学生区,如果没有对声音的理解,很难区分此时老师的真实意图;再比如,没有语音信息作为辅助,仅仅通过静态的图像很难自动得到老师此时正在讲授什么知识点,而现有技术中缺乏这样的解决方案。
针对相关技术中通过静态图像很难准确识别教师行为的问题,尚未提出解决方案。
发明内容
本发明实施例提供了一种行为识别处理方法及装置,以至少解决相关技术中通过静态图像很难准确识别教师行为的问题。
根据本发明的一个实施例,提供了一种行为识别处理方法,包括:
获取针对预定区域范围采集的音视频数据,对所述音视频数据进行处理,得到视频数据和音频数据;
对所述视频数据进行分析,得到第一目标对象和/或第二目标对象的行为类别;
对所述音频数据进行语音识别,得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息;
根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别。
可选地,对所述视频数据进行分析,得到第一目标对象和/或第二目标对象的行为类别包括:
将所述预定区域范围划分为多个子区域,并确定所述第一目标对象在所述多个子区域中的时长;
确定所述预定区域范围内第二目标对象的数量以及预定时间内的人数变动;
识别所述视频数据中所述第二目标对象的异常行为。
可选地,对所述音频数据进行语音识别,得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息包括:
对所述音频数据进行语音识别,得到所述第一目标对象的语音内容;
确定所述第一目标对象的语速、音量、语音时长,以及确定所述第一目标对象与一个或多个所述第二目标对象之间的语音互动;
获取除所述语音互动之外的所述第二目标对象的语音信息。
可选地,对所述视频数据进行分析,得到第一目标对象和/或第二目标对象的行为类别包括:
确定所述视频数据中所述第一目标对象和/或所述第二目标对象的人体关键点;
对所述人体关键点和RGB图像对所述第一目标对象和/或所述第二目标对象进行行为类别,得到第一目标对象和/或第二目标对象的行为类别。
可选地,对所述人体关键点和RGB图像对所述第一目标对象和/或所述第二目标对象进行行为类别,得到第一目标对象和/或第二目标对象的行为类别包括:
根据所述人体关键点生成PAF图;
将所述PAF图结合所述视频数据中的RGB图形成4通道图像;
将所述4通道图像输入到预先训练好的目标神经网络中,得到所述目标神经网络输出的所述第一目标对象和/或所述第二目标对象的行为类别。
可选地,确定所述视频数据中所述第一目标对象和/或所述第二目标对象的人体关键点包括:
使用目标检测算法检测出所述第一目标对象和/或所述第二目标对象的检测框;
对所述视频数据中的目标图像进行特征提取,生成所述第一目标对象和/或所述第二目标对象的人体关键点的热图;
在所述热图中获取与所述检测框对应的目标区域,得到包括所述目标区域的目标热图;
在所述目标热图中确定所述第一目标对象和/或所述第二目标对象的人体关键点。
可选地,根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别包括:
根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息确定所述第一目标对象的教学质量;或者
根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息确定所述第一目标对象的教学管理能力。
根据本发明的另一个实施例,还提供了一种行为识别处理装置,包括:
获取模块,用于获取针对预定区域范围采集的音视频数据,对所述音视频数据进行处理,得到视频数据和音频数据;
分析模块,用于对所述视频数据进行分析,得到第一目标对象和/或第二目标对象的行为类别;
语音识别模块,用于对所述音频数据进行语音识别,得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息;
识别模块,用于根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别。
可选地,所述分析模块包括:
第一确定子模块,用于将所述预定区域范围划分为多个子区域,并确定所述第一目标对象在所述多个子区域中的时长;
第二确定子模块,用于确定所述预定区域范围内第二目标对象的数量以及预定时间内的人数变动;
识别子模块,用于识别所述视频数据中所述第二目标对象的异常行为。
可选地,所述语音识别模块包括:
语音识别子模块,用于对所述音频数据进行语音识别,得到所述第一目标对象的语音内容;
第三确定子模块,用于确定所述第一目标对象的语速、音量、语音时长,以及确定所述第一目标对象与一个或多个所述第二目标对象之间的语音互动;
获取子模块,用于获取除所述语音互动之外的所述第二目标对象的语音信息。
可选地,所述分析模块包括:
第四确定子模块,用于确定所述视频数据中所述第一目标对象和/或所述第二目标对象的人体关键点;
分类子模块,用于对所述人体关键点和RGB图像对所述第一目标对象和/或所述第二目标对象进行行为类别,得到第一目标对象和/或第二目标对象的行为类别。
可选地,所述分类子模块包括:
生成单元,用于根据所述人体关键点生成PAF图;
形成单元,用于将所述PAF图结合所述视频数据中的RGB图形成4通道图像;
输入单元,用于将所述4通道图像输入到预先训练好的目标神经网络中,得到所述目标神经网络输出的所述第一目标对象和/或所述第二目标对象的行为类别。
可选地,所述第四确定子模块包括:
检测单元,用于使用目标检测算法检测出所述第一目标对象和/或所述第二目标对象的检测框;
特征提取单元,用于对所述视频数据中的目标图像进行特征提取,生成所述第一目标对象和/或所述第二目标对象的人体关键点的热图;
获取单元,用于在所述热图中获取与所述检测框对应的目标区域,得到包括所述目标区域的目标热图;
确定单元,用于在所述目标热图中确定所述第一目标对象和/或所述第二目标对象的人体关键点。
可选地,所述识别模块包括:
第五确定子模块,用于根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息确定所述第一目标对象的教学质量;或者
第六确定子模块,用于根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息确定所述第一目标对象的教学管理能力。
根据本发明的又一个实施例,还提供了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,获取针对预定区域范围采集的音视频数据,对所述音视频数据进行处理,得到视频数据和音频数据;对所述视频数据进行分析,得到第一目标对象和/或第二目标对象的行为类别;对所述音频数据进行语音识别,得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息;根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别,可以解决相关技术中通过静态图像很难准确识别教师行为的问题,通过第二目标对象和/或第一目标对象的行为结合语音信息,提高了第一目标对象(即教师)行为识别的准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种行为识别处理方法的移动终端的硬件结构框图;
图2是根据本发明实施例的一种行为识别处理方法的流程图;
图3是根据本发明实施例的课堂行为分析的示意图;
图4是根据本发明实施例的行为识别处理装置的框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种行为识别处理方法的移动终端的硬件结构框图,如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的报文接收方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述移动终端或网络架构的行为识别处理方法,图2是根据本发明实施例的一种行为识别处理方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取针对预定区域范围采集的音视频数据,对所述音视频数据进行处理,得到视频数据和音频数据;
具体的,可以通过摄像头采集音视频数据。
步骤S204,对所述视频数据进行分析,得到第一目标对象和/或第二目标对象的行为类别;
若上述第一目标对象为教师,第二目标对象为学生,第一目标对象的行为类别可以是巡视、讲授、板书、师生互动等,第二目标对象的行为类别可以是举手、与老师互动、与同学互动等。
步骤S206,对所述音频数据进行语音识别,得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息;
第一目标对象的语音内容可以包括授课内容、提问内容、答疑内容等,第二目标对象的语音信息可以包括回答问题、与同学交流、发出其他噪音等。
步骤S208,根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别。
通过上述步骤S202至S208,获取针对预定区域范围采集的音视频数据,对所述音视频数据进行处理,得到视频数据和音频数据;对所述视频数据进行分析,得到第一目标对象和/或第二目标对象的行为类别;对所述音频数据进行语音识别,得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息;根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别,可以解决相关技术中通过静态图像很难准确识别教师行为的问题,通过第二目标对象和/或第一目标对象的行为结合语音信息,提高了第一目标对象(即教师)行为识别的准确性。
在一个可选的实施例中,上述步骤S204具体可以包括:将所述预定区域范围划分为多个子区域,并确定所述第一目标对象在所述多个子区域中的时长;确定所述预定区域范围内第二目标对象的数量以及预定时间内的人数变动;识别所述视频数据中所述第二目标对象的异常行为。
对应的,上述步骤S206具体可以包括:对所述音频数据进行语音识别,得到所述第一目标对象的语音内容;确定所述第一目标对象的语速、音量、语音时长,以及确定所述第一目标对象与一个或多个所述第二目标对象之间的语音互动;获取除所述语音互动之外的所述第二目标对象的语音信息。
在另一个可选的实施例中,上述步骤S204具体可以包括:
S2041,确定所述视频数据中所述第一目标对象和/或所述第二目标对象的人体关键点;
进一步的,使用目标检测算法检测出所述第一目标对象和/或所述第二目标对象的检测框;对所述视频数据中的目标图像进行特征提取,生成所述第一目标对象和/或所述第二目标对象的人体关键点的热图;在所述热图中获取与所述检测框对应的目标区域,得到包括所述目标区域的目标热图;在所述目标热图中确定所述第一目标对象和/或所述第二目标对象的人体关键点。
S2042,对所述人体关键点和RGB图像对所述第一目标对象和/或所述第二目标对象进行行为类别,得到第一目标对象和/或第二目标对象的行为类别。
进一步的,根据所述人体关键点生成PAF图;将所述PAF图结合所述视频数据中的RGB图形成4通道图像;将所述4通道图像输入到预先训练好的目标神经网络中,得到所述目标神经网络输出的所述第一目标对象和/或所述第二目标对象的行为类别。
本发明实施例中,上述步骤S208具体可以包括:
根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息确定所述第一目标对象的教学质量;或者
根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息确定所述第一目标对象的教学管理能力。
下面以上述的预定区域范围为教室,第一目标对象为老师,第二目标对象为学生为例,对本发明实施例进行说明。
本发明实施例利用教室内设备采集音视频,然后对采集数据分析,对多种评价指标生成量化的结果。图3是根据本发明实施例的课堂行为分析的示意图,如图3所示,包括:
步骤S301,音视频采集,可使用任意能获得音视频的设备采集,设备可安装于课堂前方或后方的靠上位置,能覆盖整个教师场景即可。
步骤S302,教师识别,利用人脸识别和行人重识别技术,确定教师身份,并利用目标跟踪技术锁定目标。确定教师人份后进入教师活动区域统计和教师行为识别。
步骤S3021,教师活动区域统计,通过划定图像中各个活动区域的位置,统计教师在讲台区域的时长、在黑板区域活动的时长以及在教室其他区域活动的时长。
步骤S3022,教师行为识别:通过对教师人体行为的分析,统计教师在黑板书写时长,讲解PPT等行为,并利用人脸识别技术,确定人脸朝向,统计教师与学生眼神交流的行为。进一步结合语音识别结果,统计和学生互动的频率与时长。
步骤S303,学生人数统计,主要用来统计教室人数,以及人数变动的情况。
步骤S304,学生异常行为检测,主要用来识别玩手机、打闹、东张西望等不注意听讲等行为。
步骤S305,教师语音分析,对于采集的音频数据,首先使用教师语音分析识别出教师语音进一步的,包括:
S3051,教师语音互动统计,通过语音分析统计教师与学生互动的状态,可以辅助教师行为的识别。
S3052,教师语音统计,统计教师的语音语速、音量、时长等影响授课效果的信息。利用语音识别技术,分析教师说话内容,可以评价授课质量。
步骤S305,异常声音分析,主要统计课堂噪声大小以及学生随意的说话的信息,评价教师管理能力。
本发明实施例,使用深度学习技术检测人体关键点,然后再利用神经网络对关键点和RGB图像进行姿态分类,最后由预先定义的规则识别教师特定行为类别。具体包括:
人体关键点检测,包括:
第一步,使用目标检测算法,如YOLO,检测出人的边界框(对应上述的检测框);
第二步,使用基础网络,对整图提取特征,生成对应关键点的热图;
第三步,根据YOLO检测框,在热图中扣出对应区域;
第四步,通过关键点分配网络,基于扣出的热图,预测人体关键点。
通过上述步骤,可以在保证较高精度的同时,快速检测出关键点。
之后基于关键点的姿态识别,根据上面检测出的关键点生成PAF特征图,然后结合RGB形成4通道图像,送入到分类网络,对教师姿态分类。此种方法可以大幅提高分类准确率。在得到教师姿态后,通过预先设定的规则判别教师的行为类别。
本发明实施例,全面详细统计课堂内基本环境(如学生人数)和教师的各种行为数据;将音频内容分析和视频行为分析融合。
本发明实施例中,还可以基于视频数据和音频数据,统计学生的不同课堂行为在整堂课中的比例。例如前后排学生的回答问题比例、课堂活跃度等,可以分析学生个体或群体课堂的专注力和听课的效果。将学生的不同课堂行为以图表的形式进行了比例分类,并以此作为课堂报告进行呈现。进一步的,还可以通过对比学生个体行为和班级整体行为在各个时间点的相符和背离,统计学生个体的课堂参与度和班级课堂参与度的平均趋势。即体现了学生个体是否积极参与了班级教学行为,也揭示了班级整体的课堂参与意识。
同时还可以统计第一目标对象对学生的德育评价,具体可以包括:积极表现和消级表现;并进一步根据第一目标对象和学生的行为统计,得到S-T教学分析。
具体的,上述统计学生的不同课堂行为在整堂课中的比例,具体包括:为每个学生建立课堂行为时间线,针对该学生在当前课堂上不同时间点的行为,抠取头像,构建学生相册;为每个学生建立课堂表情时间线,针对该学生在当前课堂上不同时间点的表情,并抠取头像,分析学生个体或群体课堂的专注力和听课的效果。
实施例2
根据本发明的另一个实施例,还提供了一种行为识别处理装置,图4是根据本发明实施例的行为识别处理装置的框图,如图4所示,包括:
获取模块42,用于获取针对预定区域范围采集的音视频数据,对所述音视频数据进行处理,得到视频数据和音频数据;
分析模块44,用于对所述视频数据进行分析,得到第一目标对象和/或第二目标对象的行为类别;
语音识别模块46,用于对所述音频数据进行语音识别,得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息;
识别模块48,用于根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别。
可选地,所述分析模块44包括:
第一确定子模块,用于将所述预定区域范围划分为多个子区域,并确定所述第一目标对象在所述多个子区域中的时长;
第二确定子模块,用于确定所述预定区域范围内第二目标对象的数量以及预定时间内的人数变动;
识别子模块,用于识别所述视频数据中所述第二目标对象的异常行为。
可选地,所述语音识别模块包括:
语音识别子模块,用于对所述音频数据进行语音识别,得到所述第一目标对象的语音内容;
第三确定子模块,用于确定所述第一目标对象的语速、音量、语音时长,以及确定所述第一目标对象与一个或多个所述第二目标对象之间的语音互动;
获取子模块,用于获取除所述语音互动之外的所述第二目标对象的语音信息。
可选地,所述分析模块44包括:
第四确定子模块,用于确定所述视频数据中所述第一目标对象和/或所述第二目标对象的人体关键点;
分类子模块,用于对所述人体关键点和RGB图像对所述第一目标对象和/或所述第二目标对象进行行为类别,得到第一目标对象和/或第二目标对象的行为类别。
可选地,所述分类子模块包括:
生成单元,用于根据所述人体关键点生成PAF图;
形成单元,用于将所述PAF图结合所述视频数据中的RGB图形成4通道图像;
输入单元,用于将所述4通道图像输入到预先训练好的目标神经网络中,得到所述目标神经网络输出的所述第一目标对象和/或所述第二目标对象的行为类别。
可选地,所述第四确定子模块包括:
检测单元,用于使用目标检测算法检测出所述第一目标对象和/或所述第二目标对象的检测框;
特征提取单元,用于对所述视频数据中的目标图像进行特征提取,生成所述第一目标对象和/或所述第二目标对象的人体关键点的热图;
获取单元,用于在所述热图中获取与所述检测框对应的目标区域,得到包括所述目标区域的目标热图;
确定单元,用于在所述目标热图中确定所述第一目标对象和/或所述第二目标对象的人体关键点。
可选地,所述识别模块包括:
第五确定子模块,用于根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息确定所述第一目标对象的教学质量;或者
第六确定子模块,用于根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息确定所述第一目标对象的教学管理能力。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取针对预定区域范围采集的音视频数据,对所述音视频数据进行处理,得到视频数据和音频数据;
S2,对所述视频数据进行分析,得到第一目标对象和/或第二目标对象的行为类别;
S3,对所述音频数据进行语音识别,得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息;
S4,根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例4
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取针对预定区域范围采集的音视频数据,对所述音视频数据进行处理,得到视频数据和音频数据;
S2,对所述视频数据进行分析,得到第一目标对象和/或第二目标对象的行为类别;
S3,对所述音频数据进行语音识别,得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息;
S4,根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种行为识别处理方法,其特征在于,包括:
获取针对预定区域范围采集的音视频数据,对所述音视频数据进行处理,得到视频数据和音频数据;
对所述视频数据进行分析,得到第一目标对象和/或第二目标对象的行为类别;
对所述音频数据进行语音识别,得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息;
根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别;
其中,对所述视频数据进行分析,得到第一目标对象和/或第二目标对象的行为类别包括:
确定所述视频数据中所述第一目标对象和/或所述第二目标对象的人体关键点;
根据所述人体关键点生成PAF图;
将所述PAF图结合所述视频数据中的RGB图形成4通道图像;
将所述4通道图像输入到预先训练好的目标神经网络中,得到所述目标神经网络输出的所述第一目标对象和/或所述第二目标对象的行为类别。
2.根据权利要求1所述的方法,其特征在于,对所述音频数据进行语音识别,得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息包括:
对所述音频数据进行语音识别,得到所述第一目标对象的语音内容;
确定所述第一目标对象的语速、音量、语音时长,以及确定所述第一目标对象与一个或多个所述第二目标对象之间的语音互动;
获取除所述语音互动之外的所述第二目标对象的语音信息。
3.根据权利要求1所述的方法,其特征在于,确定所述视频数据中所述第一目标对象和/或所述第二目标对象的人体关键点包括:
使用目标检测算法检测出所述第一目标对象和/或所述第二目标对象的检测框;
对所述视频数据中的目标图像进行特征提取,生成所述第一目标对象和/或所述第二目标对象的人体关键点的热图;
在所述热图中获取与所述检测框对应的目标区域,得到包括所述目标区域的目标热图;
在所述目标热图中确定所述第一目标对象和/或所述第二目标对象的人体关键点。
4.根据权利要求1至3中任一项所述的方法,其特征在于,根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别包括:
根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息确定所述第一目标对象的教学质量;或者
根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息确定所述第一目标对象的教学管理能力。
5.一种行为识别处理装置,其特征在于,包括:
获取模块,用于获取针对预定区域范围采集的音视频数据,对所述音视频数据进行处理,得到视频数据和音频数据;
分析模块,用于对所述视频数据进行分析,得到第一目标对象和/或第二目标对象的行为类别;
语音识别模块,用于对所述音频数据进行语音识别,得到所述第一目标对象的语音内容和/或所述第二目标对象的语音信息;
识别模块,用于根据所述第一目标对象和/或所述第二目标对象的行为类别、语音信息对所述第一目标对象的行为进行识别;
其中,分析模块包括:
第四确定子模块,用于确定所述视频数据中所述第一目标对象和/或所述第二目标对象的人体关键点;
生成单元,用于根据所述人体关键点生成PAF图;
形成单元,用于将所述PAF图结合所述视频数据中的RGB图形成4通道图像;
输入单元,用于将所述4通道图像输入到预先训练好的目标神经网络中,得到所述目标神经网络输出的所述第一目标对象和/或所述第二目标对象的行为类别。
6.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行完成权利要求1至4任一项中所述的方法。
7.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项中所述的方法。
CN201911311563.1A 2019-12-18 2019-12-18 一种行为识别处理方法及装置 Active CN111046819B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911311563.1A CN111046819B (zh) 2019-12-18 2019-12-18 一种行为识别处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911311563.1A CN111046819B (zh) 2019-12-18 2019-12-18 一种行为识别处理方法及装置

Publications (2)

Publication Number Publication Date
CN111046819A CN111046819A (zh) 2020-04-21
CN111046819B true CN111046819B (zh) 2023-09-05

Family

ID=70237647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911311563.1A Active CN111046819B (zh) 2019-12-18 2019-12-18 一种行为识别处理方法及装置

Country Status (1)

Country Link
CN (1) CN111046819B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539339A (zh) * 2020-04-26 2020-08-14 北京市商汤科技开发有限公司 数据处理方法及装置、电子设备和存储介质
CN112001944A (zh) * 2020-07-09 2020-11-27 浙江大华技术股份有限公司 课堂教学质量评价数据的获取方法、计算机设备和介质
CN111968431A (zh) * 2020-09-15 2020-11-20 石家庄小雨淞教育科技有限公司 一种远程教育教学系统
CN112330579B (zh) * 2020-10-30 2024-06-14 中国平安人寿保险股份有限公司 视频背景更换方法、装置、计算机设备及计算机可读介质
CN112528822B (zh) * 2020-12-04 2021-10-08 湖北工业大学 一种基于人脸识别技术的老弱人群寻路导识装置及方法
CN112489129B (zh) * 2020-12-18 2024-07-19 深圳市优必选科技股份有限公司 位姿识别模型训练方法、装置、位姿识别方法和终端设备
CN112861730A (zh) * 2021-02-09 2021-05-28 北京文香信息技术有限公司 一种课堂行为的反馈方法、装置、电子设备及存储介质
CN114998968B (zh) * 2022-06-16 2024-05-31 北京理工大学 一种基于音视频分析课堂交互行为的方法
CN115810163B (zh) * 2022-11-17 2023-09-05 云启智慧科技有限公司 一种基于ai课堂行为识别的教学评估方法和系统
CN116757524B (zh) * 2023-05-08 2024-02-06 广东保伦电子股份有限公司 一种教师授课质量评价方法和装置
CN117557966B (zh) * 2024-01-09 2024-04-02 南京格瑞物联科技有限公司 基于监控图像识别的校园异常行为安全检测方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171187A (zh) * 2018-01-04 2018-06-15 中国电子科技集团公司电子科学研究院 一种基于骨点提取的异常行为自动识别方法及装置
CN108648757A (zh) * 2018-06-14 2018-10-12 北京中庆现代技术股份有限公司 一种基于多维度课堂信息的分析方法
CN109359613A (zh) * 2018-10-29 2019-02-19 四川文轩教育科技有限公司 一种基于人工智能的教学过程分析方法
CN109543513A (zh) * 2018-10-11 2019-03-29 平安科技(深圳)有限公司 智能监控实时处理的方法、装置、设备及存储介质
CN109657631A (zh) * 2018-12-25 2019-04-19 上海智臻智能网络科技股份有限公司 人体姿态识别方法及装置
WO2019095447A1 (zh) * 2017-11-17 2019-05-23 深圳市鹰硕技术有限公司 一种具有远程评价功能的跟随教学方法
CN109800663A (zh) * 2018-12-28 2019-05-24 华中科技大学鄂州工业技术研究院 基于语音和视频特征的教师教学评估方法及设备
CN110287947A (zh) * 2019-07-24 2019-09-27 阔地教育科技有限公司 互动课堂中的互动教室确定方法及装置
CN110532873A (zh) * 2019-07-24 2019-12-03 西安交通大学 一种联合人体检测与姿态估计的深度网络学习方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2522589T3 (es) * 2007-02-08 2014-11-17 Behavioral Recognition Systems, Inc. Sistema de reconocimiento conductual
KR102390836B1 (ko) * 2015-10-05 2022-04-26 삼성전자주식회사 이미지 데이터를 생성하는 전자 장치 및 방법
US10762353B2 (en) * 2017-04-14 2020-09-01 Global Tel*Link Corporation Inmate tracking system in a controlled environment
JP6688277B2 (ja) * 2017-12-27 2020-04-28 本田技研工業株式会社 プログラム、学習処理方法、学習モデル、データ構造、学習装置、および物体認識装置
US20190379819A1 (en) * 2018-06-12 2019-12-12 Sony Corporation Detection of main object for camera auto focus

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019095447A1 (zh) * 2017-11-17 2019-05-23 深圳市鹰硕技术有限公司 一种具有远程评价功能的跟随教学方法
CN108171187A (zh) * 2018-01-04 2018-06-15 中国电子科技集团公司电子科学研究院 一种基于骨点提取的异常行为自动识别方法及装置
CN108648757A (zh) * 2018-06-14 2018-10-12 北京中庆现代技术股份有限公司 一种基于多维度课堂信息的分析方法
CN109543513A (zh) * 2018-10-11 2019-03-29 平安科技(深圳)有限公司 智能监控实时处理的方法、装置、设备及存储介质
CN109359613A (zh) * 2018-10-29 2019-02-19 四川文轩教育科技有限公司 一种基于人工智能的教学过程分析方法
CN109657631A (zh) * 2018-12-25 2019-04-19 上海智臻智能网络科技股份有限公司 人体姿态识别方法及装置
CN109800663A (zh) * 2018-12-28 2019-05-24 华中科技大学鄂州工业技术研究院 基于语音和视频特征的教师教学评估方法及设备
CN110287947A (zh) * 2019-07-24 2019-09-27 阔地教育科技有限公司 互动课堂中的互动教室确定方法及装置
CN110532873A (zh) * 2019-07-24 2019-12-03 西安交通大学 一种联合人体检测与姿态估计的深度网络学习方法

Also Published As

Publication number Publication date
CN111046819A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN111046819B (zh) 一种行为识别处理方法及装置
CN109522815B (zh) 一种专注度评估方法、装置及电子设备
CN108648757B (zh) 一种基于多维度课堂信息的分析方法
CN109344682B (zh) 课堂监控方法、装置、计算机设备及存储介质
CN108304793B (zh) 在线学习分析系统及方法
CN109740446A (zh) 课堂学生行为分析方法及装置
CN110059614A (zh) 一种基于人脸情绪识别的智能辅助教学方法及系统
US20190340948A1 (en) Cluster analysis of participant responses for test generation or teaching
CN111027486A (zh) 一种中小学课堂教学效果大数据辅助分析评价系统及其方法
CN110097283B (zh) 基于人脸识别的教学管理系统及方法
CN104299178A (zh) 一种基于面部识别的网络教学方法及系统
CN111666820B (zh) 一种讲话状态识别方法、装置、存储介质及终端
CN116824278A (zh) 图像内容分析方法、装置、设备和介质
CN112613780A (zh) 一种学习报告生成的方法、装置、电子设备及存储介质
CN108898115A (zh) 数据处理方法、存储介质和电子设备
CN112949461A (zh) 一种学习状态的分析方法、装置以及电子设备
CN114299617A (zh) 一种教学互动情况识别方法、装置、设备及存储介质
CN109544417A (zh) 一种学习效果确定方法、装置、存储介质及终端设备
CN112102129A (zh) 一种基于学生端数据处理的智能考试作弊识别系统
CN111325082A (zh) 一种人员专注度分析方法及装置
CN112819665A (zh) 课堂状态的评估方法和相关装置、设备
CN111160277A (zh) 行为识别分析方法和系统、计算机可读存储介质
CN111192170B (zh) 题目推送方法、装置、设备和计算机可读存储介质
CN110111011B (zh) 一种教学质量监管方法、装置及电子设备
CN112087590A (zh) 图像处理方法、装置、系统及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant