CN111275592A - 一种基于视频图像的课堂行为分析方法 - Google Patents
一种基于视频图像的课堂行为分析方法 Download PDFInfo
- Publication number
- CN111275592A CN111275592A CN202010049742.9A CN202010049742A CN111275592A CN 111275592 A CN111275592 A CN 111275592A CN 202010049742 A CN202010049742 A CN 202010049742A CN 111275592 A CN111275592 A CN 111275592A
- Authority
- CN
- China
- Prior art keywords
- video
- behavior
- network
- vtan
- inputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Educational Technology (AREA)
- Educational Administration (AREA)
- Multimedia (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于视频图像处理的课堂行为分析方法,包括如下步骤:步骤1:构建视频目标分析网络VTAN,并结合训练数据集Sample通过BP反向传播算法对其进行训练;步骤2:读入视频帧数量、宽度和高度分别为Qk、Wk和Hk的视频段V;步骤3:对视频段V进行预处理;步骤4:将视频段Vs输入到训练好的视频目标分析网络VTAN中进行前向传播;步骤5:取集合C中最大置信度cmax,判断其对应的行为actmax为最可能行为类型;本发明的有益效果是:通过双流结构的神经网络对视频中的目标行为进行快速准确地判断。
Description
技术领域
本发明涉及视频图像处理方法技术领域,具体涉及一种基于视频图像的课堂行为分析方法。
背景技术
人工神经网络由于其准确率高、通用性强的特点,受到各行各业学者的持续关注和研究。它是一个能够通过已知实验数据来学习训练和归纳分类的系统。
近年来,随着智慧教室和平安校园等概念的提出,教室中摄像头的应用得到普及,加之学生的学业预警更加重视,课堂行为的监测和分析问题也变得尤其突出。学生课堂行为是课堂专注度的外在体现,然而传统课堂行为分析多是通过自我报告法、人工观察手动编码等方法来进行行为采集,这些传统方法都存在着滞后的弊端,不能分析以报告老师和及时干预。为了解决课堂教学中学生的学习行为实时分析问题,国内外学术界、工业界提出了很多方案。其中与本发明较为接近的技术方案包括:穆肃,左萍萍(信息化教学环境下课堂教学行为分析方法的研究[J].电化教育研究,2015,36(09):62-69.)该方法选取来源广泛的课堂教学实时视频录像数据进行分析试验,从教师和学生的教学行为、课堂师生互动行为以及媒体在课堂教学中的应用等三个方面进行分析,能够客观反映信息化教学环境中课堂教学行为的主要类型和作用方式。但是该方法主要是用于课堂后的反思和总结,不能实时进行反馈和干预。刘清堂(基于人工智能的课堂教学行为分析方法及其应用[J].中国电化教育,2019(09):13-21.)该方法基本上实现了课堂行为分析的自动化、常态化、规模化。该方法中的行为分析方法分为特征提取和行为识别:特征提取主要通过OpenCV提供的相关算法获取图像特征再进行特征选择;行为识别是通过J48决策树分类器方法。该方法初步实现了课堂行为分析,但是该方法准确率和效率都不高,难以实际应用。发明专利(申请号:CN201811534533.2,名称:课堂学生行为分析方法及装置)公开了一种教师课堂行为分析系统,提供一种课堂学生行为分析方法及配置,基于OpenPose为基础去实现对学生的课堂行为进行分析,但是分析都是课后进行,无法进行实时的反馈和干预。发明专利(申请号:CN201910588415.8,名称:一种云台摄像智能分析教学录播一体机)公开了一种能智能分析教学录播一体机,能实现课堂场景下目标与行为的自动分析并完成师生的运动实时跟踪。但是需要对实验室进行重新配置,需要增加额外的硬件成本。且该方法只能识别师生的基础行为,如教师板书、教师提问、教师徘徊、学生举手、学生起立、学生坐下,无法将其行为进一步进行分析以全面体现课堂状态。
综上所述,当前课堂行为识别方法中存在如下不足:
1)传统的课堂行为识别主要依赖教师观察、自我报告法、人工观察手动编码等方法,除了教师在教学中实时观察都存在滞后的弊端。而课堂是一个复杂环境,教师要兼顾教师的教和学生的学,注意力和精力有限,尤其是在实训实操课堂中,一人一机,更突出了课堂行为识别的难度。
2)多数方法中是对课堂行为的监测效用在课后,在教室教研分析和教学评估上,但是无法实时反馈实时课堂情况以报告老师和学生,更无法促使老师做出课堂干预和提醒学生自觉收敛;
3)部分方法对硬件设备软件环境要求较高,对现有的信息化教室环境需要改造的力度大,如需要指定的一体机和设备才能实现相应功能,实际情况下应用成本过高,并且实现行为分析的准确性和效率还有待提高;
信息化课堂的越来越普及,给予我们方法充分的应用环境和空间,同时也拉伸了教师和学生的距离,特别是一些信息化实训智慧教室(一人一机),因为教师教学演示所需,大部分精力都在于实操演示上,无法随时观测到每个学生的课堂行为情况。学生课堂行为是课堂专注度的外在体现,课堂上的问题行为若不及时干预,不仅会加剧不良学习行为,也会影响到周围同学,使得课堂教学效果大打折扣。而本发明中的方法可以实时对学生的课堂行为进行监测分析,并实时向教师和学生反馈,便于教师及时进行干预。
发明内容
针对现有技术中存在的问题,本发明提供了一种基于视频图像处理的课堂行为分析方法,准确快速地实现课堂行为分析。
本发明的技术方案如下:
一种基于视频图像处理的课堂行为分析方法,其特征在于,包括如下步骤:
步骤1:构建包括视频分流模块、灰度视频模块、缩放视频模块、backbone模块、softmax层及Concat层的视频目标分析网络VTAN,并结合训练数据集Sample通过BP反向传播算法对其进行训练,其中Sample={(Vi,labeli)|i=1,2,3,…,ns},Vi={Iij|j=1,2,3,…mij},Vi表示第i段课堂行为训练视频,labeli为视频Vi对应的行为标签,ns为训练样本的数量,Iij表示视频Vi中第j帧视频帧图像,mij表示第i段视频中包含的视频帧数;
步骤2:读入视频帧数量、宽度和高度分别为Qk、Wk和Hk的视频段V;
步骤3:对视频段V进行预处理,对视频段V进行均匀采样,得到长度为lv的视频段Vs;
步骤4:将视频段Vs输入到训练好的视频目标分析网络VTAN中进行前向传播,具体步骤如下:
步骤4.1:将视频段Vs中的所有视频帧图像按缩放比例α进行缩放得视频段U,将Vs中所有的视频帧图像进行灰度化得视频段W;其中α表示预先给定的视频图像缩放比例;
步骤4.2:将视频段U输入到网络VTAN中的缩放视频模块中,并进行前向传播,并输出网络中间特征Fu;
步骤4.3:将视频段W输入到网络VTAN中的灰度视频模块中,并进行前向传播;该视频段W依次通过2个三维卷积层和三维最大池化层组成的块结构,以及1个一维卷积层,并输出网络中间特征Fw;
步骤4.4:将网络中间特征Fu和Fw通过Concat层进行融合,并将融合特征输入1个三维卷积层中,进行前向传播得融合网络特征Ff;
步骤4.5:将Ff输入到由8层残差层组成的backbone网络结构进行前向传播,并将其输出结果输入到Softmax层中,输出各个行为的置信度集合C={(acti,ci)|i=1,2,3,…,na},其中acti表示第i类行为,ci表示行为acti对应的置信度,na代表分类行为的类别数;
步骤5:取集合C中最大置信度cmax,判断其对应的行为actmax为最可能行为类型;若满足式(1),则视频段V的行为为actmax,反之,视频段V的行为无法判断;
cmax≥θ (1)
θ表示实现给定的行为判断阈值。
所述的一种基于视频图像处理的课堂行为分析方法,其特征在于,所述步骤1中的缩放视频模块包含3个三维卷积层,灰度视频模块包含2个块结构和1个一维卷积层,其中块结构包括三维卷积层和三维最大池化层组成。
本发明的有益效果是:通过双流结构的神经网络对视频中的目标行为进行快速准确地判断;将输入视频段进行压缩之后,输入到视频行为分类的双流人工神经网络之中,并将网络中的两段数据流在特征大小相同的情况下进行融合,在不牺牲视频特征的情况下实现快速的目标行为判断,解决了课堂行为分析不准确的问题。
附图说明
图1为本发明用于课堂行为分析的VTAN(VideoTargetAnalysisNetwork)神经网络结构图;
图2为本发明应用场景的模拟图。
具体实施方法
下面结合实施例,来对本发明进行详细阐述。
如图1-2所示,本发明是基于信息化实训智慧教室,一人一机的基础设施前提下,来对学生课堂行为进行有效分析;
一种基于视频图像处理的课堂行为分析方法,具体步骤如下:
步骤1:构建包含视频分流模块、灰度视频模块、缩放视频模块、backbone模块、一个softmax层及一个Concat层的视频目标分析网络VTAN,并结合训练数据集Sample通过BP反向传播算法对其进行训练,其中Sample={(Vi,labeli)|i=1,2,3,…,ns},Vi={Iij|j=1,2,3,…mij},Vi表示第i段课堂行为训练视频,labeli为视频Vi对应的行为标签,ns为训练样本的数量,Iij表示视频Vi中第j帧视频帧图像,mij表示第i段视频中包含的视频帧数;
步骤2:从摄像头读入视频帧数量、宽度和高度分别为Qk、Wk和Hk的视频段V;
步骤3:对视频段V进行预处理,即对视频段V进行均匀采样,得到长度为lv的视频段Vs;
步骤4:将视频段Vs输入到训练好的视频目标分析网络VTAN中进行前向传播,具体流程如下:
步骤4.1:将视频段Vs中的所有视频帧图像按缩放比例α进行缩放得视频段U,将Vs中所有的视频帧图像进行灰度化得视频段W;其中α表示预先给定的视频图像缩放比例,在本示例中,α=4;
步骤4.2:将视频段U输入到网络VTAN中的缩放视频模块中,并进行前向传播,并输出网络中间特征Fu;
步骤4.3:将视频段W输入到网络VTAN中的灰度视频模块中,并进行前向传播;该视频段W依次通过2个三维卷积层和三维最大池化层组成的块结构,以及1个一维卷积层,并输出网络中间特征Fw;
步骤4.4:将网络中间特征Fu和Fw通过Concat层进行融合,并将融合特征输入1个三维卷积层中,进行前向传播得融合网络特征Ff;
步骤4.5:将Ff输入到由8层残差层组成的backbone网络结构进行前向传播,并将其输出结果输入到Softmax层中,输出各个行为的置信度集合C={(acti,ci)|i=1,2,3,…,na},其中acti表示第i类行为,ci表示行为acti对应的置信度,na代表分类行为的类别数;
步骤5:取集合C中最大置信度cmax,判断其对应的行为actmax为最可能行为类型;若满足式(1),则视频段V的行为为actmax,反之,视频段V的行为无法判断;
cmax≥θ (1)
θ表示实现给定的行为判断阈值。在本示例中,θ取0.5。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (2)
1.一种基于视频图像处理的课堂行为分析方法,其特征在于,包括如下步骤:
步骤1:构建包括视频分流模块、灰度视频模块、缩放视频模块、backbone模块、softmax层及Concat层的视频目标分析网络VTAN,并结合训练数据集Sample通过BP反向传播算法对其进行训练,其中Sample={(Vi,labeli)|i=1,2,3,…,ns},Vi={Iij|j=1,2,3,…mij},Vi表示第i段课堂行为训练视频,labeli为视频Vi对应的行为标签,ns为训练样本的数量,Iij表示视频Vi中第j帧视频帧图像,mij表示第i段视频中包含的视频帧数;
步骤2:读入视频帧数量、宽度和高度分别为Qk、Wk和Hk的视频段V;
步骤3:对视频段V进行均匀采样,得到长度为lv的视频段Vs;
步骤4:将视频段Vs输入到训练好的视频目标分析网络VTAN中进行前向传播,具体步骤如下:
步骤4.1:将视频段Vs中的所有视频帧图像按缩放比例α进行缩放得视频段U,将Vs中所有的视频帧图像进行灰度化得视频段W;其中α表示预先给定的视频图像缩放比例;
步骤4.2:将视频段U输入到网络VTAN中的缩放视频模块中,并进行前向传播,并输出网络中间特征Fu;
步骤4.3:将视频段W输入到网络VTAN中的灰度视频模块中,并进行前向传播;该视频段W依次通过2个三维卷积层和三维最大池化层组成的块结构和1个一维卷积层,并输出网络中间特征Fw;
步骤4.4:将网络中间特征Fu和Fw通过Concat层进行融合,并将融合特征输入1个三维卷积层中,进行前向传播得融合网络特征Ff;
步骤4.5:将Ff输入到由8层残差层组成的backbone网络结构进行前向传播,并将其输出结果输入到Softmax层中,输出各个行为的置信度集合C={(acti,ci)|i=1,2,3,…,na},其中acti表示第i类行为,ci表示行为acti对应的置信度,na代表分类行为的类别数;
步骤5:取集合C中最大置信度cmax,判断其对应的行为actmax为最可能行为类型;若满足式(1),则视频段V的行为为actmax,反之,视频段V的行为无法判断;
cmax≥θ (1)
θ表示实现给定的行为判断阈值。
2.根据权利要求1所述的一种基于视频图像处理的课堂行为分析方法,其特征在于,所述步骤1中的视频目标分析网络VTAN中缩放视频模块包含3个三维卷积层,灰度视频模块包含2个块结构和1个一维卷积层,其中块结构包括三维卷积层和三维最大池化层组成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010049742.9A CN111275592B (zh) | 2020-01-16 | 2020-01-16 | 一种基于视频图像的课堂行为分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010049742.9A CN111275592B (zh) | 2020-01-16 | 2020-01-16 | 一种基于视频图像的课堂行为分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111275592A true CN111275592A (zh) | 2020-06-12 |
CN111275592B CN111275592B (zh) | 2023-04-18 |
Family
ID=70998889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010049742.9A Active CN111275592B (zh) | 2020-01-16 | 2020-01-16 | 一种基于视频图像的课堂行为分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111275592B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112349150A (zh) * | 2020-11-19 | 2021-02-09 | 飞友科技有限公司 | 一种机场航班保障时间节点的视频采集方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016061724A1 (zh) * | 2014-10-20 | 2016-04-28 | 中国科学院自动化研究所 | 一种基于深度学习的全天候视频监控方法 |
CN109359521A (zh) * | 2018-09-05 | 2019-02-19 | 浙江工业大学 | 基于深度学习的课堂质量双向评估系统 |
CN109800689A (zh) * | 2019-01-04 | 2019-05-24 | 西南交通大学 | 一种基于时空特征融合学习的目标跟踪方法 |
CN109934106A (zh) * | 2019-01-30 | 2019-06-25 | 长视科技股份有限公司 | 一种基于视频图像深度学习的用户行为分析方法 |
CN110334610A (zh) * | 2019-06-14 | 2019-10-15 | 华中师范大学 | 一种基于计算机视觉的多维度课堂量化系统及方法 |
CN110414380A (zh) * | 2019-07-10 | 2019-11-05 | 上海交通大学 | 一种基于目标检测的学生行为检测方法 |
-
2020
- 2020-01-16 CN CN202010049742.9A patent/CN111275592B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016061724A1 (zh) * | 2014-10-20 | 2016-04-28 | 中国科学院自动化研究所 | 一种基于深度学习的全天候视频监控方法 |
CN109359521A (zh) * | 2018-09-05 | 2019-02-19 | 浙江工业大学 | 基于深度学习的课堂质量双向评估系统 |
CN109800689A (zh) * | 2019-01-04 | 2019-05-24 | 西南交通大学 | 一种基于时空特征融合学习的目标跟踪方法 |
CN109934106A (zh) * | 2019-01-30 | 2019-06-25 | 长视科技股份有限公司 | 一种基于视频图像深度学习的用户行为分析方法 |
CN110334610A (zh) * | 2019-06-14 | 2019-10-15 | 华中师范大学 | 一种基于计算机视觉的多维度课堂量化系统及方法 |
CN110414380A (zh) * | 2019-07-10 | 2019-11-05 | 上海交通大学 | 一种基于目标检测的学生行为检测方法 |
Non-Patent Citations (3)
Title |
---|
M. PANTIC 等: "Dynamics of facial expression: recognition of facial actions and their temporal segments from face profile image sequences" * |
傅梦雨: "基于深度学习的人体行为识别分析研究" * |
廖鹏;刘宸铭;苏航;李启芳;韩延巾;: "基于深度学习的学生课堂异常行为检测与分析系统" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112349150A (zh) * | 2020-11-19 | 2021-02-09 | 飞友科技有限公司 | 一种机场航班保障时间节点的视频采集方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111275592B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111027865B (zh) | 基于行为和表情识别的教学分析与质量评估系统及方法 | |
CN107918821A (zh) | 基于人工智能技术的教师课堂教学过程分析方法和系统 | |
CN112069970B (zh) | 课堂教学事件分析方法及装置 | |
CN111242049A (zh) | 一种基于面部识别的学生网课学习状态评价方法及系统 | |
CN112132009A (zh) | 课堂行为分析方法、系统及电子设备 | |
CN111275592B (zh) | 一种基于视频图像的课堂行为分析方法 | |
CN113408852A (zh) | 基于在线学习行为和深度神经网络的元认知能力评估模型 | |
CN111178263A (zh) | 一种实时表情分析方法及其装置 | |
CN115240259A (zh) | 一种基于yolo深度网络的课堂环境下人脸检测方法及其检测系统 | |
CN111611854A (zh) | 一种基于模式识别的课堂情况评价方法 | |
CN113283334B (zh) | 一种课堂专注度分析方法、装置和存储介质 | |
CN114898460A (zh) | 一种基于图卷积神经网络的教师非言语行为检测方法 | |
Yang et al. | Student in-class behaviors detection and analysis system based on CBAM-YOLOv5 | |
CN112686462A (zh) | 基于学生画像的异常检测方法、装置、设备及存储介质 | |
CN114187640A (zh) | 一种基于线上课堂的学情观察方法、系统、设备及介质 | |
CN116434341A (zh) | 一种学生课堂异常行为的识别方法及系统 | |
CN110189236A (zh) | 基于大数据的学习预警方法 | |
CN113688789B (zh) | 一种基于深度学习的在线学习投入度识别方法及系统 | |
Shamika et al. | Student concentration level monitoring system based on deep convolutional neural network | |
He et al. | Analysis of concentration in English education learning based on CNN model | |
CN115240271A (zh) | 基于时空建模的视频行为识别方法与系统 | |
CN111612047B (zh) | 基于属性特征向量和可逆生成模型的零样本图像识别方法 | |
CN113469001A (zh) | 一种基于深度学习的学生课堂行为检测方法 | |
Su | Design of intelligent classroom teaching scheme using artificial intelligence | |
CN113919567A (zh) | 一种结合知识追踪和序列标注模型的试卷成绩预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |