CN111353468A - 一种课堂学生行为检测方法 - Google Patents

一种课堂学生行为检测方法 Download PDF

Info

Publication number
CN111353468A
CN111353468A CN202010173963.7A CN202010173963A CN111353468A CN 111353468 A CN111353468 A CN 111353468A CN 202010173963 A CN202010173963 A CN 202010173963A CN 111353468 A CN111353468 A CN 111353468A
Authority
CN
China
Prior art keywords
hand
head
detection
shoulder frame
detection method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010173963.7A
Other languages
English (en)
Inventor
黄艳虎
巫钊
王强
甘国妹
苏雪
陈超村
陈思谕
王德民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yulin Normal University
Original Assignee
Yulin Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yulin Normal University filed Critical Yulin Normal University
Priority to CN202010173963.7A priority Critical patent/CN111353468A/zh
Publication of CN111353468A publication Critical patent/CN111353468A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/117Biometrics derived from hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Strategic Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种课堂学生行为检测方法,涉及图像处理与识别,主要解决的是目前全图检测方法存在准确度低、速度慢、鲁棒性差的技术问题,所述课堂学生行为检测方法包括:将课堂学生的原始图像转换为灰度图;将所述灰度图输入深度学习模型进行头肩框检测和趴桌子识别,并得到头肩框;根据所述头肩框确定举手检测区域,并在所述举手检测区域内进行举手检测。本发明根据头肩框确定举手检测区域,并在举手检测区域内进行举手检测,使得检测输入图像大大减小,检测区域大大减小,可以有效提高人手检测效率,也大大提高人手检测准确率,鲁棒性强。

Description

一种课堂学生行为检测方法
技术领域
本发明涉及图像处理与识别,更具体地说,它涉及一种课堂学生行为检测方法。
背景技术
图像处理与识别已经应用到各行各业,如在课堂上使用图像处理与识别技术来检测学生的行为,可以及时了解和记录学生的动态,有利于加强课堂,提高教学质量。目前主要是通过全图检测方法来检测课堂学生行为,全图检测存在准确度低、速度慢、鲁棒性差的缺点。
发明内容
本发明要解决的技术问题是针对现有技术的上述不足,本发明的目的是提供一种准确度高、速度快、鲁棒性强的课堂学生行为检测方法。
本发明的技术方案是:一种课堂学生行为检测方法,所述方法包括:
将课堂学生的原始图像转换为灰度图;
将所述灰度图输入深度学习模型进行头肩框检测和趴桌子识别,并得到头肩框;
根据所述头肩框确定举手检测区域,并在所述举手检测区域内进行举手检测。
作为进一步地改进,根据公式:
f(i,j)=0.2999R+0.587G+0.114B,
对所述原始图像进行灰度化处理得到所述灰度图,其中,f(i,j)为灰度化后图像坐标(i,j)处的像素灰度值,R,G,B分别为彩色图像RGB三分量。
进一步地,所述深度学习模型为卷积神经网络,所述头肩框检测与趴桌子识别的特征提取部分采用经过通道压缩的多个卷积层和一系列能使网络加速收敛的BN层。
进一步地,所述头肩框检测采用由卷积神经网络学习得到的一系列特征作为描述特征并结合回归算法对其进行位置定位。
进一步地,所述趴桌子识别采用由卷积神经网络学习得到的一系列特征作为描述特征并结合分类算法对其特征进行分类。
进一步地,所述头肩框检测和趴桌子状态识别采用参数共享和多尺度特征融合。
进一步地,所述根据所述头肩框确定举手检测区域具体为:
以所述头肩框为基础,将检测到的头肩框宽高各扩大设定像素作为举手检测区域。
进一步地,所述进行举手检测具体为:
获取所述举手检测区域的截图;
将所述截图输入卷积神经网络,采用经过通道压缩的多个卷积层和一系列能使网络加速收敛性的BN层提取举手特征;
将所述举手特征作为描述特征并结合回归算法对其进行位置定位;
将所述举手特征作为描述特征并结合分类算法对其特征进行分类得到人手或非人手。
进一步地,若检测到人手,同时所述人手右下的y轴坐标小于所述头肩框右下y轴坐标值,则判定为学生举手;否则判定为学生未举手。
有益效果
本发明与现有技术相比,具有的优点为:本发明采用卷积神经网络的特征提取方法,根据头肩框特征判别学生趴桌子行为,并基于头肩框外扩确定举手检测区域,在举手检测区域中进行举手检测,使得检测输入图像大大减小,检测区域大大减小,从而既提高人手检测效率,也大大提高人手检测准确率,该方法在实际应用场景中得到验证。本发明相比于传统技术的全图检测方法,具有输入图像小、图像特征提取速度快、特征提取网络简单、准确度高、速度快、鲁棒性高等优点。
附图说明
图1为本发明的检测流程示意图;
图2为本发明中头肩框检测与趴桌子识别卷积神经网络原理图;
图3为本发明中人手检测卷积神经网络原理图。
具体实施方式
下面结合附图中的具体实施例对本发明做进一步的说明。
参阅图1-3,一种课堂学生行为检测方法,方法包括:
将课堂学生的原始图像转换为灰度图;
将灰度图输入深度学习模型进行头肩框检测和趴桌子识别,并得到头肩框;
根据头肩框确定举手检测区域,并在举手检测区域内进行举手检测。
可以根据公式:
f(i,j)=0.2999R+0.587G+0.114B,
对原始图像进行灰度化处理得到灰度图,其中,f(i,j)为灰度化后图像坐标(i,j)处的像素灰度值,R,G,B分别为彩色图像RGB三分量,转换为灰度图,可以排除颜色的干扰,方便后序对数据的处理。
深度学习模型为卷积神经网络,将灰度图大小resize为640*640后输入卷积神经网络,可以兼顾精度和效率。当然,灰度图大小resize的尺寸也可以在实际项目中调整得到。头肩框检测与趴桌子识别的特征提取部分采用经过通道压缩的多个卷积层和一系列能使网络加速收敛的BN层。其中,头肩框检测采用由卷积神经网络学习得到的一系列特征作为描述特征并结合回归算法对其进行位置定位,趴桌子识别采用由卷积神经网络学习得到的一系列特征作为描述特征并结合分类算法对其特征进行分类。头肩框检测和趴桌子状态识别采用参数共享和多尺度特征融合,连接多个不同尺度的特征图同时对头肩框进行检测,兼顾不同的感受野,大大提高了精度,同时将回归算法和分类算法融合到整个网络中进行端到端检测识别,网络直接输出头肩框位置和对应的头肩框状态,即正常头肩框或趴桌子头肩框。
在本实施例中,头肩框范围对应为头部到肩膀边缘,包含锁骨边缘区域,根据头肩框特征可以方便判别学生趴桌子的行为。
作为优选,特征提取部分采用经过通道压缩的22个卷积层,通道压缩的22个卷积层特征图输出通道分别为8、16、16、64、64、64、64、64、64、32、64、64、64、16、64、64、64、32、16、32、32、64,该网络所有权重均采用随机初始化方式。
头肩框的位置回归误差函数采用Smooth L1 Loss,具体算法为:
Figure BDA0002410166940000041
Figure BDA0002410166940000042
Figure BDA0002410166940000043
Figure BDA0002410166940000044
其中N是先验框的正样本数量。这里
Figure BDA0002410166940000051
为一个指示参数,
Figure BDA0002410166940000052
时表示第i个先验框与第j个ground truth匹配,并且ground truth的类别为p,c为类别置信度预测值,l为先验框的所对应边界框的位置预测值,而g为ground truth的位置参数。
由于
Figure BDA0002410166940000053
的存在,所以位置误差仅针对正样本进行计算,值得注意的是,要先对ground truth的g进行编码得到
Figure BDA0002410166940000054
因为预测值l也是编码值,最后通过最小化Lloc(x,l,g),实现一个可用的Smooth L1回归模型。
作为优选,在640*640大小的灰度图像作为特征提取网络输入的基础上,连接6个不同尺度的特征图同时对头肩框进行检测,6个不同尺度的特征图尺寸分别为40*40、20*20、10*10、5*5、3*3、1*1。
使用softmax分类器解决趴桌子分类问题,趴桌子分类具体为正常头肩框和趴桌子头肩框,softmax具体算法为:
类标y可以取k个不同的值,对于训练集{(x(1),y(1)),...,(x(m),y(m))},得到有y(i)∈{1,2,...,k},此处的类别下标从1开始,而不是0。
对于给定的测试输入x,使用假设函数针对每一个类别j估算出概率值p(y=j|x),即估计x的每一种分类结果出现的概率,因此,假设函数将要输出一个k维的向量来表示这k个估计的概率值,向量元素的和为1。假设函数hθ(x)如下:
Figure BDA0002410166940000055
其中
Figure BDA0002410166940000056
是模型的参数,
Figure BDA0002410166940000057
这一项对概率分布进行归一化,使得所有概率之和为1。
为了方便起见,同样使用符号θ来表示全部的模型参数,在实现Softmax回归时,将θ用一个k×(n+1)的矩阵来表示会很方便,该矩阵是将θ12,…θk按行罗列起来得到的,如下所示:
Figure BDA0002410166940000061
下面公式为softmax的代价函数:
Figure BDA0002410166940000062
通过添加一个权重衰减项
Figure BDA0002410166940000063
来修改代价函数,这个衰减项会惩罚过大的参数值,现在的代价函数变为:
Figure BDA0002410166940000064
有了这个权重衰减项以后(λ>0),代价函数就变成了严格的凸函数,可以保证得到唯一的解。此时的Hessian矩阵变为可逆矩阵,并且因为J(θ)是凸函数,梯度下降法和L-BFGS等算法可以保证收敛到全局最优解。
为了使用优化算法,需要求得这个新函数J(θ)的导数,如下:
Figure BDA0002410166940000065
通过最小化J(θ)就实现一个可用的softmax分类模型。
根据头肩框确定举手检测区域具体为:以所述头肩框为基础,将检测到的头肩框宽高各扩大设定像素作为举手检测区域。在本实施例中,设定像素为60,以头肩框为基础,宽高均扩大60个像素即为举手检测区域。当然,设定像素也可以根据实现情况设定为其他值。
在举手检测区域内进行举手检测具体为:
获取举手检测区域的截图;
将截图大小resize为192*192,将截图输入卷积神经网络,采用经过通道压缩的多个卷积层和一系列能使网络加速收敛性的BN层提取举手特征;作为优选,采用经过通道压缩的8个卷积层,8个卷积层输出通道分别为4、4、8、16、16、16、32、16;
将举手特征作为描述特征并结合回归算法对其进行位置定位,人手检测的回归误差函数,采用Smooth L1 Loss;
将举手特征作为描述特征并结合分类算法对其特征进行分类得到人手或非人手,人手分类器采用softmax分类器。
在本实施例中,人手位置范围对应为舒展的手指尖到手腕边缘区域,方便分类。若检测到人手,同时人手右下的y轴坐标小于头肩框右下y轴坐标值,则判定为学生举手;否则判定为学生未举手。
本发明采用卷积神经网络的特征提取方法,根据头肩框特征判别学生趴桌子行为,并基于头肩框外扩确定举手检测区域,在举手检测区域中进行举手检测,使得检测输入图像大大减小,检测区域大大减小,从而既提高人手检测效率,也大大提高人手检测准确率,该方法在实际应用场景中得到验证。本发明相比于传统技术的全图检测方法,具有输入图像小、图像特征提取速度快、特征提取网络简单、准确度高、速度快、鲁棒性高等优点。
以上仅是本发明的优选实施方式,应当指出对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些都不会影响本发明实施的效果和专利的实用性。

Claims (9)

1.一种课堂学生行为检测方法,其特征在于,所述方法包括:
将课堂学生的原始图像转换为灰度图;
将所述灰度图输入深度学习模型进行头肩框检测和趴桌子识别,并得到头肩框;
根据所述头肩框确定举手检测区域,并在所述举手检测区域内进行举手检测。
2.根据权利要求1所述的一种课堂学生行为检测方法,其特征在于,根据公式:
f(i,j)=0.2999R+0.587G+0.114B,
对所述原始图像进行灰度化处理得到所述灰度图,其中,f(i,j)为灰度化后图像坐标(i,j)处的像素灰度值,R,G,B分别为彩色图像RGB三分量。
3.根据权利要求1所述的一种课堂学生行为检测方法,其特征在于,所述深度学习模型为卷积神经网络,所述头肩框检测与趴桌子识别的特征提取部分采用经过通道压缩的多个卷积层和一系列能使网络加速收敛的BN层。
4.根据权利要求3所述的一种课堂学生行为检测方法,其特征在于,所述头肩框检测采用由卷积神经网络学习得到的一系列特征作为描述特征并结合回归算法对其进行位置定位。
5.根据权利要求3所述的一种课堂学生行为检测方法,其特征在于,所述趴桌子识别采用由卷积神经网络学习得到的一系列特征作为描述特征并结合分类算法对其特征进行分类。
6.根据权利要求3-5任一所述的一种课堂学生行为检测方法,其特征在于,所述头肩框检测和趴桌子状态识别采用参数共享和多尺度特征融合。
7.根据权利要求1所述的一种课堂学生行为检测方法,其特征在于,所述根据所述头肩框确定举手检测区域具体为:
以所述头肩框为基础,将检测到的头肩框宽高各扩大设定像素作为举手检测区域。
8.根据权利要求1所述的一种课堂学生行为检测方法,其特征在于,所述进行举手检测具体为:
获取所述举手检测区域的截图;
将所述截图输入卷积神经网络,采用经过通道压缩的多个卷积层和一系列能使网络加速收敛性的BN层提取举手特征;
将所述举手特征作为描述特征并结合回归算法对其进行位置定位;
将所述举手特征作为描述特征并结合分类算法对其特征进行分类得到人手或非人手。
9.根据权利要求8所述的一种课堂学生行为检测方法,其特征在于,若检测到人手,同时所述人手右下的y轴坐标小于所述头肩框右下y轴坐标值,则判定为学生举手;否则判定为学生未举手。
CN202010173963.7A 2020-03-13 2020-03-13 一种课堂学生行为检测方法 Withdrawn CN111353468A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010173963.7A CN111353468A (zh) 2020-03-13 2020-03-13 一种课堂学生行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010173963.7A CN111353468A (zh) 2020-03-13 2020-03-13 一种课堂学生行为检测方法

Publications (1)

Publication Number Publication Date
CN111353468A true CN111353468A (zh) 2020-06-30

Family

ID=71194383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010173963.7A Withdrawn CN111353468A (zh) 2020-03-13 2020-03-13 一种课堂学生行为检测方法

Country Status (1)

Country Link
CN (1) CN111353468A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686128A (zh) * 2020-12-28 2021-04-20 南京览众智能科技有限公司 基于机器学习的教室课桌检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686128A (zh) * 2020-12-28 2021-04-20 南京览众智能科技有限公司 基于机器学习的教室课桌检测方法
CN112686128B (zh) * 2020-12-28 2022-10-14 南京览众智能科技有限公司 基于机器学习的教室课桌检测方法

Similar Documents

Publication Publication Date Title
CN110348319B (zh) 一种基于人脸深度信息和边缘图像融合的人脸防伪方法
CN111401372B (zh) 一种扫描文档图文信息提取与鉴别的方法
CN106650786A (zh) 基于多列卷积神经网络模糊评判的图像识别方法
CN107909005A (zh) 基于深度学习的监控场景下人物姿态识别方法
CN104573685B (zh) 一种基于线性结构提取的自然场景文本检测方法
CN105913093A (zh) 一种用于文字识别处理的模板匹配方法
CN107871101A (zh) 一种人脸检测方法及装置
CN105809121A (zh) 多特征协同的交通标志检测与识别方法
CN102867195B (zh) 一种遥感图像多类目标检测和识别方法
CN103295021A (zh) 一种静态图片中车辆特征检测及识别的方法及系统
CN107256547A (zh) 一种基于显著性检测的表面裂纹识别方法
CN110599463B (zh) 一种基于轻量级联神经网络的舌像检测及定位算法
CN104680545B (zh) 光学图像中存在显著目标的检测方法
CN112307919B (zh) 一种基于改进YOLOv3的单证图像中数字信息区域识别方法
CN108256462A (zh) 一种商场监控视频中的人数统计方法
CN109360179A (zh) 一种图像融合方法、装置及可读存储介质
JP2021103347A (ja) 情報処理装置、情報処理方法及びプログラム
CN111783885A (zh) 一种基于局部增强的毫米波图像的质量分类模型构建方法
Yadav et al. A robust approach for offline English character recognition
CN110188646B (zh) 基于梯度方向直方图与局部二值模式融合的人耳识别方法
CN115880566A (zh) 一种基于视觉分析的智能阅卷系统
CN103455826A (zh) 基于快速鲁棒性特征的高效匹配核人体检测方法
CN111353468A (zh) 一种课堂学生行为检测方法
CN111881732B (zh) 一种基于svm的人脸质量评价方法
CN109284752A (zh) 一种车辆的快速检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200630