CN111353468A - 一种课堂学生行为检测方法 - Google Patents
一种课堂学生行为检测方法 Download PDFInfo
- Publication number
- CN111353468A CN111353468A CN202010173963.7A CN202010173963A CN111353468A CN 111353468 A CN111353468 A CN 111353468A CN 202010173963 A CN202010173963 A CN 202010173963A CN 111353468 A CN111353468 A CN 111353468A
- Authority
- CN
- China
- Prior art keywords
- hand
- head
- detection
- shoulder frame
- detection method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 88
- 230000006399 behavior Effects 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000013136 deep learning model Methods 0.000 claims abstract description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 11
- 238000007635 classification algorithm Methods 0.000 claims description 7
- 238000000034 method Methods 0.000 claims description 7
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 11
- 210000004247 hand Anatomy 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 229960001948 caffeine Drugs 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 210000003109 clavicle Anatomy 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- RYYVLZVUVIJVGH-UHFFFAOYSA-N trimethylxanthine Natural products CN1C(=O)N(C)C(=O)C2=C1N=CN2C RYYVLZVUVIJVGH-UHFFFAOYSA-N 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/117—Biometrics derived from hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Tourism & Hospitality (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Strategic Management (AREA)
- Probability & Statistics with Applications (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种课堂学生行为检测方法,涉及图像处理与识别,主要解决的是目前全图检测方法存在准确度低、速度慢、鲁棒性差的技术问题,所述课堂学生行为检测方法包括:将课堂学生的原始图像转换为灰度图;将所述灰度图输入深度学习模型进行头肩框检测和趴桌子识别,并得到头肩框;根据所述头肩框确定举手检测区域,并在所述举手检测区域内进行举手检测。本发明根据头肩框确定举手检测区域,并在举手检测区域内进行举手检测,使得检测输入图像大大减小,检测区域大大减小,可以有效提高人手检测效率,也大大提高人手检测准确率,鲁棒性强。
Description
技术领域
本发明涉及图像处理与识别,更具体地说,它涉及一种课堂学生行为检测方法。
背景技术
图像处理与识别已经应用到各行各业,如在课堂上使用图像处理与识别技术来检测学生的行为,可以及时了解和记录学生的动态,有利于加强课堂,提高教学质量。目前主要是通过全图检测方法来检测课堂学生行为,全图检测存在准确度低、速度慢、鲁棒性差的缺点。
发明内容
本发明要解决的技术问题是针对现有技术的上述不足,本发明的目的是提供一种准确度高、速度快、鲁棒性强的课堂学生行为检测方法。
本发明的技术方案是:一种课堂学生行为检测方法,所述方法包括:
将课堂学生的原始图像转换为灰度图;
将所述灰度图输入深度学习模型进行头肩框检测和趴桌子识别,并得到头肩框;
根据所述头肩框确定举手检测区域,并在所述举手检测区域内进行举手检测。
作为进一步地改进,根据公式:
f(i,j)=0.2999R+0.587G+0.114B,
对所述原始图像进行灰度化处理得到所述灰度图,其中,f(i,j)为灰度化后图像坐标(i,j)处的像素灰度值,R,G,B分别为彩色图像RGB三分量。
进一步地,所述深度学习模型为卷积神经网络,所述头肩框检测与趴桌子识别的特征提取部分采用经过通道压缩的多个卷积层和一系列能使网络加速收敛的BN层。
进一步地,所述头肩框检测采用由卷积神经网络学习得到的一系列特征作为描述特征并结合回归算法对其进行位置定位。
进一步地,所述趴桌子识别采用由卷积神经网络学习得到的一系列特征作为描述特征并结合分类算法对其特征进行分类。
进一步地,所述头肩框检测和趴桌子状态识别采用参数共享和多尺度特征融合。
进一步地,所述根据所述头肩框确定举手检测区域具体为:
以所述头肩框为基础,将检测到的头肩框宽高各扩大设定像素作为举手检测区域。
进一步地,所述进行举手检测具体为:
获取所述举手检测区域的截图;
将所述截图输入卷积神经网络,采用经过通道压缩的多个卷积层和一系列能使网络加速收敛性的BN层提取举手特征;
将所述举手特征作为描述特征并结合回归算法对其进行位置定位;
将所述举手特征作为描述特征并结合分类算法对其特征进行分类得到人手或非人手。
进一步地,若检测到人手,同时所述人手右下的y轴坐标小于所述头肩框右下y轴坐标值,则判定为学生举手;否则判定为学生未举手。
有益效果
本发明与现有技术相比,具有的优点为:本发明采用卷积神经网络的特征提取方法,根据头肩框特征判别学生趴桌子行为,并基于头肩框外扩确定举手检测区域,在举手检测区域中进行举手检测,使得检测输入图像大大减小,检测区域大大减小,从而既提高人手检测效率,也大大提高人手检测准确率,该方法在实际应用场景中得到验证。本发明相比于传统技术的全图检测方法,具有输入图像小、图像特征提取速度快、特征提取网络简单、准确度高、速度快、鲁棒性高等优点。
附图说明
图1为本发明的检测流程示意图;
图2为本发明中头肩框检测与趴桌子识别卷积神经网络原理图;
图3为本发明中人手检测卷积神经网络原理图。
具体实施方式
下面结合附图中的具体实施例对本发明做进一步的说明。
参阅图1-3,一种课堂学生行为检测方法,方法包括:
将课堂学生的原始图像转换为灰度图;
将灰度图输入深度学习模型进行头肩框检测和趴桌子识别,并得到头肩框;
根据头肩框确定举手检测区域,并在举手检测区域内进行举手检测。
可以根据公式:
f(i,j)=0.2999R+0.587G+0.114B,
对原始图像进行灰度化处理得到灰度图,其中,f(i,j)为灰度化后图像坐标(i,j)处的像素灰度值,R,G,B分别为彩色图像RGB三分量,转换为灰度图,可以排除颜色的干扰,方便后序对数据的处理。
深度学习模型为卷积神经网络,将灰度图大小resize为640*640后输入卷积神经网络,可以兼顾精度和效率。当然,灰度图大小resize的尺寸也可以在实际项目中调整得到。头肩框检测与趴桌子识别的特征提取部分采用经过通道压缩的多个卷积层和一系列能使网络加速收敛的BN层。其中,头肩框检测采用由卷积神经网络学习得到的一系列特征作为描述特征并结合回归算法对其进行位置定位,趴桌子识别采用由卷积神经网络学习得到的一系列特征作为描述特征并结合分类算法对其特征进行分类。头肩框检测和趴桌子状态识别采用参数共享和多尺度特征融合,连接多个不同尺度的特征图同时对头肩框进行检测,兼顾不同的感受野,大大提高了精度,同时将回归算法和分类算法融合到整个网络中进行端到端检测识别,网络直接输出头肩框位置和对应的头肩框状态,即正常头肩框或趴桌子头肩框。
在本实施例中,头肩框范围对应为头部到肩膀边缘,包含锁骨边缘区域,根据头肩框特征可以方便判别学生趴桌子的行为。
作为优选,特征提取部分采用经过通道压缩的22个卷积层,通道压缩的22个卷积层特征图输出通道分别为8、16、16、64、64、64、64、64、64、32、64、64、64、16、64、64、64、32、16、32、32、64,该网络所有权重均采用随机初始化方式。
头肩框的位置回归误差函数采用Smooth L1 Loss,具体算法为:
其中N是先验框的正样本数量。这里为一个指示参数,时表示第i个先验框与第j个ground truth匹配,并且ground truth的类别为p,c为类别置信度预测值,l为先验框的所对应边界框的位置预测值,而g为ground truth的位置参数。
由于的存在,所以位置误差仅针对正样本进行计算,值得注意的是,要先对ground truth的g进行编码得到因为预测值l也是编码值,最后通过最小化Lloc(x,l,g),实现一个可用的Smooth L1回归模型。
作为优选,在640*640大小的灰度图像作为特征提取网络输入的基础上,连接6个不同尺度的特征图同时对头肩框进行检测,6个不同尺度的特征图尺寸分别为40*40、20*20、10*10、5*5、3*3、1*1。
使用softmax分类器解决趴桌子分类问题,趴桌子分类具体为正常头肩框和趴桌子头肩框,softmax具体算法为:
类标y可以取k个不同的值,对于训练集{(x(1),y(1)),...,(x(m),y(m))},得到有y(i)∈{1,2,...,k},此处的类别下标从1开始,而不是0。
对于给定的测试输入x,使用假设函数针对每一个类别j估算出概率值p(y=j|x),即估计x的每一种分类结果出现的概率,因此,假设函数将要输出一个k维的向量来表示这k个估计的概率值,向量元素的和为1。假设函数hθ(x)如下:
为了方便起见,同样使用符号θ来表示全部的模型参数,在实现Softmax回归时,将θ用一个k×(n+1)的矩阵来表示会很方便,该矩阵是将θ1,θ2,…θk按行罗列起来得到的,如下所示:
下面公式为softmax的代价函数:
有了这个权重衰减项以后(λ>0),代价函数就变成了严格的凸函数,可以保证得到唯一的解。此时的Hessian矩阵变为可逆矩阵,并且因为J(θ)是凸函数,梯度下降法和L-BFGS等算法可以保证收敛到全局最优解。
为了使用优化算法,需要求得这个新函数J(θ)的导数,如下:
通过最小化J(θ)就实现一个可用的softmax分类模型。
根据头肩框确定举手检测区域具体为:以所述头肩框为基础,将检测到的头肩框宽高各扩大设定像素作为举手检测区域。在本实施例中,设定像素为60,以头肩框为基础,宽高均扩大60个像素即为举手检测区域。当然,设定像素也可以根据实现情况设定为其他值。
在举手检测区域内进行举手检测具体为:
获取举手检测区域的截图;
将截图大小resize为192*192,将截图输入卷积神经网络,采用经过通道压缩的多个卷积层和一系列能使网络加速收敛性的BN层提取举手特征;作为优选,采用经过通道压缩的8个卷积层,8个卷积层输出通道分别为4、4、8、16、16、16、32、16;
将举手特征作为描述特征并结合回归算法对其进行位置定位,人手检测的回归误差函数,采用Smooth L1 Loss;
将举手特征作为描述特征并结合分类算法对其特征进行分类得到人手或非人手,人手分类器采用softmax分类器。
在本实施例中,人手位置范围对应为舒展的手指尖到手腕边缘区域,方便分类。若检测到人手,同时人手右下的y轴坐标小于头肩框右下y轴坐标值,则判定为学生举手;否则判定为学生未举手。
本发明采用卷积神经网络的特征提取方法,根据头肩框特征判别学生趴桌子行为,并基于头肩框外扩确定举手检测区域,在举手检测区域中进行举手检测,使得检测输入图像大大减小,检测区域大大减小,从而既提高人手检测效率,也大大提高人手检测准确率,该方法在实际应用场景中得到验证。本发明相比于传统技术的全图检测方法,具有输入图像小、图像特征提取速度快、特征提取网络简单、准确度高、速度快、鲁棒性高等优点。
以上仅是本发明的优选实施方式,应当指出对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些都不会影响本发明实施的效果和专利的实用性。
Claims (9)
1.一种课堂学生行为检测方法,其特征在于,所述方法包括:
将课堂学生的原始图像转换为灰度图;
将所述灰度图输入深度学习模型进行头肩框检测和趴桌子识别,并得到头肩框;
根据所述头肩框确定举手检测区域,并在所述举手检测区域内进行举手检测。
2.根据权利要求1所述的一种课堂学生行为检测方法,其特征在于,根据公式:
f(i,j)=0.2999R+0.587G+0.114B,
对所述原始图像进行灰度化处理得到所述灰度图,其中,f(i,j)为灰度化后图像坐标(i,j)处的像素灰度值,R,G,B分别为彩色图像RGB三分量。
3.根据权利要求1所述的一种课堂学生行为检测方法,其特征在于,所述深度学习模型为卷积神经网络,所述头肩框检测与趴桌子识别的特征提取部分采用经过通道压缩的多个卷积层和一系列能使网络加速收敛的BN层。
4.根据权利要求3所述的一种课堂学生行为检测方法,其特征在于,所述头肩框检测采用由卷积神经网络学习得到的一系列特征作为描述特征并结合回归算法对其进行位置定位。
5.根据权利要求3所述的一种课堂学生行为检测方法,其特征在于,所述趴桌子识别采用由卷积神经网络学习得到的一系列特征作为描述特征并结合分类算法对其特征进行分类。
6.根据权利要求3-5任一所述的一种课堂学生行为检测方法,其特征在于,所述头肩框检测和趴桌子状态识别采用参数共享和多尺度特征融合。
7.根据权利要求1所述的一种课堂学生行为检测方法,其特征在于,所述根据所述头肩框确定举手检测区域具体为:
以所述头肩框为基础,将检测到的头肩框宽高各扩大设定像素作为举手检测区域。
8.根据权利要求1所述的一种课堂学生行为检测方法,其特征在于,所述进行举手检测具体为:
获取所述举手检测区域的截图;
将所述截图输入卷积神经网络,采用经过通道压缩的多个卷积层和一系列能使网络加速收敛性的BN层提取举手特征;
将所述举手特征作为描述特征并结合回归算法对其进行位置定位;
将所述举手特征作为描述特征并结合分类算法对其特征进行分类得到人手或非人手。
9.根据权利要求8所述的一种课堂学生行为检测方法,其特征在于,若检测到人手,同时所述人手右下的y轴坐标小于所述头肩框右下y轴坐标值,则判定为学生举手;否则判定为学生未举手。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010173963.7A CN111353468A (zh) | 2020-03-13 | 2020-03-13 | 一种课堂学生行为检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010173963.7A CN111353468A (zh) | 2020-03-13 | 2020-03-13 | 一种课堂学生行为检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111353468A true CN111353468A (zh) | 2020-06-30 |
Family
ID=71194383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010173963.7A Withdrawn CN111353468A (zh) | 2020-03-13 | 2020-03-13 | 一种课堂学生行为检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111353468A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686128A (zh) * | 2020-12-28 | 2021-04-20 | 南京览众智能科技有限公司 | 基于机器学习的教室课桌检测方法 |
-
2020
- 2020-03-13 CN CN202010173963.7A patent/CN111353468A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686128A (zh) * | 2020-12-28 | 2021-04-20 | 南京览众智能科技有限公司 | 基于机器学习的教室课桌检测方法 |
CN112686128B (zh) * | 2020-12-28 | 2022-10-14 | 南京览众智能科技有限公司 | 基于机器学习的教室课桌检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348319B (zh) | 一种基于人脸深度信息和边缘图像融合的人脸防伪方法 | |
CN111401372B (zh) | 一种扫描文档图文信息提取与鉴别的方法 | |
CN106650786A (zh) | 基于多列卷积神经网络模糊评判的图像识别方法 | |
CN107909005A (zh) | 基于深度学习的监控场景下人物姿态识别方法 | |
CN104573685B (zh) | 一种基于线性结构提取的自然场景文本检测方法 | |
CN105913093A (zh) | 一种用于文字识别处理的模板匹配方法 | |
CN107871101A (zh) | 一种人脸检测方法及装置 | |
CN105809121A (zh) | 多特征协同的交通标志检测与识别方法 | |
CN102867195B (zh) | 一种遥感图像多类目标检测和识别方法 | |
CN103295021A (zh) | 一种静态图片中车辆特征检测及识别的方法及系统 | |
CN107256547A (zh) | 一种基于显著性检测的表面裂纹识别方法 | |
CN110599463B (zh) | 一种基于轻量级联神经网络的舌像检测及定位算法 | |
CN104680545B (zh) | 光学图像中存在显著目标的检测方法 | |
CN112307919B (zh) | 一种基于改进YOLOv3的单证图像中数字信息区域识别方法 | |
CN108256462A (zh) | 一种商场监控视频中的人数统计方法 | |
CN109360179A (zh) | 一种图像融合方法、装置及可读存储介质 | |
JP2021103347A (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN111783885A (zh) | 一种基于局部增强的毫米波图像的质量分类模型构建方法 | |
Yadav et al. | A robust approach for offline English character recognition | |
CN110188646B (zh) | 基于梯度方向直方图与局部二值模式融合的人耳识别方法 | |
CN115880566A (zh) | 一种基于视觉分析的智能阅卷系统 | |
CN103455826A (zh) | 基于快速鲁棒性特征的高效匹配核人体检测方法 | |
CN111353468A (zh) | 一种课堂学生行为检测方法 | |
CN111881732B (zh) | 一种基于svm的人脸质量评价方法 | |
CN109284752A (zh) | 一种车辆的快速检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200630 |