CN111444877B

CN111444877B - 一种基于视频照片的教室人数识别方法

Info

Publication number: CN111444877B
Application number: CN202010271919.XA
Authority: CN
Inventors: 谢建国
Original assignee: Guangdong University of Foreign Studies
Current assignee: Guangdong University of Foreign Studies
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2023-06-06
Anticipated expiration: 2040-04-03
Also published as: CN111444877A

Abstract

本发明涉及信息技术领域和教育技术领域，具体涉及一种基于视频照片的教室人数识别方法，采用如下步骤：步骤一：学校排课数据采集，形成各类信息数据；步骤二：根据步骤一中的数据关联，建立关联关系为：学院‑专业‑班级，教师‑课程；步骤三：根据课室监控摄像头配置信息，通过工厂模式调用摄像头SDK，进行课室视频流对接和照片拍摄，采用各学生的图片信息，形成图片样本数据源；它采用提取多个特征，训练生成多种不同的检测器，可以分别针对人体不同的特征进行识别检测，提高对识别目标的表达能力，然后通过将不同检测器的检测结果进行去重，实现不同检测器检测结果的融合，从而提高了人体识别的精度，提高人数清点的精度。

Description

一种基于视频照片的教室人数识别方法

【技术领域】

本发明涉及信息技术领域和教育技术技术领域，具体涉及一种基于视频照片的教室人数识别方法。

【背景技术】

随着科学技术发展，当下时代已是互联网+时代，是一个大数据时代，是一个人工智能时代。针对于人工智能而言，人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”。而大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

人工智能以及大数据的使用，使得计算机的智能化程度越来高。利用神经网络来提供机器学习能，使得计算机的人工智能得到长足的进步。当下的机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径。而人工神经网络也简称为神经网络或称作连接模型，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。神经网络是机器学习的一种方式，神经网络的出现，加速了图像识别应用推向市场的速度，使之前很多只能在实验室的算法模型走向商业化。例如当下的大学课堂是一个开发式的课堂，如何管理好的课堂，对课堂中的大学生进行考勤，是课堂教学的开端，也是防止逃课等现象发生的有效措施。因此如何利用上述的人工智能，实现对大学生的考勤；

现阶段的人脸识别技术，例如申请号：201910116064.0，专利名称为：一种教室人数清点方法及其系统、装置、存储介质；其存在准确率不高，平均检测率＝0.6485，平均正确率＝0.9037，平均检测准确率＝0.5829，达不到实际使用的要求；以及技术完整性不够。

【发明内容】

本发明的目的在于针对现有技术的缺陷和不足，提供一种基于视频照片的教室人数识别方法。

本发明所述的一种基于视频照片的教室人数识别方法，采用如下步骤：

步骤一：学校排课数据采集，形成各类信息数据；

步骤二：根据步骤一中的数据关联，建立关联关系为：学院-专业-班级，教师-课程；

步骤三：根据课室监控摄像头配置信息，通过工厂模式调用摄像头SDK，进行课室视频流对接和照片拍摄，采用各学生的图片信息，形成图片样本数据源；

步骤四：加载预训练好的人数识别模型，采用目标检测算法Faster R-CNN 进行人头检测；

(1)目标区池化：收集输入的特征图和候选的目标区域，综合这些信息后提取目标区域的特征图，送入后续全连接层判定目标类别；

(2)目标分类：利用目标区域特征图计算目标区域的类别，同时再次边界框回归获得检测框最终的精确位置；

步骤五：进行人数识别，采用如下步骤：

(1)加载目标检测模型后，输入接收的课室图片；

(2)利用步骤四中的人数识别模型，对人员检测，模型会返回检测目标的类型、位置和置信值；

步骤六：系统对识别后图片进行处理，把识别出人员的区间人员图像，替换为背景图片；然后调整置信值，再进行二次识别；

步骤七：对模型中的置信值，设置优化区间为[0.6，0.82]；系统自动截取这个区间的识别图片，放入待训练图片数据集；

步骤八：系统通过参数配置，判断是否需要人工审核，如果配置需要人工审核，则待训练集图片经过审核后进入训练集，如果配置不需要，则自动进入训练集；

步骤九：所有的识别过程都记录识别图片，可以人工复审，对异常数据继续处理，并进行人工标识后进入训练集；

步骤十：设定周期时间，系统在原有的训练集中加入新的数据集，进行模型训练，优化算法模型；

步骤十一：数据分析统计：把人数识别的出勤人数跟课表对接，对明细数据进行统计分析，按课程、专业、老师及院系等输出考勤统计报表；设置到课率阈值，根据阈值进行到课率预警信息推送。

进一步地，步骤一中的学校排课数据包括学院信息数据、专业信息数据、班级信息数据、课程信息数据、教师信息数据、选课信息数据

进一步地，步骤三中的摄像头采用包含海康、宇视、大华在内的主流厂家的摄像头。

进一步地，步骤四中，采用目标检测算法Faster R-CNN进行人头检测，采用如下步骤：

(1)特征提取：Faster R-CNN首先使用一组基础的conv+relu+pooling 层提取候选图像的特征图；该特征图被共享用于后续RPN层和全连接层；

(2)区域候选网络：RPN网络用于生成区域候选图像块；该层通过逻辑回归模型softmax判断锚点属于前景或者背景，再利用边界框回归修正anchors 获得精确的原型；

其中，窗口用(x，y，w，h)表示，假设一张图，A表示检测框，GT表示目标框，寻找一种关系，使得输入原始的anchor A经过映射得到一个跟真实窗口G 更接近的回归窗口G’，即：给定

A＝(A_x，A_y，A_w，A_h)和GT＝[G_x，G_y，G_w，G_h]

寻找一种变换，使得

F(A_x，A_y，A_w，A_h)＝(G′_x，G′_y，G′_w，G′_h)，

其中，(G′_x，G′_y，G′_w，G′_h)≈(G_x，G_y，G_w，G_h)；

上式采用如下步骤：

(c)先做平移：

(d)再做缩放：

对于需要学习的是d_x(A)，d_y(A)，d_w(A)，d_h(A)这四个变换；

当A和GT相差比较小时，可以近似为线性回归模型，即输入特征向量X，学习参数W，使得Y＝WX，目标函数就可以变为：

设计损失函数：

函数优化目标为：

根据上面公式，就可以代入梯度下降方法，训练得到合适的W，使得检测目标尽量靠近真实目标。

进一步地，步骤五中的置信值为0.82。

进一步地，步骤六中的置信值为0.75。

本发明有益效果为：本发明所述的一种基于视频照片的教室人数识别方法，它采用提取多个特征，训练生成多种不同的检测器，可以分别针对人体不同的特征进行识别检测，提高对识别目标的表达能力，然后通过将不同检测器的检测结果进行去重，实现不同检测器检测结果的融合，从而提高了人体识别的精度，提高人数清点的精度。

【附图说明】

此处所说明的附图是用来提供对本发明的进一步理解，构成本申请的一部分，但并不构成对本发明的不当限定，在附图中：

图1是本发明的系统功能架构示意图；

图2是本发明的拓扑流程示意图；

图3是本发明中的教室人数清点效果图一；

图4是本发明中的教室人数清点效果图二；

【具体实施方式】

下面将结合附图以及具体实施例来详细说明本发明，其中的示意性实施例以及说明仅用来解释本发明，但并不作为对本发明的限定。

如图1-图4所示，本具体实施方式所述的一种基于视频照片的教室人数识别方法，采用如下步骤：

一、数据的采集和处理阶段：

步骤一：学校排课数据采集，形成各类信息数据；

二、人数识别阶段及算法训练优化阶段：

步骤四：加载预训练好的人数识别模型，采用目标检测算法Faster R-CNN 进行人头检测，采用如下步骤：

(1)特征提取：Faster R-CNN首先使用一组基础的conv+relu+pooling层提取候选图像的特征图；该特征图被共享用于后续RPN(Region Proposal Network)层和全连接(fully connection)层；

本设计中，目标检测算法Faster R-CNN的全拼为Regions with CNN。传统的Haar特征+Adaboost+Cascade的目标检测方法，用的是弱分类器，导致准确率的提高非常困难，算法鲁棒性也不太理想。

基于CNN的目标检测，通过R-CNN，Fast R-CNN，Faster R-CNN持续的优化，目前Faster R-CNN目标检测的流程越来越精简，速度也越来越快，效率和精度都达到了实际使用要求。

本专利利用Faster R-CNN进行教室人数清点，相比传统模式，较大的提高了准确率和性能。

(2)区域候选网络：RPN网络用于生成区域候选图像块；该层通过逻辑回归模型(softmax)判断锚点(anchors)属于前景(foreground)或者背景 (background)，再利用边界框回归(bounding box regression)修正anchors获得精确的原型(proposals)；

A＝(A_x，A_y，A_w，A_h)和GT＝[G_x，G_y，G_w，G_h]

寻找一种变换，使得

F(A_x，A_y，A_w，A_h)＝(G′_x，G′_y，G′_w，G′_h)，

其中，(G′_x，G′_y，G′_w，G′_h)≈(G_x，G_y，G_w，G_h)；

上式采用如下步骤：

(e)先做平移：

/>

(f)再做缩放：

对于需要学习的是d_x(A)，d_y(A)，d_w(A)，d_h(A)这四个变换；

设计损失函数：

函数优化目标为：

根据上面公式，就可以代入梯度下降方法，训练得到合适的W，使得检测目标尽量靠近真实目标；

(3)目标区池化(Roi Pooling)：收集输入的特征图和候选的目标区域，综合这些信息后提取目标区域的特征图，送入后续全连接层判定目标类别；

(4)目标分类(Classification)：利用目标区域特征图计算目标区域的类别，同时再次边界框回归获得检测框最终的精确位置；

步骤五：进行人数识别，采用如下步骤：

(1)加载目标检测模型后，输入接收的课室图片；

(2)利用步骤四中的人数识别模型，对人员检测，模型会返回检测目标的类型、位置和置信值；根据课室情况，设置置信值为0.82；本发明的置信值设置为0.82，在大部分课室测试首次识别效果准确率可以到达85％-90％左右，并且可以持续优化，进一步提升准确率；

步骤六：系统对识别后图片进行处理，采用如下步骤：

(1)把识别出人员的区间人员图像，替换为背景图片；

(2)然后再进行二次识别，设置置信值为0.75；本专利置信值设置为0.75，在大部分课室测试结果，二次识别后，准确率可以达到95％左右；

步骤十：设定周期时间(系统可设计置为一周或一个月)，系统在原有的训练集中加入新的数据集，进行模型训练，优化算法模型；

三、数据分析统计阶段：

本发明有益效果为：本发明所述的一种基于视频照片的教室人数识别方法，利用教室现有的视频监控环境，截取出监控的图片，进行人数识别，并对图片进行识别后二次处理，去除成功识别的人员后，对图像进行背景图片回填后进行二次识别，提高了识别率。设别结果和课表数据进行比对，统计出到课率，进行教学分析，或推送给教务人员，进行课情监控和到课率预警。本发明还会对采集的数据进行持续性训练，持续提升神经网络训练的准确率。

以上所述仅是本发明的较佳实施方式，故凡依本发明专利申请范围所述特征及原理所做的等效变化或修饰，均包括于本发明专利申请范围内。