CN116452878B

CN116452878B - 一种基于深度学习算法与双目视觉的考勤方法及系统

Info

Publication number: CN116452878B
Application number: CN202310424550.5A
Authority: CN
Inventors: 王振友; 梁潇; 徐圣兵
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2024-02-02
Anticipated expiration: 2043-04-20
Also published as: CN116452878A

Abstract

本发明公开了一种基于深度学习算法与双目视觉的考勤方法及系统，该方法包括：获取员工的打卡拍照图片；引入最大熵正则化项和平均方差相似度函数，构建基于YOLO‑9000的深度学习目标检测模型；对深度学习目标检测模型进行训练并进行目标识别，识别出打卡拍照图片中的员工目标；基于非平行配置的双目视觉成像原理获取打卡拍照图片中的员工目标的坐标值；根据考勤定位预警判别指标对打卡拍照图片中的员工目标的坐标值进行判别处理，将判别结果作为员工考勤信息。能够通过改进的YOLO‑9000算法的定点双目视觉三维位置反演考勤从而有效缩短考勤时间提高考勤检测精度。本发明作为一种基于深度学习算法与双目视觉的考勤方法及系统，可广泛应用于计算机视觉技术领域。

Description

一种基于深度学习算法与双目视觉的考勤方法及系统

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于深度学习算法与双目视觉的考勤方法及系统。

背景技术

现代企业的管理模式要求企业实现信息化的管理，一套合理的企业互联网考勤系统对于提升企业的管理能力有很重要的作用，随着企业规模的快速扩张，考勤管理工作的复杂性日益加大，支撑企业考勤管理工作的需要也日益迫切，现在大部分企业都拥有一套较为成熟的考勤管理制度，其中包括：人工签到、证件刷卡、指纹识别、面部识别等；但这些技术都存在着一定的弊端，人工签到比较耗费时间，统计的员工数据会出现不准确，如漏记、多记等情况，且存在严重的代签情况；证件刷卡的考勤方式由于“只认卡、不认人”所以容易出现代刷卡，伪造员工考勤的情况；指纹识别机等接触式设备进行员工考勤时，虽然不会出现造假，但由于个人原因会造成考勤机无法识别指纹影响考勤率，而且遇到企业人员较多时，需要排队，考勤效率低下，面部识别考勤同样也不会出现员工伪造打卡的情况，但是会受光线的限制，且同指纹识别一样，在企业员工多的情况下，需要排队，浪费等待时间，况且指纹签到、人脸打卡签到需要采集很多的标签信息，所需成本较高。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于深度学习算法与双目视觉的考勤方法及系统，能够通过改进的YOLO-9000算法的定点双目视觉三维位置反演考勤从而有效缩短考勤时间提高考勤检测精度。

本发明所采用的第一技术方案是：一种基于深度学习算法与双目视觉的考勤方法，包括以下步骤：

获取员工的打卡拍照图片；

引入最大熵正则化项和平均方差相似度函数，构建基于YOLO-9000的深度学习目标检测模型；

对深度学习目标检测模型进行训练并将员工的打卡拍照图片输入至训练后的深度学习目标检测模型进行目标识别，识别出打卡拍照图片中的员工目标及打卡背景图案；

基于非平行配置的双目视觉成像原理获取打卡拍照图片中的员工目标的坐标值；

根据考勤定位预警判别指标对打卡拍照图片中的员工目标的坐标值进行判别处理，将判别结果作为员工考勤信息。

进一步，所述引入最大熵正则化项和平均方差相似度函数，构建基于YOLO-9000的深度学习目标检测模型这一步骤，其具体包括：

引入最大熵正则化项和平均方差相似度函数作为深度学习目标检测模型的损失函数，其中，所述最大熵正则化项用于增加分类器的不确定性，平均方差相似度函数用于增加类别之间的相似性；

所述构建基于YOLO-9000的深度学习目标检测模型包括15层卷积层，其中第一卷积层、第二卷积层、第三卷积层、第六卷积层及第九卷积层后均连接有最大池化层，且每个最大池化层后接入dropout层。

进一步，所述对深度学习目标检测模型进行训练这一步骤，其具体包括：

YOLO9000网络将输入图像缩放至416×416，然后在图上运行卷积网络，预测是否存在目标；

在每个方格中预测n个边界方框，确定各边界方框是所需检测目标的置信度，其中，置信度表示为：

上式中，confidence表示置信度，Pr(Object)表示每个边界方框中包含检测目标的概率，表示预测的边界方框和输入的矩形框的重叠率；

对于每一个方格，预测其包含某一类检测目标的条件概率Pr(Classi|Object)，其中，Pr(Classi|Object)表示在假定某一方格包含有所需检测目标的情况下，所包含的检测目标是第i类检测目标的概率；

将得到的目标的置信度与得到的检测目标的条件概率进行相乘，得到每个边界方框对于每个具体类别的置信度；

通过损失函数进行计算,得出每个检测目标的定位框，输出13×13×1024的图片结构。

进一步，所述将员工的打卡拍照图片输入至训练后的深度学习目标检测模型进行目标识别，识别出打卡拍照图片中的员工目标这一步骤，其具体包括：

采集用于训练YOLO9000网络的包含打卡区的考勤图像；

对采集到的所述考勤图像进行数据增强；

将采集到的所述考勤图像及数据增强后得到的图像中的考勤图案用矩形框进行标注，获取所述矩形框的坐标与所述矩形框所包含图案的种类；

根据采集到的所述考勤图像及数据增强后得到的图像，及获取的所述矩形框的坐标与所述矩形框所包含图案的种类对YOLO9000网络进行训练；

实时采集待检测的员工考勤图像，根据训练好的YOLO9000网络和实时采集到的待检测的员工考勤图像，实时检测员工考勤图像中的图案，并对检测到的图案进行分类和定位。

进一步，所述基于非平行配置的双目视觉成像原理为非平行配置视觉系统中的两台相机的光轴满足相交于一点，而相机的位置和方位不对非平行配置视觉系统产生影响，其中，所述两台相机中的一台相机表示公司固定的打卡相机，另一台相机表示员工打卡拍照相机。

进一步，所述基于非平行配置的双目视觉成像原理获取打卡拍照图片中的员工目标的坐标值这一步骤，其具体包括：

分别获取公司固定的打卡相机和员工打卡拍照相机的坐标值，分别记为第一相机坐标值与第二相机坐标值；

获取对应第一相机坐标值与第二相机坐标值下的旋转矩阵、平移向量以及相机的焦距；

设定打卡区中心点，根据打卡区中心点获取第一相机的平面投影像素点坐标与第二相机的平面投影像素点坐标；

根据第一相机坐标值的旋转矩阵与平移向量获取第一相机与第二相机的坐标转换关系；

根据第一相机的平面投影像素点坐标与第二相机的平面投影像素点坐标获取对应的平面投影像素点坐标与打卡区中心点的坐标关系；

将平面投影像素点坐标与打卡区中心点的坐标关系代入至第一相机与第二相机的坐标转换关系并进行矩阵表示，获取打卡拍照图片中的员工目标的坐标值。

进一步，所述第一相机与第二相机的坐标转换关系的表达式为：

上式中，P(X,Y,Z)表示打卡区中心点，P'(X',Y',Z')表示打卡区中心点在第二相机坐标系下的坐标，R表示两个相机坐标系间的旋转矩阵，t表示两个相机的平移向量。

进一步，所述考勤定位预警判别指标包括员工考勤时间状态指标和员工考勤范围指标。

进一步，所述根据考勤定位预警判别指标对打卡拍照图片中的员工目标的坐标值进行判别处理，将判别结果作为员工考勤信息这一步骤，其具体包括：

设定员工考勤时间范围，获取考勤时间状态时间序列数据并与设定员工考勤时间范围进行比较，若所述考勤时间状态时间序列数据不属于所述设定员工考勤时间范围，则标记为非正常考勤打卡时间，若所述考勤时间状态时间序列数据属于所述设定员工考勤时间范围，则标记为正常考勤打卡时间；

设定员工打卡拍照区域，将打卡拍照图片中的员工目标的坐标值与设定员工打卡拍照区域进行比较，若所述打卡拍照图片中的员工目标的坐标值不属于所述设定员工打卡拍照区域，则标记为非正常考勤打卡范围，若所述打卡拍照图片中的员工目标的坐标值属于所述设定员工打卡拍照区域，则标记为正常考勤打卡范围；

将同时存在标记正常考勤打卡时间与正常考勤打卡范围判定为正常打卡。

本发明所采用的第二技术方案是：一种基于深度学习算法与双目视觉的考勤系统，包括：

获取模块，用于获取员工的打卡拍照图片；

构建模块，用于引入最大熵正则化项和平均方差相似度函数，构建基于YOLO-9000的深度学习目标检测模型；

识别模块，用于对深度学习目标检测模型进行训练并将员工的打卡拍照图片输入至训练后的深度学习目标检测模型进行目标识别，识别出打卡拍照图片中的员工目标及打卡背景图案；

视觉处理模块，基于非平行配置的双目视觉成像原理获取打卡拍照图片中的员工目标的坐标值；

判定模块，用于根据考勤定位预警判别指标对打卡拍照图片中的员工目标的坐标值进行判别处理，将判别结果作为员工考勤信息。

本发明方法及系统的有益效果是：本发明通过获取员工的打卡拍照图片，并针对目标识别检测算法进行改进，改进的YOLO-9000模型的核心思想是将分类和检测任务结合起来，通过同时训练分类和检测网络，从而提高检测的精度。在每个最大池化层后接入dropout层，以防止过拟合，使得体量更加轻便适合目标识别的需求，并在模型训练过程中，应用最大熵正则化来正则化训练，最大熵正则化在交叉熵损失中添加一个负熵项，使用最大熵正则化与平均方差相似度函数联合作为损失函数这种做法可以增加类间变异，减少类内变异，从而获得更好的分类性能，进一步在目标点在空间坐标系中的位置坐标已知的情况下，反演得到拍照者的位置坐标，最后通过构建考勤指标来判断员工考勤是否合格。

附图说明

图1是本发明一种基于深度学习算法与双目视觉的考勤方法的步骤流程图；

图2是本发明一种基于深度学习算法与双目视觉的考勤系统的结构框图；

图3是传统的指纹打卡、人脸打卡等串行打卡方式的示意图；

图4是本发明并发式考勤方法场景示意图；

图5是本发明非平行配置视觉成像模型示意图；

图6是本发明改进的YOLO-9000深度学习算法的目标检测网络模型的结构示意图；

图7是本发明基于改进的YOLO-9000算法的定点双目视觉三维位置反演考勤方法的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

如图3所示，为传统的指纹打卡、人脸打卡等串行打卡方式，指纹识别机等接触式设备进行员工考勤时，虽然不会出现造假，但由于个人原因会造成考勤机无法识别指纹影响考勤率，而且遇到企业人员较多时，需要排队，考勤效率低下，面部识别考勤同样也不会出现员工伪造打卡的情况，但是会受光线的限制，且同指纹识别一样，在企业员工多的情况下，需要排队，浪费等待时间，且指纹识别和面部识别还存在着隐私泄露的风险，这些数据若因保管不善被泄露或是被黑客侵入，则会被不法分子利用，产生危害结果，同时指纹签到、人脸打卡签到且需要采集很多的标签信息，所需成本较高；

如图4所示，为本发明并发式考勤方法场景图，员工只需要通过使用自己的手机拍一张包含打卡区(打卡区的考勤标志每天更换、可以设置手写的汉字、英文字符、或者图案等)的照片上传到系统，系统通过双目视觉技术计算员工位置即可完成打卡，可以有效避免考勤时间排队的问题，节省考勤时间，且无需购买考勤设备，如：指纹打卡机、人脸打卡机等，且采集的标签信息少，节约公司成本。

参照图1和图7，本发明提供了一种基于深度学习算法与双目视觉的考勤方法，该方法包括以下步骤：

S1、获取员工的打卡拍照图片；

S2、引入最大熵正则化项和平均方差相似度函数，构建基于YOLO-9000的深度学习目标检测模型；

具体地，参照图6，本发明基于改进的YOLO-9000深度学习算法，使用了最大熵正则化项和平均方差相似度函数作为损失函数，可以有效地增加类间变异，减少类内变异，从而提高分类性能，在传统的交叉熵损失函数中，分类器只关注正确分类的概率，而忽略了分类器的不确定性和类别之间的相似性，而最大熵正则化项可以增加分类器的不确定性，平均方差相似度函数可以增加类别之间的相似性，从而使分类器更加鲁棒和准确，通过将这两种损失函数结合使用，可以得到更好的特征分类效果；

在考勤目标识别中，本发明希望模型能够准确地识别出员工拍照上传的图片中符合考勤打卡的目标，但是如果模型过于复杂，可能会出现过拟合的情况，导致模型在训练集上表现很好，但是在测试集上表现不佳，为了避免这种情况，因此，可以对模型输出的熵进行正则化，表达式如下：

上式中，H(p)表示模型输出的熵，c表示事件可能发生的情况总数，p_i表示真实分布；

当概率分布是均匀分布时，熵达到最大值，而在其他情况下，熵都小于最大值。因此，通过最大化熵的负值，可以实现最大熵正则化，表达式如下：

L_MER＝-H(p)

L_RER＝-L_CE+λL_MER

上式中，λ表示超参数，L_REG表示回归的损失函数，由负熵(即熵的相反数)λL_MER，与交叉熵函数L_CE累加组成；

MER降低了交叉熵损失造成的极端置信值，在目标识别中，通常使用交叉熵损失函数来衡量模型预测结果与真实结果之间的差距，交叉熵损失函数的导数与输出分数直接相关，因此正则化损失对输出分数的导数也与模型直接相关，表达式如下：

根据链式法则可得，梯度可以是正的或负的，在更新模型参数时需要根据梯度的方向来决定参数的调整方向，如果梯度是正的，就需要减小参数的值；如果梯度是负的，就需要增加参数的值，在更多分布的分数下，概率也不会完全趋向于0或1，而是会在一定范围内波动；

改进的YOLO-9000模型结合了YOLOv2和GoogleNet的构建思想，保留了通过预训练和进行多分类的能力，同时通过数据采集与数据标注，利用带标注的分类数据集量比较大的特点进行预训练，改进模型又15层卷积层，通过减少瓶颈结构的卷积的构造，删除了两层1×1卷积及瓶颈卷积，原本的检测头从9个卷积层减少到6个，同时在每个最大池化层后接入dropout层，以防止过拟合，使得体量更加轻便适合目标识别的需求。

S3、对深度学习目标检测模型进行训练并将员工的打卡拍照图片输入至训练后的深度学习目标检测模型进行目标识别，识别出打卡拍照图片中的员工目标及打卡背景图案；

具体地，采集用于训练YOLO9000网络的包含打卡区的考勤图像；对采集到的所述考勤图像进行数据增强；将采集到的所述考勤图像及数据增强后得到的图像中的考勤图案用矩形框进行标注，获取所述矩形框的坐标与所述矩形框所包含图案的种类；根据采集到的所述考勤图像及数据增强后得到的图像，及获取的所述矩形框的坐标与所述矩形框所包含图案的种类对YOLO9000网络进行训练；实时采集待检测的员工考勤图像，根据训练好的YOLO9000网络和实时采集到的待检测的员工考勤图像，实时检测员工考勤图像中的图案，并对检测到的图案进行分类和定位；

所述根据生成的数据集对YOLO9000网络进行训练包括：

S4、基于非平行配置的双目视觉成像原理获取打卡拍照图片中的员工目标的坐标值；

具体地，参照图5，双目视觉测距是依据三角形相似原理，得出被测物体与相机之间的距离，由于无法保证员工在拍照的时候相机光心与公司固定相机光心位于同一水平面，因此本提案采取非平行配置的双目视觉成像原理，非平行配置视觉系统中的两台相机的光轴只要相交于一点即可，相机的位置和方位不对系统产生影响，以一位员工的考勤为例；

已知O_l-x_ly_lz_l和O_r-x_ry_rz_r分别为两个相机坐标系，均为正交坐标系，设左相机坐标系为世界坐标系，假设打卡区中心点P(X,Y,Z)在两个像平面上的投影分别为P_l(u_l,v_l)，P_r(u_r,v_r)，这两个点坐标均以像素为单位，已知两个相机坐标系间的旋转矩阵R、平移向量t以及相机的焦距f_l，f_r(以像素为单位)，其中f_lu＝f_l·D_u，f_lv＝f_l·D_v，f_ru＝f_r·D_u，f_rv＝f_r·D_v，D_u是沿图像坐标系x方向每毫米像素个数，D_v是沿图像坐标系y方向每毫米像素个数，(u₀,v₀)是图像光心坐标；

设P(X,Y,Z)在右相机坐标系下的坐标为P'(X',Y',Z')，那么这两个坐标之间的转换关系如下所示：

三维空间点和对应的二维图像坐标点之间的对应关系如下：

那么(u_r,v_r)与P'(X',Y',Z')之间的关系可以表示为：

可以得到：

将(u_r,v_r)与P'(X',Y',Z')之间的关系带入两个坐标之间的转换关系中可得到：

在本设计方案中，左相机是固定且位置是已知的，打卡中心点P(X,Y,Z)在以左相机坐标系为世界坐标系中的坐标位置是已知的，则P_l(u_l,v_l)也已知，可通过代入后的式子得到P_r(u_r,v_r)：

则右相机坐标系与像面坐标系间的关系可用矩阵表示为：

将右摄像机即第一相机看作世界坐标系中的一点，摄像机的摆放位置可以以世界坐标系原点为基准通过坐标系的平移旋转表示：

即可得到右相机位置，以右相机的位置作为员工在空间坐标系中的坐标。

S5、根据考勤定位预警判别指标对打卡拍照图片中的员工目标的坐标值进行判别处理，将判别结果作为员工考勤信息。

S51、员工考勤时间状态指标；

具体地，员工考勤的时间一般在白天(τ₁,τ₂)时段内，在该时间段内，员工具有考勤打卡的可能性，记为1；而在其它时段内不做考勤预警，记为0，定义如下：

从而获取考勤时间状态时间序列数据T_i，t_i是指第i位员工考勤的时间。

S52、员工考勤范围指标；

具体地，员工打卡一般都会集中在一定的区域拍照打卡，人工选定打卡区域D作为考勤定位预警和异常预警判别指标之一，如果在打卡区域D内打卡，记为1；如果不在打卡区域D内，则记为0，定义如下：

从而获取员工考勤时间序列数据E_i,i＝0,1,…,n，P_i是指第i位员工考勤的位置。

设定员工考勤坐标在x,y,z轴上的阈值均为δ，假设一位员工上传的照片得到其位置是P_i(x_i,y_i,z_i)，以P_i为球心，以阈值δ为半径做一个球，若另一位员工上传的照片得到的位置坐标P_i+1(x_i+1,y_i+1,z_i+1)在球面外则打卡成功，记为1；反之，则打卡不成功，记为0，具体如下所示：

参照图2，一种基于深度学习算法与双目视觉的考勤系统，包括：

获取模块，用于获取员工的打卡拍照图片；

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于深度学习算法与双目视觉的考勤方法，其特征在于，包括以下步骤：

获取员工的打卡拍照图片；

根据考勤定位预警判别指标对打卡拍照图片中的员工目标的坐标值进行判别处理，将判别结果作为员工考勤信息；

所述根据考勤定位预警判别指标对打卡拍照图片中的员工目标的坐标值进行判别处理，将判别结果作为员工考勤信息这一步骤，包括：

设定员工考勤时间状态指标，表达式为：

其中，t_i是指第i位员工考勤的时间；T_i表示考勤时间状态时间序列数据；(τ₁,τ₂)表示是预设的考勤时间段；

设定员工考勤范围指标，表达式为：

其中，P_i表示指第i位员工考勤的位置；E_i表示员工考勤范围序列数据；D表示预设打卡区域；

设定员工考勤坐标在x,y,z轴上的阈值均为δ，假设一位员工上传的照片得到其位置是P_i(x_i,y_i,z_i)，以P_i为球心，以阈值δ为半径做一个球，若另一位员工上传的照片得到的位置坐标P_i+1(x_i+1,y_i+1,z_i+1)在球面外则打卡成功，记为1；反之，则打卡不成功，记为0，具体如下表达式所示：

2.根据权利要求1所述一种基于深度学习算法与双目视觉的考勤方法，其特征在于，所述引入最大熵正则化项和平均方差相似度函数，构建基于YOLO-9000的深度学习目标检测模型这一步骤，其具体包括：

3.根据权利要求2所述一种基于深度学习算法与双目视觉的考勤方法，其特征在于，所述对深度学习目标检测模型进行训练这一步骤，其具体包括：

4.根据权利要求3所述一种基于深度学习算法与双目视觉的考勤方法，其特征在于，所述将员工的打卡拍照图片输入至训练后的深度学习目标检测模型进行目标识别，识别出打卡拍照图片中的员工目标及打卡背景图案这一步骤，其具体包括：

采集用于训练YOLO9000网络的包含打卡区的考勤图像；

对采集到的所述考勤图像进行数据增强；

5.根据权利要求4所述一种基于深度学习算法与双目视觉的考勤方法，其特征在于，所述基于非平行配置的双目视觉成像原理为非平行配置视觉系统中的两台相机的光轴满足相交于一点，而相机的位置和方位不对非平行配置视觉系统产生影响，其中，所述两台相机中的一台相机表示公司固定的打卡相机，另一台相机表示员工打卡拍照相机。

6.根据权利要求5所述一种基于深度学习算法与双目视觉的考勤方法，其特征在于，所述基于非平行配置的双目视觉成像原理获取打卡拍照图片中的员工目标的坐标值这一步骤，其具体包括：

7.根据权利要求6所述一种基于深度学习算法与双目视觉的考勤方法，其特征在于，所述第一相机与第二相机的坐标转换关系的表达式为：

8.一种基于深度学习算法与双目视觉的考勤系统，其特征在于，包括以下模块：

获取模块，用于获取员工的打卡拍照图片；

判定模块，用于根据考勤定位预警判别指标对打卡拍照图片中的员工目标的坐标值进行判别处理，将判别结果作为员工考勤信息；

设定员工考勤时间状态指标，表达式为：

设定员工考勤范围指标，表达式为：