CN111881876B - 一种基于单阶无锚检测网络的考勤方法 - Google Patents

一种基于单阶无锚检测网络的考勤方法 Download PDF

Info

Publication number
CN111881876B
CN111881876B CN202010783356.2A CN202010783356A CN111881876B CN 111881876 B CN111881876 B CN 111881876B CN 202010783356 A CN202010783356 A CN 202010783356A CN 111881876 B CN111881876 B CN 111881876B
Authority
CN
China
Prior art keywords
picture
size
coordinates
face
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010783356.2A
Other languages
English (en)
Other versions
CN111881876A (zh
Inventor
李昕昕
黎永杰
陈丹阳
闫书明
张翔宇
兰琳
管军霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202010783356.2A priority Critical patent/CN111881876B/zh
Publication of CN111881876A publication Critical patent/CN111881876A/zh
Application granted granted Critical
Publication of CN111881876B publication Critical patent/CN111881876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/109Time management, e.g. calendars, reminders, meetings or time accounting
    • G06Q10/1091Recording time for administrative or management purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Strategic Management (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Educational Administration (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于单阶无锚检测网络的考勤方法,其特征在于,包括如下步骤:1)人脸编码过程;2)人脸检测过程;3)统计考勤。这种方法能够实现单台终端对多人完成考勤识别,在通过/考勤效率上拥有较大优势,能辅助完成大人流量下的考勤任务。

Description

一种基于单阶无锚检测网络的考勤方法
技术领域
本发明涉及生物体征考勤技术领域,具体是一种基于单阶无锚检测网络的考勤方法。
背景技术
基于生物体征的考勤系统相对于依赖非生物物料的考勤方法(如:IC卡)拥有较高的抗考勤欺骗能力,可以更为有效准确的完成考勤任务。但常见的生物体征考勤系统,往往是基于1:1的思路设计,即在已知需核验的身份的前提下,通过生物体征对目标身份的真实性进行核验。这种设计安全性较高,即使出现误检也不会造成较大的危害。但对于很多不需要过高准确度的场景,如大会议签到、入场,企业签到,1:1验证的识别系统较低的通过速度容易造成阻塞进而严重的影响效率。而1:1验证方案仅能通过增加通道及终端数量提高效率,这一措施受限于场地大小以及资金往往难以实施,因此大多数企业学校使用的仍是基于非生物物料的通过/考勤系统。
发明内容
本发明的目的是针对现有技术得不足,而提供一种基于单阶无锚检测网络的考勤方法。这种方法能够实现单台终端对多人完成考勤识别,在通过/考勤效率上拥有较大优势,能辅助完成大人流量下的考勤任务。
实现本发明目的的技术方案是:
一种基于单阶无锚检测网络的考勤方法,包括如下步骤:
1)人脸编码过程:包括:
1-1)将图片转换为输入张量:获取将用于输入的n张大小为112*112的图片,将每张图片转化为RGB编码,并表示为3*112*112的张量,将n个图片张量堆叠,并拼接为n*3*112*112尺寸的张量,最后所得张量即为所用网络的输入,记为x;
1-2)采用用于人脸编码的轻量级神经网络特征提取模块提取步骤1-1)最后所得张量作为输入的图片的特征,所述特征提取模块的结构如表1所示,表1按行描述依次级联的一系列运算操作及参数,其中每行的input列表示该行描述运算的输入尺寸、Opretor列表示该行描述运算采用的运算方法的名称、t列表示若采用该运算时转置残差瓶颈块IBottleneck的扩张系数、c表示该行描述运算的输出的通道数量、n表示该运算的重复次数、s表示该行操作中第一次卷积所采用的步长,Opretor列提及的运算均由一个或多个卷积运算组成,
表1:
Figure GDA0003513971430000021
特征提取包括:
1-2-1)主干网络结果抽取:令
Figure GDA0003513971430000022
表示表1中第i行所描述的运算、
Figure GDA0003513971430000023
计算并保存结果
Figure GDA0003513971430000024
1-3)计算512维特征向量:将步骤1-2-1)所得结果中的
Figure GDA0003513971430000025
分别通过步长为4卷积核大小为4x4、步长为2卷积核大小为2x2的深度可分离卷积层,得到结果
Figure GDA0003513971430000027
并采用步长为1的1x1卷积对
Figure GDA0003513971430000028
进行变换使变换后的结果通道数扩张至128得到
Figure GDA0003513971430000029
采用逐点加法运算即
Figure GDA00035139714300000210
得到融合特征图集X,随后采用7x7的深度卷积卷积层对融合特征图X进行变换使变换后的结果通道数量扩张至512,此时每一通道的特征图尺寸均为1x1,去掉多余的1x1维度,即可获得512维特征向量
Figure GDA0003513971430000026
1-4)采用公开开源的大规模人脸数据集训练由步骤1-1)至步骤1-3)所描述的流程级联所构成的网络,用于训练的数据集为MS1Mv2数据集和CASIA-Webface数据集,获取数据集后,利用用于计算图片人脸关键点的神经网络模型MTCNN获取数据集中所有图片的5个人脸关键点的坐标,通过仿射变换使得图片中人脸的关键点与参考关键点坐标对齐,五个参考关键点的坐标依次为:(38.2946,51.6963),(73.5318,51.6963),(56.0252,71.7366),(41.5493,92.3655),(70.7299,92.3655),所有坐标均以图片左上角为坐标系原点,用经过人脸对齐变换后的图片替换数据集中的原始图片,训练包括如下步骤:
1-4-1)制作数据集的训练标签:用1到N的整数表示表示数据集中的N个类别;
1-4-2)从数据集中不重复的抽取512张图片,输入网络得到512个512维特征向量,用512*512大小的矩阵表示,记为
Figure GDA0003513971430000031
按抽取顺序将各图片的整数标签拼接为512大小的向量C;
1-4-3)增加角裕度m并对特征进行放缩:构建一个512*N大小的权重矩阵记为
Figure GDA0003513971430000032
采用公式
Figure GDA0003513971430000033
得到
Figure GDA0003513971430000034
在余弦空间中的表示θ,对每一θi∈θ计算Li=s*cos(θi+m)得到放缩后的特征向量L,其中m,s为超参数,此处选择m=0.5,s=128;
1-4-4)采用交叉熵损失函数CrossEntropyLoss计算损失:将输入图片对应的整数标签转化为N维的独热向量,堆叠并拼接得到独热向量的到大小为512*N的01矩阵
Figure GDA0003513971430000035
损失的计算公式为公式(1):
Figure GDA0003513971430000036
公式(1)所得结果l为网络的损失;
1-4-5)反向传播并利用带动量的随机梯度优化器更新模型权重,优化器的学习率设置为0.1,权重衰减率设置为5e-4;
2)人脸检测过程:包括:
2-1)获取输入:输入为n*3*H*W的张量,用于表示n张RGB编码大小H*W的图片,将输入的张量记为x;
2-2)采用Resnet50网络的特征提取模块对输入进行变换并获取特征图,Resnet50网络由4个阶段构成,每个阶段结束后的输出记为
Figure GDA0003513971430000037
将x输入Resnet50网络,保存结果
Figure GDA0003513971430000038
2-3)采用FPN对特征图进行变换,包含以下步骤:
2-3-1)采用核大小为1*1的卷积层对
Figure GDA0003513971430000039
进行变换得到
Figure GDA00035139714300000310
2-3-2)采用双线性插值法使
Figure GDA00035139714300000311
的特征图大小扩大为原来的两倍,将结果记为
Figure GDA00035139714300000312
2-3-3)计算并输出
Figure GDA00035139714300000313
其中
Figure GDA00035139714300000314
表示卷积运算;
2-3-4)计算位置信息,包括:
2-4-1)构建四个并行的卷积层F1,F2,F3,F4,其中各卷积核大小均为3*3,卷积层的输出通道数依次为1,2,10,2;
2-4-2)取得步骤2-3)中的输出并记为x,计算F1(x),F2(x),F3(x),F4(x),并将结果记为x1,x2,x3,x4
2-4-3)寻找x1中值大于0.5的点,并记录所有满足该条件的点的在张量x1中的N个坐标,所得N个坐标即检测出的N个人脸检测框的中心点在x1中的坐标;
2-4-4)x2中两个通道在步骤2-4-3)所得坐标处的值分别表示检测框的高和宽,x3的10个通道对应处的值依次表示5个检测点的坐标,x4的两个值表示检测框中心点在原图上的修正值;
2-4-5)将坐标信息还原至输入张量的参考系中:设所获得的中心点坐标为(a,b),获得的高、宽分别为H、W,获得的关键点坐标为(e1,f1),(e2,f2),...,(e3,f3),获得的修正值为g,h,则在输入张量的参考系中,检测框中心为(4a+g,4b+h)、检测框高宽为
Figure GDA0003513971430000041
人脸关键点坐标为(4ei,4fj),i=1,2...,5;
2-5)将检测框用角点表示,角点为矩形的左下角坐标及右下角坐标组成的二元组;
2-6)返回结果:返回N个六元组,每个六元组包括一组角点及五个关键点的坐标;
3)统计考勤:包括:
3-1)计算图片中人脸的编码向量,包括:
3-1-1)获取输入图片:获取用于输入的1张大小为H*W的图片,计算小于1的最大的放缩倍数α,使得图片的最长边在放缩后小于1600;
3-1-2)将图片转换为输入张量:将图片大小放缩为原来的α倍,将图片转化为RGB编码,并表示为3*αH*αW的张量,新增一个维度,使张量的形状变为1*3*αH*αW,将所得张量记为x;
3-1-3)把x作为上文描述的人脸检测过程的输入,计算得到N组包含检测框角点的坐标及关键点坐标的信息;
3-1-4)依据放缩倍数α计算步骤3-1-3)所得坐标在原图中的坐标值,并将检测框的角点的坐标描述的检测框内的图像保存,计算该检测框对应的人脸关键点以检测框的左上角为原点的坐标值;
3-1-5)通过仿射变换使步骤3-1-4)所得每一张图片中位于人脸关键点坐标处的像素与参考关键点坐标对齐,五个参考关键点的坐标依次为:(38.2946,51.6963),(73.5318,51.6963),(56.0252,71.7366),(41.5493,92.3655),(70.7299,92.3655);
3-1-6)保存变换后的图片中坐标(0,0)与(112,112)为角点所描述的矩形区域的像素值大小为3*112*112的张量;
3-1-7)将步骤3-1-6)所得的N个张量拼接得到大小为N*3*112*112的张量M;
3-1-8)将M作为人脸编码过程的输入并计算,得到N个512维的人脸编码向量;
3-2)构建身份数据库,包括:
3-2-1)采集考勤目标直视镜头的五张照片,照片中只包含考勤目标的面部,不能存在多个人脸,照片中属于的人脸像素占比应超过50%;
3-2-2)将收集的五张图片依次作为步骤3-1)过程的输入并计算得到5个512维向量;
3-2-3)保存步骤3-2-2)所得5个向量,所得5个向量即为该考勤目标的参考向量;
3-3)完成考勤,包括:
3-3-1)采集画面内容覆盖完整考勤现场场地的一张照片,场地内包含人脸的数量不超过150,照片中能检测出身份的最小人脸大小为112*112像素;
3-3-2)将照片输入步骤3-1)的过程并计算,得到K个人脸编码向量,用υi表示所得的第i个编码向量;
3-3-3)对于每个υi在数据库中查找与其余弦相似度最大一个向量ωi
3-3-4)对于每个υi若其与ωi的余弦值大于阈值σ,则υi所表示的人脸身份与ωi一致,否则认为υi所表示的人脸身份在数据库中不存在,推荐阈值σ=0.95,若使用中误检率较高,可适当调高σ的值;
3-3-5)返回得到的人脸身份,并返回到场人数K。
这种方法能够实现单台终端对多人完成考勤识别,在通过/考勤效率上拥有较大优势,能辅助完成大人流量下的考勤任务。
具体实施方式
下面结合实施例对本发明的内容作进一步的阐述,但不是对本发明的限定。
实施例:
一种基于单阶无锚检测网络的考勤方法,包括如下步骤:
1)人脸编码过程:包括:
1-1)将图片转换为输入张量:获取将用于输入的n张大小为112*112的图片,将每张图片转化为RGB编码,并表示为3*112*112的张量,将n个图片张量堆叠,并拼接为n*3*112*112尺寸的张量,最后所得张量即为所用网络的输入,记为x;
1-2)采用用于人脸编码的轻量级神经网络特征提取模块提取步骤1-1)最后所得张量作为输入的图片的特征,所述特征提取模块的结构如表1所示,表1按行描述依次级联的一系列运算操作及参数,其中每行的input列表示该行描述运算的输入尺寸、Opretor列表示该行描述运算采用的运算方法的名称、t列表示若采用该运算时转置残差瓶颈块IBottleneck的扩张系数、c表示该行描述运算的输出的通道数量、n表示该运算的重复次数、s表示该行操作中第一次卷积所采用的步长,Opretor列提及的运算均由一个或多个卷积运算组成,
表1:
Figure GDA0003513971430000061
特征提取包括:
1-2-1)主干网络结果抽取:令
Figure GDA0003513971430000062
表示表1中第i行所描述的运算、
Figure GDA0003513971430000063
计算并保存结果
Figure GDA0003513971430000064
1-3)计算512维特征向量:将步骤1-2-1)所得结果中的
Figure GDA0003513971430000065
分别通过步长为4卷积核大小为4x4、步长为2卷积核大小为2x2的深度可分离卷积层,得到结果
Figure GDA0003513971430000066
并采用步长为1的1x1卷积对
Figure GDA0003513971430000067
进行变换使变换后的结果通道数扩张至128得到
Figure GDA0003513971430000068
采用逐点加法运算即
Figure GDA0003513971430000069
得到融合特征图集X,随后采用7x7的深度卷积卷积层对融合特征图X进行变换使变换后的结果通道数量扩张至512,此时每一通道的特征图尺寸均为1x1,去掉多余的1x1维度,即可获得512维特征向量
Figure GDA0003513971430000071
1-4)采用公开开源的大规模人脸数据集训练由步骤1-1)至步骤1-3)所描述的流程级联所构成的网络,用于训练的数据集为MS1Mv2数据集和CASIA-Webface数据集,获取数据集后,利用用于计算图片人脸关键点的神经网络模型MTCNN获取数据集中所有图片的5个人脸关键点的坐标,通过仿射变换使得图片中人脸的关键点与参考关键点坐标对齐,五个参考关键点的坐标依次为:(38.2946,51.6963),(73.5318,51.6963),(56.0252,71.7366),(41.5493,92.3655),(70.7299,92.3655),所有坐标均以图片左上角为坐标系原点,用经过人脸对齐变换后的图片替换数据集中的原始图片,训练包括如下步骤:
1-4-1)制作数据集的训练标签:用1到N的整数表示表示数据集中的N个类别;
1-4-2)从数据集中不重复的抽取512张图片,输入网络得到512个512维特征向量,用512*512大小的矩阵表示,记为
Figure GDA0003513971430000072
按抽取顺序将各图片的整数标签拼接为512大小的向量C;
1-4-3)增加角裕度m并对特征进行放缩:构建一个512*N大小的权重矩阵记为
Figure GDA0003513971430000073
采用公式
Figure GDA0003513971430000074
得到
Figure GDA0003513971430000075
在余弦空间中的表示θ,对每一θi∈θ计算Li=s*cos(θi+m)得到放缩后的特征向量L,其中m,s为超参数,此处选择m=0.5,s=128;
1-4-4)采用交叉熵损失函数CrossEntropyLoss计算损失:将输入图片对应的整数标签转化为N维的独热向量,堆叠并拼接得到独热向量的到大小为512*N的01矩阵
Figure GDA0003513971430000076
损失的计算公式为公式(1):
Figure GDA0003513971430000077
公式(1)所得结果l为网络的损失;
1-4-5)反向传播并利用带动量的随机梯度优化器更新模型权重,优化器的学习率设置为0.1,权重衰减率设置为5e-4;
2)人脸检测过程:包括:
2-1)获取输入:输入为n*3*H*W的张量,用于表示n张RGB编码大小H*W的图片,将输入的张量记为x;
2-2)采用Resnet50网络的特征提取模块对输入进行变换并获取特征图,Resnet50网络由4个阶段构成,每个阶段结束后的输出记为
Figure GDA0003513971430000078
将x输入Resnet50网络,保存结果
Figure GDA0003513971430000082
2-3)采用FPN对特征图进行变换,包含以下步骤:
2-3-1)采用核大小为1*1的卷积层对
Figure GDA0003513971430000083
进行变换得到
Figure GDA0003513971430000084
2-3-2)采用双线性插值法使
Figure GDA0003513971430000085
的特征图大小扩大为原来的两倍,将结果记为
Figure GDA0003513971430000086
2-3-3)计算并输出
Figure GDA0003513971430000087
其中
Figure GDA0003513971430000088
表示卷积运算;
2-3-4)计算位置信息,包括:
2-4-1)构建四个并行的卷积层F1,F2,F3,F4,其中各卷积核大小均为3*3,卷积层的输出通道数依次为1,2,10,2;
2-4-2)取得步骤2-3)中的输出并记为x,计算F1(x),F2(x),F3(x),F4(x),并将结果记为x1,x2,x3,x4
2-4-3)寻找x1中值大于0.5的点,并记录所有满足该条件的点的在张量x1中的N个坐标,所得N个坐标即检测出的N个人脸检测框的中心点在x1中的坐标;
2-4-4)x2中两个通道在步骤2-4-3)所得坐标处的值分别表示检测框的高和宽,x3的10个通道对应处的值依次表示5个检测点的坐标,x4的两个值表示检测框中心点在原图上的修正值;
2-4-5)将坐标信息还原至输入张量的参考系中:设所获得的中心点坐标为(a,b),获得的高、宽分别为H、W,获得的关键点坐标为(e1,f1),(e2,f2),...,(e3,f3),获得的修正值为g,h,则在输入张量的参考系中,检测框中心为(4a+g,4b+h)、检测框高宽为
Figure GDA0003513971430000081
人脸关键点坐标为(4ei,4fi),i=1,2,...,5;
2-5)将检测框用角点表示,角点为矩形的左下角坐标及右下角坐标组成的二元组;
2-6)返回结果:返回N个六元组,每个六元组包括一组角点及五个关键点的坐标;
3)统计考勤:包括:
3-1)计算图片中人脸的编码向量,包括:
3-1-1)获取输入图片:获取用于输入的1张大小为H*W的图片,计算小于1的最大的放缩倍数α,使得图片的最长边在放缩后小于1600;
3-1-2)将图片转换为输入张量:将图片大小放缩为原来的α倍,将图片转化为RGB编码,并表示为3*αH*αW的张量,新增一个维度,使张量的形状变为1*3*αH*αW,将所得张量记为x;
3-1-3)把x作为上文描述的人脸检测过程的输入,计算得到N组包含检测框角点的坐标及关键点坐标的信息;
3-1-4)依据放缩倍数α计算步骤3-1-3)所得坐标在原图中的坐标值,并将检测框的角点的坐标描述的检测框内的图像保存,计算该检测框对应的人脸关键点以检测框的左上角为原点的坐标值;
3-1-5)通过仿射变换使步骤3-1-4)所得每一张图片中位于人脸关键点坐标处的像素与参考关键点坐标对齐,五个参考关键点的坐标依次为:(38.2946,51.6963),(73.5318,51.6963),(56.0252,71.7366),(41.5493,92.3655),(70.7299,92.3655);
3-1-6)保存变换后的图片中坐标(0,0)与(112,112)为角点所描述的矩形区域的像素值大小为3*112*112的张量;
3-1-7)将步骤3-1-6)所得的N个张量拼接得到大小为N*3*112*112的张量M;
3-1-8)将M作为人脸编码过程的输入并计算,得到N个512维的人脸编码向量;
3-2)构建身份数据库,包括:
3-2-1)采集考勤目标直视镜头的五张照片,照片中只包含考勤目标的面部,不能存在多个人脸,照片中属于的人脸像素占比应超过50%;
3-2-2)将收集的五张图片依次作为步骤3-1)过程的输入并计算得到5个512维向量;
3-2-3)保存步骤3-2-2)所得5个向量,所得5个向量即为该考勤目标的参考向量;
3-3)完成考勤,包括:
3-3-1)采集画面内容覆盖完整考勤现场场地的一张照片,场地内包含人脸的数量不超过150,照片中能检测出身份的最小人脸大小为112*112像素;
3-3-2)将照片输入步骤3-1)的过程并计算,得到K个人脸编码向量,用υi表示所得的第i个编码向量;
3-3-3)对于每个υi在数据库中查找与其余弦相似度最大一个向量ωi
3-3-4)对于每个υi若其与ωi的余弦值大于阈值σ,则υi所表示的人脸身份与ωi一致,否则认为υi所表示的人脸身份在数据库中不存在,推荐阈值σ=0.95,若使用中误检率较高,可适当调高σ的值;
3-3-5)返回得到的人脸身份,并返回到场人数K。

Claims (1)

1.一种基于单阶无锚检测网络的考勤方法,其特征在于,包括如下步骤:
1)人脸编码过程:包括:
1-1)将图片转换为输入张量:获取将用于输入的n张大小为112*112的图片,将每张图片转化为RGB编码,并表示为3*112*112的张量,将n个图片张量堆叠,并拼接为n*3*112*112尺寸的张量,最后所得张量即为所用网络的输入,记为x;
1-2)采用用于人脸编码的轻量级神经网络特征提取模块提取步骤1-1)最后所得张量作为输入的图片的特征,所述特征提取模块的结构如表1所示,表1按行描述依次级联的一系列运算操作及参数,其中每行的input列表示该行描述运算的输入尺寸、Opretor列表示该行描述运算采用的运算方法的名称、t列表示若采用该运算时转置残差瓶颈块IBottleneck的扩张系数、c表示该行描述运算的输出的通道数量、n表示该运算的重复次数、s表示该行操作中第一次卷积所采用的步长,Opretor列提及的运算均由一个或多个卷积运算组成,
表1:
Figure FDA0003513971420000011
特征提取包括:
1-2-1)主干网络结果抽取:令
Figure FDA0003513971420000012
表示表1中第i行所描述的运算、
Figure FDA0003513971420000013
计算并保存结果
Figure FDA0003513971420000014
1-3)计算512维特征向量:将步骤1-2-1)所得结果中的
Figure FDA0003513971420000015
分别通过步长为4卷积核大小为4x4、步长为2卷积核大小为2x2的深度可分离卷积层,得到结果
Figure FDA0003513971420000016
并采用步长为1的1x1卷积对
Figure FDA0003513971420000017
进行变换使变换后的结果通道数扩张至128得到
Figure FDA0003513971420000018
采用逐点加法运算即
Figure FDA0003513971420000019
得到融合特征图集X,随后采用7x7的深度卷积卷积层对融合特征图X进行变换使变换后的结果通道数量扩张至512,此时每一通道的特征图尺寸均为1x1,去掉多余的1x1维度,即可获得512维特征向量
Figure FDA0003513971420000028
1-4)采用公开开源的大规模人脸数据集训练由步骤1-1)至步骤1-3)所描述的流程级联所构成的网络,用于训练的数据集为MS1Mv2数据集和CASIA-Webface数据集,获取数据集后,利用用于计算图片人脸关键点的神经网络模型MTCNN获取数据集中所有图片的5个人脸关键点的坐标,通过仿射变换使得图片中人脸的关键点与参考关键点坐标对齐,五个参考关键点的坐标依次为:(38.2946,51.6963),(73.5318,51.6963),(56.0252,71.7366),(41.5493,92.3655),(70.7299,92.3655),所有坐标均以图片左上角为坐标系原点,用经过人脸对齐变换后的图片替换数据集中的原始图片,训练包括如下步骤:
1-4-1)制作数据集的训练标签:用1到N的整数表示表示数据集中的N个类别;
1-4-2)从数据集中不重复的抽取512张图片,输入网络得到512个512维特征向量,用512*512大小的矩阵表示,记为
Figure FDA0003513971420000021
按抽取顺序将各图片的整数标签拼接为512大小的向量C;
1-4-3)增加角裕度m并对特征进行放缩:构建一个512*N大小的权重矩阵记为
Figure FDA0003513971420000022
采用公式
Figure FDA0003513971420000023
得到
Figure FDA0003513971420000024
在余弦空间中的表示θ,对每一θi∈θ计算Li=s*cos(θi+m)得到放缩后的特征向量L,其中m,s为超参数,此处选择m=0.5,s=128;
1-4-4)采用交叉熵损失函数CrossEntropyLoss计算损失:将输入图片对应的整数标签转化为N维的独热向量,堆叠并拼接得到独热向量的到大小为512*N的01矩阵
Figure FDA0003513971420000025
损失的计算公式为公式(1):
Figure FDA0003513971420000026
公式(1)所得结果l为网络的损失;
1-4-5)反向传播并利用带动量的随机梯度优化器更新模型权重,优化器的学习率设置为0.1,权重衰减率设置为5e-4;
2)人脸检测过程:包括:
2-1)获取输入:输入为n*3*H*W的张量,用于表示n张RGB编码大小H*W的图片,将输入的张量记为x;
2-2)采用Resnet50网络的特征提取模块对输入进行变换并获取特征图,Resnet50网络由4个阶段构成,每个阶段结束后的输出记为
Figure FDA0003513971420000027
将x输入Resnet50网络,保存结果
Figure FDA0003513971420000031
2-3)采用FPN对特征图进行变换,包含以下步骤:
2-3-1)采用核大小为1*1的卷积层对
Figure FDA0003513971420000032
进行变换得到
Figure FDA0003513971420000033
2-3-2)采用双线性插值法使
Figure FDA0003513971420000034
的特征图大小扩大为原来的两倍,将结果记为
Figure FDA0003513971420000035
2-3-3)计算并输出
Figure FDA0003513971420000036
其中
Figure FDA0003513971420000037
表示卷积运算;
2-3-4)计算位置信息,包括:
2-4-1)构建四个并行的卷积层F1,F2,F3,F4,其中各卷积核大小均为3*3,卷积层的输出通道数依次为1,2,10,2;
2-4-2)取得步骤2-3)中的输出并记为x,计算F1(x),F2(x),F3(x),F4(x),并将结果记为x1,x2,x3,x4
2-4-3)寻找x1中值大于0.5的点,并记录所有满足该条件的点的在张量x1中的N个坐标,所得N个坐标即检测出的N个人脸检测框的中心点在x1中的坐标;
2-4-4)x2中两个通道在步骤2-4-3)所得坐标处的值分别表示检测框的高和宽,x3的10个通道对应处的值依次表示5个检测点的坐标,x4的两个值表示检测框中心点在原图上的修正值;
2-4-5)将坐标信息还原至输入张量的参考系中:设所获得的中心点坐标为(a,b),获得的高、宽分别为H、W,获得的关键点坐标为(e1,f1),(e2,f2),...,(e3,f3),获得的修正值为g,h,则在输入张量的参考系中,检测框中心为(4a+g,4b+h)、检测框高宽为
Figure FDA0003513971420000038
人脸关键点坐标为(4ei,4fj),i=1,2...,5;
2-5)将检测框用角点表示,角点为矩形的左下角坐标及右下角坐标组成的二元组;
2-6)返回结果:返回N个六元组,每个六元组包括一组角点及五个关键点的坐标;
3)统计考勤:包括:
3-1)计算图片中人脸的编码向量,包括:
3-1-1)获取输入图片:获取用于输入的1张大小为H*W的图片,计算小于1的最大的放缩倍数α,使得图片的最长边在放缩后小于1600;
3-1-2)将图片转换为输入张量:将图片大小放缩为原来的α倍,将图片转化为RGB编码,并表示为3*αH*αW的张量,新增一个维度,使张量的形状变为1*3*αH*αW,将所得张量记为x;
3-1-3)把x作为上文描述的人脸检测过程的输入,计算得到N组包含检测框角点的坐标及关键点坐标的信息;
3-1-4)依据放缩倍数α计算步骤3-1-3)所得坐标在原图中的坐标值,并将检测框的角点的坐标描述的检测框内的图像保存,计算该检测框对应的人脸关键点以检测框的左上角为原点的坐标值;
3-1-5)通过仿射变换使步骤3-1-4)所得每一张图片中位于人脸关键点坐标处的像素与参考关键点坐标对齐,五个参考关键点的坐标依次为:(38.2946,51.6963),(73.5318,51.6963),(56.0252,71.7366),(41.5493,92.3655),(70.7299,92.3655);
3-1-6)保存变换后的图片中坐标(0,0)与(112,112)为角点所描述的矩形区域的像素值大小为3*112*112的张量;
3-1-7)将步骤3-1-6)所得的N个张量拼接得到大小为N*3*112*112的张量M;
3-1-8)将M作为人脸编码过程的输入并计算,得到N个512维的人脸编码向量;
3-2)构建身份数据库,包括:
3-2-1)采集考勤目标直视镜头的五张照片,照片中只包含考勤目标的面部,不能存在多个人脸,照片中属于的人脸像素占比应超过50%;
3-2-2)将收集的五张图片依次作为步骤3-1)过程的输入并计算得到5个512维向量;
3-2-3)保存步骤3-2-2)所得5个向量,所得5个向量即为该考勤目标的参考向量;
3-3)完成考勤,包括:
3-3-1)采集画面内容覆盖完整考勤现场场地的一张照片,场地内包含人脸的数量不超过150,照片中能检测出身份的最小人脸大小为112*112像素;
3-3-2)将照片输入步骤3-1)的过程并计算,得到K个人脸编码向量,用υi表示所得的第i个编码向量;
3-3-3)对于每个υi在数据库中查找与其余弦相似度最大一个向量ωi
3-3-4)对于每个υi若其与ωi的余弦值大于阈值σ,则υi所表示的人脸身份与ωi一致,否则认为υi所表示的人脸身份在数据库中不存在,阈值σ=0.95;
3-3-5)返回得到的人脸身份,并返回到场人数K。
CN202010783356.2A 2020-08-06 2020-08-06 一种基于单阶无锚检测网络的考勤方法 Active CN111881876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010783356.2A CN111881876B (zh) 2020-08-06 2020-08-06 一种基于单阶无锚检测网络的考勤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010783356.2A CN111881876B (zh) 2020-08-06 2020-08-06 一种基于单阶无锚检测网络的考勤方法

Publications (2)

Publication Number Publication Date
CN111881876A CN111881876A (zh) 2020-11-03
CN111881876B true CN111881876B (zh) 2022-04-08

Family

ID=73210256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010783356.2A Active CN111881876B (zh) 2020-08-06 2020-08-06 一种基于单阶无锚检测网络的考勤方法

Country Status (1)

Country Link
CN (1) CN111881876B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117372604B (zh) * 2023-12-06 2024-03-08 国网电商科技有限公司 一种3d人脸模型生成方法、装置、设备及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106204779A (zh) * 2016-06-30 2016-12-07 陕西师范大学 基于多人脸数据采集策略和深度学习的课堂考勤方法
CN108304788A (zh) * 2018-01-18 2018-07-20 陕西炬云信息科技有限公司 基于深度神经网络的人脸识别方法
CN110569809A (zh) * 2019-09-11 2019-12-13 淄博矿业集团有限责任公司 一种基于深度学习的煤矿动态人脸识别考勤方法及系统
CN110633731A (zh) * 2019-08-13 2019-12-31 杭州电子科技大学 一种基于交错感知卷积的单阶段无锚框目标检测方法
CN110852703A (zh) * 2019-10-22 2020-02-28 佛山科学技术学院 基于侧脸多特征融合人脸识别的考勤方法、系统、设备及介质
CN111079686A (zh) * 2019-12-25 2020-04-28 开放智能机器(上海)有限公司 一种单阶段的人脸检测和关键点定位方法及系统
CN111476252A (zh) * 2020-04-03 2020-07-31 南京邮电大学 一种面向计算机视觉应用的轻量化无锚框目标检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10565434B2 (en) * 2017-06-30 2020-02-18 Google Llc Compact language-free facial expression embedding and novel triplet training scheme
US10740386B2 (en) * 2017-12-29 2020-08-11 MorphoTrak, LLC Multi-stage image matching techniques

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106204779A (zh) * 2016-06-30 2016-12-07 陕西师范大学 基于多人脸数据采集策略和深度学习的课堂考勤方法
CN108304788A (zh) * 2018-01-18 2018-07-20 陕西炬云信息科技有限公司 基于深度神经网络的人脸识别方法
CN110633731A (zh) * 2019-08-13 2019-12-31 杭州电子科技大学 一种基于交错感知卷积的单阶段无锚框目标检测方法
CN110569809A (zh) * 2019-09-11 2019-12-13 淄博矿业集团有限责任公司 一种基于深度学习的煤矿动态人脸识别考勤方法及系统
CN110852703A (zh) * 2019-10-22 2020-02-28 佛山科学技术学院 基于侧脸多特征融合人脸识别的考勤方法、系统、设备及介质
CN111079686A (zh) * 2019-12-25 2020-04-28 开放智能机器(上海)有限公司 一种单阶段的人脸检测和关键点定位方法及系统
CN111476252A (zh) * 2020-04-03 2020-07-31 南京邮电大学 一种面向计算机视觉应用的轻量化无锚框目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Multi-scale Object Detection Model with Anchor Free Approach and Center of Gravity Prediction;Yihan Zhang;《2020 IEEE 5th Information Technology and Mechatronics Engineering Conference (ITOEC)》;20200714;38-45 *
基于云端人脸识别技术的智慧课堂框架研究;李昕昕 等;《实验技术与管理》;20200617(第06期);172-175 *
基于深度学习的快速人脸检测算法实现与应用研究;余旺旺;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200715(第07期);I138-1028 *

Also Published As

Publication number Publication date
CN111881876A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
Wang et al. A CBAM based multiscale transformer fusion approach for remote sensing image change detection
CN111401361B (zh) 一种端到端的轻量级深度车牌识别方法
CN108520275A (zh) 一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法
CN110738207A (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN111368943B (zh) 图像中对象的识别方法和装置、存储介质及电子装置
US11810366B1 (en) Joint modeling method and apparatus for enhancing local features of pedestrians
CN110751018A (zh) 一种基于混合注意力机制的群组行人重识别方法
CN112329767A (zh) 基于联合预训练的合同文本图像关键信息提取系统和方法
CN111881876B (zh) 一种基于单阶无锚检测网络的考勤方法
CN112329771A (zh) 一种基于深度学习的建筑材料样本识别方法
CN114463805B (zh) 深度伪造检测方法、装置、存储介质及计算机设备
US11908222B1 (en) Occluded pedestrian re-identification method based on pose estimation and background suppression
CN111967408B (zh) 基于“预测-恢复-识别”的低分辨率行人重识别方法及系统
Wang et al. Multi-branch spatial-temporal network for action recognition
CN115830643B (zh) 一种姿势引导对齐的轻量行人重识别方法
CN113313720B (zh) 对象分割方法和装置
Huang et al. Temporally-aggregating multiple-discontinuous-image saliency prediction with transformer-based attention
CN106570910B (zh) 基于自编码特征和近邻模型的图像自动标注方法
CN115311518A (zh) 一种获取视觉属性信息的方法、装置、介质及电子设备
Pandit et al. DeepCap: A deep learning model to caption black and white images
CN112598055A (zh) 头盔佩戴检测方法、计算机可读存储介质和电子设备
CN115240121B (zh) 一种用于增强行人局部特征的联合建模方法和装置
CN117542045B (zh) 一种基于空间引导自注意力的食品识别方法及系统
CN115761444A (zh) 一种非完整信息目标识别模型的训练方法及目标识别方法
Wan et al. Siamese Attentive Convolutional Network for Effective Remote Sensing Image Change Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant