CN115223220A - 一种基于关键点回归的人脸检测方法 - Google Patents

一种基于关键点回归的人脸检测方法 Download PDF

Info

Publication number
CN115223220A
CN115223220A CN202210719383.2A CN202210719383A CN115223220A CN 115223220 A CN115223220 A CN 115223220A CN 202210719383 A CN202210719383 A CN 202210719383A CN 115223220 A CN115223220 A CN 115223220A
Authority
CN
China
Prior art keywords
frame
prediction
key point
real
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210719383.2A
Other languages
English (en)
Other versions
CN115223220B (zh
Inventor
明悦
吴硕
张润清
吕柏阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202210719383.2A priority Critical patent/CN115223220B/zh
Publication of CN115223220A publication Critical patent/CN115223220A/zh
Application granted granted Critical
Publication of CN115223220B publication Critical patent/CN115223220B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于关键点回归的人脸检测方法。该方法包括:通过多任务头网络提取待识别图像的特征图,输出训练图像的预测框;利用关键点回归对预测框和真实框进行训练样本匹配,获取预测框与真实框的匹配关系,选取传输损耗最小的候选框;利用多任务损失函数计算传输损耗最小的预测框与真实框之间的学习误差,根据学习误差反向传播,得到更新后的多任务特征提取网络;将待识别图像输入到训练好的多任务特征提取网络,多任务特征提取网络输出待识别图像的人脸识别结果。本发明设计了多任务最优传输匹配算法,改进了训练样本匹配的评价指标,匹配对检测和关键点任务学习整体最好的样本参与损失计算与梯度反传。

Description

一种基于关键点回归的人脸检测方法
技术领域
本发明涉及人脸检测技术领域,尤其涉及一种基于关键点回归的人脸检测方法。
背景技术
人脸检测作为人脸信息处理的一项关键技术,已经成为模式识别与计算机视觉领域内受到重视的课题。人脸检测常与其它人脸分析技术,如识别、情感分析等结合使用,构成完整的人脸系统。经过几十年的曲折发展,人脸检测算法日趋成熟。由于后续的人脸分析算法对姿态的鲁棒性不足,因而需要对输入图像进行姿态矫正后进行识别。为了提升预处理操作的效率,产生了包含点回归的多任务人脸检测算法,作为对单任务人脸检测算法的补充。
单任务人脸检测算法沿用通用的目标检测框架,按照网络模型的步骤可分为两阶段和单阶段算法,按照是否使用锚可分为基于锚的方法和不基于锚的方法。多阶段人脸检测算法模型复杂度高、推理速度慢,在实时性要求高或低算力场景下难以满足需求。单阶段人脸检测算法用密集采样替代区域推荐网络,在推理速度方面优于多阶段算法。不基于锚的单阶段人脸检测算法通过复用特征图中心点的方式替代手工设计锚点,在改变数据集分布时不需要对锚的尺寸重新调整,更加方便、快捷。
人脸检测算法为后续研究定位人脸区域,稀疏关键点回归算法为后续研究中图像的对齐提供关键点坐标。将人脸检测任务与关键点回归任务组成多任务框架,可以降低预处理阶段的模型复杂度,从而提升整体的效率。然而人脸检测与关键点回归多任务算法中存在训练不对齐问题。训练不对齐是指多任务学习中存在偏向性,由于某个任务收敛情况差导致算法整体性能下降。在人脸检测与关键点回归算法中,现有的训练样本匹配方法以人脸检测任务的学习情况为匹配标准。这会造成训练样本匹配向人脸检测任务偏移,导致关键点回归任务收敛差,造成关键点损失数值大,进而导致反向传递时学习重心向关键点任务偏移。直接在现有的人脸检测算法中引入关键点回归任务,往往由于训练不对齐导致人脸检测的准确率出现明显的降低。
现有技术中的一种基于深度学习的人脸检测和人脸对齐方法采用多任务级联卷积神经网络(Multi-task Cascaded Convolutional Networks, MTCNN),它可以同时完成人脸检测和人脸对齐的任务。该网络为三阶段网络,包含图像金字塔(Image Pyramid)、P网络(P-Net)、R网络(R-Net) 和O网络(O-Net)三部分,由粗到精生成精确的人脸检测框坐标,并最终获得五个人脸关键点坐标。
该方法的具体步骤为:
输入图像,将包含人脸的图像输入系统。
构造多尺度输入,将图像输入特征金字塔,得到多尺度的输入图像送入P 网络。
候选框初次生成,P网络根据多尺度输入,生成多个候选框。
候选框筛选,R网络对候选框进行筛选,渐少其个数,生成更精确的候选框。
输出检测结果及关键的坐标,O网络根据更精确的候选框,输出人脸检测结果及关键的回归的坐标。
上述现有技术中的一种基于深度学习的人脸检测和人脸对齐方法的缺点为:该方法针对人脸检测和关键点两个任务,但是匹配策略倾向于人脸检测,导致匹配时忽略关键点信息,此外,由于偏向人脸检测,该网络需要对输入图像构造图像金字塔,会加大方法的复杂度,增加计算开销。
发明内容
本发明的实施例提供了一种基于关键点回归的人脸检测方法,以实现有效地对图像进行人脸检测。
为了实现上述目的,本发明采取了如下技术方案。
一种基于关键点回归的人脸检测方法,包括:
将训练图像输入到多任务特征提取网络,通过多任务头网络提取待识别图像的特征图,通过多尺度特征融合输出训练图像的预测框;
利用关键点回归对训练图像的预测框和真实框进行训练样本匹配,获取预测框与真实框的匹配关系,选取传输损耗最小的候选框;
利用多任务损失函数计算传输损耗最小的预测框与真实框之间的学习误差,根据学习误差反向传播,得到更新后的多任务特征提取网络;
将待识别图像输入到训练好的多任务特征提取网络,多任务特征提取网络输出待识别图像的人脸识别结果。
优选地,所述的将训练图像输入到多任务特征提取网络,通过多任务头网络提取待识别图像的特征图,通过多尺度特征融合输出训练图像的预测框,包括:
将训练图像输入到多任务特征提取网络,多任务特征提取网络包含主干网络、特征金字塔和多任务头网络了,通过多任务头网络提取待识别图像的特征图,再通过多尺度特征融合输出训练图像的预测框,该预测框包含框的坐标和类别,根据预测框的类别获取训练图像的人脸识别结果。
优选地,所述的利用关键点回归对训练图像的预测框和真实框进行训练样本匹配,获取预测框与真实框的匹配关系,选取传输损耗最小的候选框,包括:
利用关键点回归对预测框和真实框进行训练样本匹配,利用关键点回归计算所有预测框和真实框之间的传输损耗,该传输损耗通过匹配得分值来度量;
第i个真实样本与第j个预测样本的匹配得分cij的计算公式如式(1)所示:
Figure RE-GDA0003847622310000041
其中,
Figure RE-GDA0003847622310000042
Figure RE-GDA0003847622310000043
是第j个预测样本的分类置信度、框坐标和关键点坐标,
Figure RE-GDA0003847622310000044
Figure RE-GDA0003847622310000045
是第i个真实样本的分类置信度、框坐标和关键点坐标, Lcls、Lreg和Lldm是分类、框回归和关键点回归的评价指标;
关键点回归损失Lldm的计算公式如下:
Figure RE-GDA0003847622310000046
其中,
Figure RE-GDA0003847622310000047
Figure RE-GDA0003847622310000048
是第j个预测样本的分类置信度、框坐标和关键点坐标,
Figure RE-GDA0003847622310000049
Figure RE-GDA00038476223100000410
是第i个真实样本的分类置信度、框坐标和关键点坐标,min是取最小值,max是取最大值,L1是平滑的L1损失。
给每个真实框选择k个传输损耗最低的预测框作为匹配关系,k是与真实框交并比最大的10个预测框的交并比之和的向上取整数的数值,并选取传输损耗最小的候选框。
优选地,所述的利用多任务损失函数计算传输损耗最小的预测框与真实框之间的学习误差,根据学习误差反向传播,得到更新后的多任务特征提取网络,包括:
利用带归一化系数的多任务损失函数计算传输损耗最小的预测框与真实框之间的学习误差L;
Figure RE-GDA00038476223100000411
其中Lcls、Lobj、Lreg和Lldm分别为传输损耗最小的预测框与真实框之间的分类损失、前背景损失、框回归损失和关键点回归损失,λ1、λ2是两个常系数,s是输入图像的分辨率;
根据学习误差L反向传播,对多任务特征提取网络进行参数学习和更新,得到训练好的多任务特征提取网络。
由上述本发明的实施例提供的技术方案可以看出,本发明设计了多任务最优传输匹配算法,改进了训练样本匹配的评价指标,匹配对检测和关键点任务学习整体最好的样本参与损失计算与梯度反传。本发明设计了多任务损失函数监督多个任务分支,保证各任务在训练精度上对齐。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于关键点回归的人脸检测方法的实现原理图;
图2为本发明实施例提供的一种卷积神经网络的主干网络结构示意图;
图3为本发明实施例提供的一种多任务头网络的结构示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语 (包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
现有的多任务人脸检测算法,仅是在原有单任务网络的输出端增加一个关键点回归输出分支。这种多任务的扩展方式简单但不具备良好的普适性。本发明选取单阶段不基于锚的人脸检测算法为基础,将其扩展为多任务人脸检测算法。
本发明围绕平衡人脸检测与人脸关键点任务的学习,提出了训练对齐的人脸检测及关键点回归算法,设计了兼顾检测和关键点学习情况的训练样本匹配评分机制、带正则化系数的多任务损失函数。
本发明实施例提供的一种基于关键点回归的人脸检测方法的实现原理图如图1所示,包括如下的处理步骤:
步骤S10:将训练图像输入到多任务特征提取网络,多任务特征提取网络包含主干网络、特征金字塔和多任务头网络了。通过多任务头网络提取待识别图像的特征图,再通过多尺度特征融合输出训练图像的预测框,该预测框包含框的坐标和类别,根据预测框的类别可以获取训练图像的人脸识别结果。
步骤S20、根据数据集对待识别图像进行数据标注,得到训练图像的真实框。
利用关键点回归对预测框和真实框进行训练样本匹配,获取预测框与真实框的匹配关系,计算候选框样本和真实框样本之间的传输损耗,选取传输损耗最小的候选框。
步骤S30、利用多任务损失函数计算预测框与真实框之间的学习误差,根据学习误差反向传播,得到更新后的多任务特征提取网络。
将传输损耗最小的候选框坐标与真实框坐标输入到多任务损失函数,多任务损失函数输出传输损耗最小的候选框与真实框之间的学习误差,根据学习误差反向传播,对多任务特征提取网络进行参数学习和更新,得到训练好的多任务特征提取网络。
步骤S40、将待识别图像输入到训练好的多任务特征提取网络,多任务特征提取网络输出待识别图像的人脸识别结果。
具体的,上述步骤S10包括:
人脸检测是检测输入图像中人脸框坐标的方法,根据是否包含关键点回归任务可分为两类:不包含关键点任务,仅实现检测功能的单任务算法 (Single Task);包含关键点任务,同时实现检测和关键点回归的多任务算法(Multi Task)。人脸关键点回归是回归输入图像中人脸关键点的方法,输出关键点坐标。
本发明采用卷积神经网络作为多任务特征提取网络。使用特征金字塔和多任务头网络进行人脸特征的提取,卷积神经网络的主干网络结构如图2所示,分为4个阶段,对应下采样尺度为4、8、16、32。
卷积神经网络包含很多计算的黑盒,输入是待识别图像,输出是个w*h*c 的三维矩阵。每个w*h都是一张特征图,共有c张,具体是什么不知道。
具体的,上述步骤S20包括:
计算所有预测框和真实框之间的传输损耗,然后给每个真实框选择k个损耗最低的预测框作为匹配关系,来计算损失。其中,k是与真实框交并比最大的10个预测框的交并比之和的向上取整数的数值。传输损耗就是匹配得分。
计算候选框样本和真实框样本间的传输损耗,其中第i个真实样本与第j 个预测样本的匹配得分cij的计算公式如式(1)所示:
Figure RE-GDA0003847622310000081
其中
Figure RE-GDA0003847622310000082
Figure RE-GDA0003847622310000083
是第j个预测样本的分类置信度、框坐标和关键点坐标,
Figure RE-GDA0003847622310000084
Figure RE-GDA0003847622310000085
是第i个真实样本的分类置信度、框坐标和关键点坐标, Lcls、Lreg和Lldm是分类、框回归和关键点回归的评价指标。本发明采用Focal Loss(焦点损失)作为分类评价指标。
为了更直观地描述检测框学习的准确度,本发明采用IoU Loss(交并比损失)作为框回归的评价指标。为了保证在数值上与前两项指标相匹配并描述关键点学习的准确度,本发明设计了归一化的Smooth L1 Loss(平滑的L1损失)作为关键点回归评价指标,计算如式(2)所示:
Figure RE-GDA0003847622310000086
其中
Figure RE-GDA0003847622310000087
Figure RE-GDA0003847622310000088
是第j个预测样本的分类置信度、框坐标和关键点坐标,
Figure RE-GDA0003847622310000089
Figure RE-GDA00038476223100000810
是第i个真实样本的分类置信度、框坐标和关键点坐标。min是取最小值,max是取最大值。L1是Smooth L1 Loss(平滑的L1损失)。
根据传输损耗计算最优传输方案,即优化目标,使其传输损耗最小:
Figure RE-GDA0003847622310000091
其中πi,j是第i个真实样本和第j个预测样本之间的匹配关系,cij为其对应的传输损耗。
具体的,上述步骤S30包括:
为了同时实现人脸检测和人脸关键点任务,本发明提供的一种多任务头网络的结构示意图如图3所示。
训练初始阶段,关键点损失数值上高于其他损失2个数量级。为了降低其对整体学习的影响,本发明采用多尺度输入进行训练,并使用输入分辨率的倒数作为归一化因子。带归一化系数的多任务损失如式(4)所示:
Figure RE-GDA0003847622310000092
其中Lcls、Lobj、Lreg和Lldm分别为分类损失、前背景损失、框回归损失和关键点回归损失,λ1、λ2是两个常系数,s是输入图像的分辨率。约束后的多任务损失函数比约束前收敛程度更深。
多任务损失L的作用就是指导网络学习。
综上所述,本发明实施例改进了人脸检测和人脸关键点的多任务训练策略,并设计了多任务框架同时训练人脸检测和人脸关键点回归任务。使用本发明训练得到的人脸检测及关键点回归模型,任务收敛程度更深,检测的精度更高。
本发明设计了多任务最优传输匹配算法,改进了训练样本匹配的评价指标,匹配对检测和关键点任务学习整体最好的样本参与损失计算与梯度反传。本发明设计了多任务损失函数监督多个任务分支,保证各任务在训练精度上对齐。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (4)

1.一种基于关键点回归的人脸检测方法,其特征在于,包括:
将训练图像输入到多任务特征提取网络,通过多任务头网络提取待识别图像的特征图,通过多尺度特征融合输出训练图像的预测框;
利用关键点回归对训练图像的预测框和真实框进行训练样本匹配,获取预测框与真实框的匹配关系,选取传输损耗最小的候选框;
利用多任务损失函数计算传输损耗最小的预测框与真实框之间的学习误差,根据学习误差反向传播,得到更新后的多任务特征提取网络;
将待识别图像输入到训练好的多任务特征提取网络,多任务特征提取网络输出待识别图像的人脸识别结果。
2.根据权利要求1所述的方法,其特征在于,所述的将训练图像输入到多任务特征提取网络,通过多任务头网络提取待识别图像的特征图,通过多尺度特征融合输出训练图像的预测框,包括:
将训练图像输入到多任务特征提取网络,多任务特征提取网络包含主干网络、特征金字塔和多任务头网络了,通过多任务头网络提取待识别图像的特征图,再通过多尺度特征融合输出训练图像的预测框,该预测框包含框的坐标和类别,根据预测框的类别获取训练图像的人脸识别结果。
3.根据权利要求1所述的方法,其特征在于,所述的利用关键点回归对训练图像的预测框和真实框进行训练样本匹配,获取预测框与真实框的匹配关系,选取传输损耗最小的候选框,包括:
利用关键点回归对预测框和真实框进行训练样本匹配,利用关键点回归计算所有预测框和真实框之间的传输损耗,该传输损耗通过匹配得分值来度量;
第i个真实样本与第j个预测样本的匹配得分cij的计算公式如式(1)所示:
Figure FDA0003710725590000021
其中,
Figure FDA0003710725590000022
Figure FDA0003710725590000023
是第j个预测样本的分类置信度、框坐标和关键点坐标,
Figure FDA0003710725590000024
Figure FDA0003710725590000025
是第i个真实样本的分类置信度、框坐标和关键点坐标,Lcls、Lreg和Lldm是分类、框回归和关键点回归的评价指标;
关键点回归损失Lldm的计算公式如下:
Figure FDA0003710725590000026
其中,
Figure FDA0003710725590000027
Figure FDA0003710725590000028
是第j个预测样本的分类置信度、框坐标和关键点坐标,
Figure FDA0003710725590000029
Figure FDA00037107255900000210
是第i个真实样本的分类置信度、框坐标和关键点坐标,min是取最小值,max是取最大值,L1是平滑的L1损失。
给每个真实框选择k个传输损耗最低的预测框作为匹配关系,k是与真实框交并比最大的10个预测框的交并比之和的向上取整数的数值,并选取传输损耗最小的候选框。
4.根据权利要求3所述的方法,其特征在于,所述的利用多任务损失函数计算传输损耗最小的预测框与真实框之间的学习误差,根据学习误差反向传播,得到更新后的多任务特征提取网络,包括:
利用带归一化系数的多任务损失函数计算传输损耗最小的预测框与真实框之间的学习误差L;
Figure FDA00037107255900000211
其中Lcls、Lobj、Lreg和Lldm分别为传输损耗最小的预测框与真实框之间的分类损失、前背景损失、框回归损失和关键点回归损失,λ1、λ2是两个常系数,s是输入图像的分辨率;
根据学习误差L反向传播,对多任务特征提取网络进行参数学习和更新,得到训练好的多任务特征提取网络。
CN202210719383.2A 2022-06-23 2022-06-23 一种基于关键点回归的人脸检测方法 Active CN115223220B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210719383.2A CN115223220B (zh) 2022-06-23 2022-06-23 一种基于关键点回归的人脸检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210719383.2A CN115223220B (zh) 2022-06-23 2022-06-23 一种基于关键点回归的人脸检测方法

Publications (2)

Publication Number Publication Date
CN115223220A true CN115223220A (zh) 2022-10-21
CN115223220B CN115223220B (zh) 2023-06-09

Family

ID=83609780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210719383.2A Active CN115223220B (zh) 2022-06-23 2022-06-23 一种基于关键点回归的人脸检测方法

Country Status (1)

Country Link
CN (1) CN115223220B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170236057A1 (en) * 2016-02-16 2017-08-17 Carnegie Mellon University, A Pennsylvania Non-Profit Corporation System and Method for Face Detection and Landmark Localization
CN107492116A (zh) * 2017-09-01 2017-12-19 深圳市唯特视科技有限公司 一种基于多外观模型进行人脸跟踪的方法
CN110348460A (zh) * 2019-07-04 2019-10-18 成都旷视金智科技有限公司 一种基于角度的目标检测训练方法、目标检测方法及装置
CN111898406A (zh) * 2020-06-05 2020-11-06 东南大学 基于焦点损失和多任务级联的人脸检测方法
CN112287977A (zh) * 2020-10-06 2021-01-29 武汉大学 一种基于边界框关键点距离的目标检测方法
WO2021068323A1 (zh) * 2019-10-12 2021-04-15 平安科技(深圳)有限公司 多任务面部动作识别模型训练方法、多任务面部动作识别方法、装置、计算机设备和存储介质
CN113436174A (zh) * 2021-06-30 2021-09-24 华中科技大学 一种人脸质量评估模型的构建方法及应用
CN114005166A (zh) * 2021-11-25 2022-02-01 浩云科技股份有限公司 一种基于多任务学习的人脸识别方法和装置
CN114022508A (zh) * 2021-09-18 2022-02-08 浙江大华技术股份有限公司 一种目标跟踪方法、终端及计算机可读存储介质
CN114140683A (zh) * 2020-08-12 2022-03-04 天津大学 一种航拍图像目标检测的方法、设备与介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170236057A1 (en) * 2016-02-16 2017-08-17 Carnegie Mellon University, A Pennsylvania Non-Profit Corporation System and Method for Face Detection and Landmark Localization
CN107492116A (zh) * 2017-09-01 2017-12-19 深圳市唯特视科技有限公司 一种基于多外观模型进行人脸跟踪的方法
CN110348460A (zh) * 2019-07-04 2019-10-18 成都旷视金智科技有限公司 一种基于角度的目标检测训练方法、目标检测方法及装置
WO2021068323A1 (zh) * 2019-10-12 2021-04-15 平安科技(深圳)有限公司 多任务面部动作识别模型训练方法、多任务面部动作识别方法、装置、计算机设备和存储介质
CN111898406A (zh) * 2020-06-05 2020-11-06 东南大学 基于焦点损失和多任务级联的人脸检测方法
CN114140683A (zh) * 2020-08-12 2022-03-04 天津大学 一种航拍图像目标检测的方法、设备与介质
CN112287977A (zh) * 2020-10-06 2021-01-29 武汉大学 一种基于边界框关键点距离的目标检测方法
CN113436174A (zh) * 2021-06-30 2021-09-24 华中科技大学 一种人脸质量评估模型的构建方法及应用
CN114022508A (zh) * 2021-09-18 2022-02-08 浙江大华技术股份有限公司 一种目标跟踪方法、终端及计算机可读存储介质
CN114005166A (zh) * 2021-11-25 2022-02-01 浩云科技股份有限公司 一种基于多任务学习的人脸识别方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHUBIN ZHUANG 等: "FLDet: A CPU Real-time Joint Face and Landmark Detector" *
JIANKANG DENG 等: "RetinaFace: Single-Shot Multi-Level Face Localisation in the Wild" *
LEI PANG 等: "F-DR Net:Face detection and recognition in One Ne" *
明悦 等: "对齐特征表示的跨模态人脸识别" *
顾梅花 等: "一种融合上下文信息特征的改进MTCNN人脸检测算法" *

Also Published As

Publication number Publication date
CN115223220B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
CN113065558B (zh) 一种结合注意力机制的轻量级小目标检测方法
CN112766087A (zh) 一种基于知识蒸馏的光学遥感图像舰船检测方法
CN110490239B (zh) 图像质控网络的训练方法、质量分类方法、装置及设备
CN109035251B (zh) 一种基于多尺度特征解码的图像轮廓检测方法
CN109784283A (zh) 基于场景识别任务下的遥感图像目标提取方法
CN113392960B (zh) 一种基于混合空洞卷积金字塔的目标检测网络及方法
CN110826462A (zh) 一种非局部双流卷积神经网络模型的人体行为识别方法
CN114463759A (zh) 一种基于无锚框算法的轻量化文字检测方法及装置
CN113850324B (zh) 一种基于Yolov4的多光谱目标检测方法
CN115620010A (zh) 一种rgb-t双模态特征融合的语义分割方法
CN115908772A (zh) 一种基于Transformer和融合注意力机制的目标检测方法及系统
CN116468740A (zh) 一种图像语义分割模型及分割方法
CN111739037B (zh) 一种针对室内场景rgb-d图像的语义分割方法
CN114511710A (zh) 一种基于卷积神经网络的图像目标检测方法
US20240161531A1 (en) Transformer-based multi-scale pedestrian re-identification method
CN114998566A (zh) 一种可解释的多尺度红外弱小目标检测网络设计方法
CN113298817A (zh) 一种准确率高的遥感图像语义分割方法
CN115223017B (zh) 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法
CN116385773A (zh) 小目标的检测方法、存储介质及电子设备
CN112507904A (zh) 一种基于多尺度特征的教室人体姿态实时检测方法
CN115240259A (zh) 一种基于yolo深度网络的课堂环境下人脸检测方法及其检测系统
CN117456330A (zh) 一种基于MSFAF-Net的低照度目标检测方法
CN117523394A (zh) 一种基于聚合特征增强网络的sar船舰检测方法
CN112164065A (zh) 一种基于轻量化卷积神经网络的实时图像语义分割方法
CN113902904B (zh) 一种轻量化网络架构系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant