CN113158860B - 基于深度学习多维度输出人脸质量评估方法与电子设备 - Google Patents
基于深度学习多维度输出人脸质量评估方法与电子设备 Download PDFInfo
- Publication number
- CN113158860B CN113158860B CN202110389136.6A CN202110389136A CN113158860B CN 113158860 B CN113158860 B CN 113158860B CN 202110389136 A CN202110389136 A CN 202110389136A CN 113158860 B CN113158860 B CN 113158860B
- Authority
- CN
- China
- Prior art keywords
- face
- branch
- output
- value
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 22
- 238000013135 deep learning Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000011156 evaluation Methods 0.000 claims abstract description 14
- 238000003062 neural network model Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 4
- 239000002131 composite material Substances 0.000 claims description 3
- 238000001303 quality assessment method Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于深度学习多维度输出人脸质量评估方法:准备训练数据集,Score训练集、Class训练集、Mask训练集、Pose训练集;训练网络模型,从四个训练集中各随机选取一部分图片合并为一个批次图片,送入到神经网络模型中,通过神经网络前向推理后得到四个分支的输出值,根据输入的图片来自哪个数据集来计算相应的分支的损失值,最后按照不同的权重相加每个分支的损失值得到总损失值,用于网络反向传播,更新网络参数;对待测的人脸图像进行预测,输入一张人脸图像,经过预处理后送入经过训练得到的神经网络模型进行前向推理,输出四个分支的预测值,最后按权相加四个分支的输出值得到最终的人脸质量综合评估分数。本发明还提供了相应的电子设备。
Description
技术领域
本发明属于图像识别技术领域,更具体地,涉及一种基于深度学习多维度输出人脸质量评估方法与电子设备。
背景技术
在边缘设备人脸抓拍过程中,由于受环境变化和人体运动的影响,抓拍到的人脸图像中存在模糊、遮挡、姿态变化等低质量的人脸图像,这些低质量的人图像会大大降低人脸识别系统的准确率。同时边缘设备的存储空间和传输带宽都是非常有限的,大量的低质量质量人脸图片,并不利于人脸图片的存储和传输。为了能够从大量的人脸图像中挑选出一张或多张高质量的人脸图像,就需要用到人脸质量评估方法。
影响人脸质量的因素有人脸图像的模糊程度、人脸遮挡程度、人脸姿态等,对人脸质量的评估,就是对这些影响因素进行评估。现有的人脸质量评估方法:一是利用深度CNN(Convolution Neural Networks,卷积神经网络)回归人脸质量分数,就是输入人脸图像,经过神经网络,输出一个人脸质量分数,该方法不能够准确反映影响人脸质量的各个因素,如清晰程度、遮挡程度、人脸姿态等,同时,一张人脸图像标注一个综合评价分数,标注难度大,容易引入主观误差。二是分别对人脸姿态、模糊、遮挡、人脸完整性等影响因素建模,计算各个因素的人脸质量分数后分配权重综合评估得到唯一分数作为人脸质量评估,多模型评估增加了耗时和计算资源,不利于边缘设备的实时部署。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于深度学习的多维度输出的人脸质量评估方法,用以解决多个模型同时运行增加耗时和计算资源的问题,增加人脸质量评估的准确性。
为实现上述目的,按照本发明的一个方面,提供了一种基于深度学习多维度输出人脸质量评估方法,包括:
步骤1:准备训练数据集,Score训练集、Class训练集、Mask训练集、Pose训练集;
步骤2:训练网络模型,从所述四个训练集中各随机选取一部分图片合并为一个批次图片,送入到神经网络模型中,通过神经网络前向推理后得到四个分支的输出值,根据输入的图片来自哪个数据集来计算相应的分支的损失值,最后按照不同的权重相加每个分支的损失值得到总损失值,用于网络反向传播,更新网络参数;
步骤3:对待测的人脸图像进行预测,输入一张人脸图像,经过预处理后送入经过训练得到的神经网络模型进行前向推理,输出四个分支的预测值,最后按权相加四个分支的输出值得到最终的人脸质量综合评估分数。
本发明的一个实施例中,所述步骤2中的四个分支包括:
Score输出分支:图像清晰程度估计分支,该分支回归预测一个关于人脸图像清晰程度的评分估计值,在(0,1)区间,图像清晰程度越高,该值越大,反之图像越模糊,该值越小;
Class输出分支:人脸图像“bad”、“good”二分类分支;“bad”类包括非常极端的人脸、不完整的人脸以及部分非人脸图片;“good”类包括正常人脸的图片;该分支用于对输入的人脸图像进行预测分类,得到一个属于“good”类的概率值,在(0,1)区间;
Mask输出分支:人脸图像“Mask”、“NoMask”二分类分支;“Mask”类包括人脸有遮挡的图像和戴口罩的人脸图像;“NoMask”类是正常的无遮挡无口罩的人脸图像;该分支用于预测人脸是否有遮挡和是否戴口罩,输出一个属于“NoMask”类的概率值,概率值越大,表示人脸被遮挡或戴口罩的可能性越小;
Pose输出分支:人脸姿态估计分支,该分支预测人脸的姿态角度,有三个输出值,分别对应人脸的三个欧拉角(Yaw、Pitch、Roll),这三个角度的取值范围是(-100,100)度,不考虑超出这个范围的人脸。
本发明的一个实施例中,所述步骤2中四个分支的总损失值计算如下:
Loss=α1Lscore+α2Lclass+α3Lmask+α4Lpose
上述中,Loss表示总损失值,Lscore、Lclass、Lmask、Lpose分别表示四个分支的损失值,α1、α2、α3、α4是四个分支损失值对应的权重。
本发明的一个实施例中,Score分支损失值为:
Score分支属于回归预测,选用L1-loss函数作为损失值计算函数计算如下:
上式中Lscore表示Score分支的损失值,N表示该批次数据中来自Score数据集的数量,yn表示模型Score分支的输出值,xn表示输入图片对应的标签值。
本发明的一个实施例中,Class分支和Mask分支损失值为:
这两个分支的任务都属于二分类任务,都是使用交叉熵损失函数计算损失值,计算公式如下:
上式中loss表示对应的损失函数,N表示该批次数据中属于该数据集的数量,yn表示模型对应分支的输出值,xn表示输入图片对应的标签值。
本发明的一个实施例中,Pose分支损失值为:
Pose分支属于回归预测,使用smoothL1函数计算损失值,计算公式如下:
上式中,Lpose表示Pose分支的损失值,x表示真实值与预测值间的差值,即预测值与标签值相减。
本发明的一个实施例中,所述步骤3中的预处理为:
对输入的人脸图像数据进行处理,首先将图像通过裁剪或者填充扩充成正方形,然后缩放到大小为48*48,再将图像的像素值归一化到(-1,1)区间。
本发明的一个实施例中,所述步骤2中的神经网络模型包括参数共享和多维度输出两个部分,其中:
所述参数共享属于公共部分,用于提取图像的低层、共同特征,通过参数共享,增加模型参数的复用性,减少模型参数和计算量,该部分包括三个卷积层和三个池化层,对输入大小为48*48*3的图像,经过参数共享模块的卷积层和池化层,输出的feature map大小为6*6*128;
所述多维度输出部分是模型的输出模块,有4个输出分支,分别是Score、Class、Mask、Pose。
本发明的一个实施例中,所述4个训练数据集具体为:
Score训练集:用于学习人脸图像清晰程度估计的训练集,数据集中的每张人脸图片对应一个标签,该标签是关于图像的清晰度评分值;
Class训练集:该数据集包含“bad”、“good”两类人脸图片,“bad”类包括非常极端的人脸、不完整的人脸以及部分非人脸图片;“good”类包括正常人脸的图片,用于训练Class分支对人脸图像“bad”、“good”的分类能力;
Mask训练集:该数据集包含“Mask”、“NoMask”两类人脸图像,“Mask”类包括人脸有遮挡的图像和戴口罩的人脸图像;“NoMask”类是正常的无遮挡无口罩的人脸图像,由于训练Mask分支对人脸图像是否有遮挡或是否戴口罩的分类能力;
Pose训练集:回归预测人脸姿态角度的数据集,每一张人脸图片对应的标签是人脸姿态的三个角度值(Pitch、Yaw、Roll),用于训练Pose分支对人脸姿态角度预测的能力。
本发明的一个实施例中,所述按权相加四个分支的输出值得到最终的人脸质量综合评估分数,具体为:
FQ=αS+βP1+γP2+δSd
上述公式中,S是Score分支的输出值,表示人脸图像清晰程度的评分,P1是Class分支输出分类为“good”的概率值,P2是Mask分支输出分类为“NoMask”的概率值,Sd是Pose分支人脸角度的综合得分,FQ表示人脸质量评估综合分数,最终通过该值来评价人脸质量的好坏,α、β、γ、δ表示四个分支的权重,四个值的和为1。
本发明的一个实施例中,所述Pose分支的人脸角度综合得分Sd的计算公式如下:
其中θ、λ、μ分别表示人脸姿态Pitch、Yaw、Roll的权重,三个值的和为1。
按照本发明的另一方面,还提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述基于深度学习多维度输出人脸质量评估方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:
(1)本发明对人脸图像评估的质量分数综合考虑了模糊度、姿态、完整度等信息,更全面地对人脸图像进行评价;
(2)通过多维度输出的深度卷积神经网络模型对输入的人脸图像进行多任务预测,输出人脸图像的清晰程度评估值、人脸分类概率值以及人脸姿态角度估计值,然后按不同的权重综合模型输出值得到人脸质量评分,能够有效过滤不合格人脸图像;
(3)一个模型实现多个不同任务预测,模型参数少、执行效率高、耗时短,能够在边缘设备实时部署。
附图说明
图1为本发明实施例中基于深度学习多维度输出人脸质量评估方法的总体框图;
图2为本发明实施例中神经网络模型的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
为了解决现有技术存在的问题,本发明提供了一种基于深度学习多维度输出人脸质量评估方法,首先设计一个多维度输出的神经网络模型,如图1所示,模型有四个输出分支:Score、Class、Mask、Pose,这四个分支分别预测不同的任务。输入一张待测的人脸图片,经过预处理后输入到模型中进行预测,得到四个分支的预测值,最后按不同的权重综合评估得到唯一的人脸质量综合分数作为人脸质量评估。
预处理:对输入的人脸图像数据进行处理,首先将图像通过裁剪或者填充扩充成正方形,然后缩放到大小为48*48,再将图像的像素值归一化到(-1,1)区间。
Model:模型的骨架网络(backbone),该网络的结构如图2所示,包括参数共享和多维度输出两个部分。图中,“3*3、2*2”表示卷积层或池化层的核大小,“conv”表示卷积操作,后面接的参数表示卷积核的个数,“bn”表示批量归一化(Batch Normalization),“prelu”表示激活层,“MaxPool”表示最大池化层,“FC”表示全连接层(Fully Connected),括号内的参数表示输入输出节点个数,“Sigmoid”、“SoftMax”分别表示Sigmoid函数和SoftMax函数。参数共享属于公共部分,用于提取图像的低层、共同特征,通过参数共享,增加模型参数的复用性,减少模型参数和计算量。该部分包括三个卷积层和三个池化层。对输入大小为48*48*3的图像,经过参数共享模块的卷积层和池化层,输出的feature map大小为6*6*128;多维度输出部分是模型的输出模块,有4个输出分支,分别是Score、Class、Mask、Pose。
Score输出分支:图像清晰程度估计分支,该分支回归预测一个关于人脸图像清晰程度的评分估计值,在(0,1)区间,图像清晰程度越高,该值越大,反之图像越模糊,该值越小。
Class输出分支:人脸图像“bad”、“good”二分类分支。“bad”类包括非常极端的人脸(分辨率极低、光照条件差)、不完整的人脸以及部分非人脸图片;“good”类包括正常人脸的图片。该分支主要的作用是对输入的人脸图像进行预测分类,得到一个属于“good”类的概率值,在(0,1)区间。
Mask输出分支:人脸图像“Mask”、“NoMask”二分类分支。“Mask”类包括人脸有遮挡的图像和戴口罩的人脸图像;“NoMask”类是正常的无遮挡无口罩的人脸图像。该分支用于预测人脸是否有遮挡和是否戴口罩,输出一个属于“NoMask”类的概率值,概率值越大,表示人脸被遮挡或戴口罩的可能性越小。
Pose输出分支:人脸姿态估计分支,该分支预测人脸的姿态角度,有三个输出值,分别对应人脸的三个欧拉角(Yaw、Pitch、Roll),这三个角度的取值范围是(-100,100)度,不考虑超出这个范围的人脸。
按权相加模块:综合模型的四个分支输出值,进行按权相加,得到一个唯一的人脸质量综合分数作为人脸质量评估。计算公式如下:
FQ=αS+βP1+γP2+δSd
上述公式中,S是Score分支的输出值,表示人脸图像清晰程度的评分,P1是Class分支输出分类为“good”的概率值,P2是Mask分支输出分类为“NoMask”的概率值,Sd是Pose分支人脸角度的综合得分。FQ表示人脸质量评估综合分数,最终通过该值来评价人脸质量的好坏。α、β、γ、δ表示四个分支的权重,四个值的和为1。
上述的Pose分支的人脸角度综合得分Sd的计算公式如下:
其中θ、λ、μ分别表示人脸姿态Pitch、Yaw、Roll的权重,三个值的和为1。
上述的权重值α、β、γ、δ和θ、λ、μ根据经验或通过实验在一定的范围取值,也可以通过进一步训练得到。
综上,最终以FQ作为评价人脸质量好坏的依据,该值越大,表示人脸质量越好,反之越差。
本发明具体实施步骤如下:
步骤1:准备训练数据集。本发明设计了一个多维度输出模型,输出有四个分支:Score、Class、Mask、Pose,对应有四个训练数据集:Score训练集、Class训练集、Mask训练集、Pose训练集。
Score训练集:用于学习人脸图像清晰程度估计的训练集,数据集中的每张人脸图片对应一个标签,该标签是关于图像的清晰度评分值,取值范围是(0,1)。
Class训练集:该数据集包含“bad”、“good”两类人脸图片。“bad”类包括非常极端的人脸(分辨率极低、光照条件差)、不完整的人脸以及部分非人脸图片;“good”类包括正常人脸的图片。用于训练Class分支对人脸图像“bad”、“good”的分类能力。
Mask训练集:该数据集包含“Mask”、“NoMask”两类人脸图像。“Mask”类包括人脸有遮挡的图像和戴口罩的人脸图像;“NoMask”类是正常的无遮挡无口罩的人脸图像。由于训练Mask分支对人脸图像是否有遮挡或是否戴口罩的分类能力。
Pose训练集:回归预测人脸姿态角度的数据集,每一张人脸图片对应的标签是人脸姿态的三个角度值(Pitch、Yaw、Roll)。用于训练Pose分支对人脸姿态角度预测的能力。
步骤2:训练网络模型。通过深度学习框架按图2所示搭建神经网络。训练过程中,从所述四个训练集中各随机选取一部分图片合并为一个批次图片,送入到神经网络模型中,通过神经网络前向推理后得到四个分支的输出值,根据输入的图片来自哪个数据集来计算相应的分支的损失值,最后按照不同的权重相加每个分支的损失值得到总损失值,用于网络反向传播,更新网络参数。
上述步骤2中描述的四个分支的总损失值计算如下:
Loss=α1Lscore+α2Lclass+α3Lmask+α4Lpose
上述中,Loss表示总损失值,Lscore、Lclass、Lmask、Lpose分别表示四个分支的损失值,α1、α2、α3、α4是四个分支损失值对应的权重,可根据经验或通过实验在一定的范围取值。
上述描述的四个分支损失值计算方式如下。
Score分支损失值:Score分支属于回归预测,选用L1-loss函数作为损失值计算函数计算如下:
上式中Lscore表示Score分支的损失值,N表示该批次数据中来自Score数据集的数量,yn表示模型Score分支的输出值,xn表示输入图片对应的标签值。
Class分支和Mask分支损失值:这两个分支的任务都属于二分类任务,都是使用交叉熵损失函数计算损失值。计算公式如下:
上式中loss表示对应的损失函数,N表示该批次数据中属于该数据集的数量,yn表示模型对应分支的输出值,xn表示输入图片对应的标签值。
Pose分支损失值:Pose分支属于回归预测,使用smoothL1函数计算损失值。计算公式如下:
上式中,Lpose表示Pose分支的损失值,x表示真实值与预测值间的差值,即预测值与标签值相减。
步骤3:对待测的人脸图像进行预测。使用步骤2中训练得到的神经网络模型对待测人脸图像进行质量评估预测。预测流程图如图1所示。输入一张人脸图像,经过预处理模型处理后送入经过训练得到的神经网络模型进行前向推理,输出四个分支的预测值,最后按权相加四个分支的输出值得到最终的人脸质量综合评估分数。
预处理模块:对输入的人脸图像数据进行处理,首先将图像通过裁剪或者填充扩充成正方形,然后缩放到大小为48*48,再将图像的像素值归一化到(-1,1)区间。
Model推理模块:模型的骨架网络(backbone),该网络的结构如图2所示,包括参数共享和多维度输出两个部分。参数共享属于公共部分,用于提取图像的低层、共同特征,通过参数共享,增加模型参数的复用性,减少模型参数和计算量。该部分包括三个卷积层和三个池化层。对输入大小为48*48*3的图像,经过参数共享模块的卷积层和池化层,输出的feature map大小为6*6*128;多维度输出部分是模型的输出模块,有4个输出分支,分别是Score、Class、Mask、Pose。
Score输出分支:图像清晰程度估计分支,该分支回归预测一个关于人脸图像清晰程度的评分估计值,在(0,1)区间,图像清晰程度越高,该值越大,反之图像越模糊,该值越小。
Class输出分支:人脸图像“bad”、“good”二分类分支。“bad”类包括非常极端的人脸(分辨率极低、光照条件差)、不完整的人脸以及部分非人脸图片;“good”类包括正常人脸的图片。该分支主要的作用是对输入的人脸图像进行预测分类,得到一个属于“good”类的概率值,在(0,1)区间。
Mask输出分支:人脸图像“Mask”、“NoMask”二分类分支。“Mask”类包括人脸有遮挡的图像和戴口罩的人脸图像;“NoMask”类是正常的无遮挡无口罩的人脸图像。该分支用于预测人脸是否有遮挡和是否戴口罩,输出一个属于“NoMask”类的概率值,概率值越大,表示人脸被遮挡或戴口罩的可能性越小。
Pose输出分支:人脸姿态估计分支,该分支预测人脸的姿态角度,有三个输出值,分别对应人脸的三个欧拉角(Yaw、Pitch、Roll),这三个角度的取值范围是(-100,100)度,不考虑超出这个范围的人脸。
按权相加模块:综合模型的四个分支输出值,进行按权相加,得到一个唯一的人脸质量综合分数作为人脸质量评估。计算公式如下:
FQ=αS+βP1+γP2+δSd
上述公式中,S是Score分支的输出值,表示人脸图像清晰程度的评分,P1是Class分支输出分类为“good”的概率值,P2是Mask分支输出分类为“NoMask”的概率值,Sd是Pose分支人脸角度的综合得分。FQ表示人脸质量评估综合分数,最终通过该值来评价人脸质量的好坏。α、β、γ、δ表示四个分支的权重。
上述的Pose分支的人脸角度综合得分Sd的计算公式如下:
其中θ、λ、μ分别表示人脸姿态Pitch、Yaw、Roll的权重。
上述的权重值α、β、γ、δ和θ、λ、μ根据经验或通过实验在一定的范围取值,也可以通过进一步训练得到。
综上,最终以FQ作为评价人脸质量好坏的依据,该值越大,表示人脸质量越好,反之越差。
进一步地,本发明还提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述基于深度学习多维度输出人脸质量评估方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种基于深度学习多维度输出人脸质量评估方法,其特征在于,包括:
步骤1:准备训练数据集,Score训练集、Class训练集、Mask训练集、Pose训练集;所述4个训练数据集具体为:Score训练集:用于学习人脸图像清晰程度估计的训练集,数据集中的每张人脸图片对应一个标签,该标签是关于图像的清晰度评分值;Class训练集:该数据集包含“bad”、“good”两类人脸图片,“bad”类包括非常极端的人脸、不完整的人脸以及部分非人脸图片;“good”类包括正常人脸的图片,用于训练Class分支对人脸图像“bad”、“good”的分类能力;Mask训练集:该数据集包含“Mask”、“NoMask”两类人脸图像,“Mask”类包括人脸有遮挡的图像和戴口罩的人脸图像;“NoMask”类是正常的无遮挡无口罩的人脸图像,由于训练Mask分支对人脸图像是否有遮挡或是否戴口罩的分类能力;Pose训练集:回归预测人脸姿态角度的数据集,每一张人脸图片对应的标签是人脸姿态的三个角度值: Pitch、Yaw、Roll,用于训练Pose分支对人脸姿态角度预测的能力;
步骤2:训练网络模型,从所述四个训练集中各随机选取一部分图片合并为一个批次图片,送入到神经网络模型中,通过神经网络前向推理后得到四个分支的输出值,根据输入的图片来自哪个数据集来计算相应的分支的损失值,最后按照不同的权重相加每个分支的损失值得到总损失值,用于网络反向传播,更新网络参数;
步骤3:对待测的人脸图像进行预测,输入一张人脸图像,经过预处理后送入经过训练得到的神经网络模型进行前向推理,输出四个分支的预测值,最后按权相加四个分支的输出值得到最终的人脸质量综合评估分数。
2.如权利要求1所述的基于深度学习多维度输出人脸质量评估方法,其特征在于,所述步骤2中的四个分支包括:
Score输出分支:图像清晰程度估计分支,该分支回归预测一个关于人脸图像清晰程度的评分估计值,在(0,1)区间,图像清晰程度越高,该值越大,反之图像越模糊,该值越小;
Class输出分支:人脸图像“bad”、“good”二分类分支;“bad”类包括非常极端的人脸、不完整的人脸以及部分非人脸图片;“good”类包括正常人脸的图片;该分支用于对输入的人脸图像进行预测分类,得到一个属于“good”类的概率值,在(0,1)区间;
Mask输出分支:人脸图像“Mask”、“NoMask”二分类分支;“Mask”类包括人脸有遮挡的图像和戴口罩的人脸图像;“NoMask”类是正常的无遮挡无口罩的人脸图像;该分支用于预测人脸是否有遮挡和是否戴口罩,输出一个属于“NoMask”类的概率值,概率值越大,表示人脸被遮挡或戴口罩的可能性越小;
Pose输出分支:人脸姿态估计分支,该分支预测人脸的姿态角度,有三个输出值,分别对应人脸的三个欧拉角: Yaw、Pitch、Roll,这三个角度的取值范围是(-100,100)度,不考虑超出这个范围的人脸。
3.如权利要求1或2所述的基于深度学习多维度输出人脸质量评估方法,其特征在于,所述步骤2中四个分支的总损失值计算如下:
Loss=α1Lscore+α2Lclass+α3Lmask+α4Lpose
上述中,Loss表示总损失值,Lscore、Lclass、Lmask、Lpose分别表示四个分支的损失值,α1、α2、α3、α4是四个分支损失值对应的权重。
7.如权利要求1或2所述的基于深度学习多维度输出人脸质量评估方法,其特征在于,所述步骤3中的预处理为:
对输入的人脸图像数据进行处理,首先将图像通过裁剪或者填充扩充成正方形,然后缩放到大小为48*48,再将图像的像素值归一化到(-1,1)区间。
8.如权利要求1或2所述的基于深度学习多维度输出人脸质量评估方法,其特征在于,所述步骤2中的神经网络模型包括参数共享和多维度输出两个部分,其中:
所述参数共享属于公共部分,用于提取图像的低层、共同特征,通过参数共享,增加模型参数的复用性,减少模型参数和计算量,该部分包括三个卷积层和三个池化层,对输入大小为48*48*3的图像,经过参数共享模块的卷积层和池化层,输出的feature map大小为6*6*128;
所述多维度输出部分是模型的输出模块,有4个输出分支,分别是Score、Class、Mask、Pose。
9.如权利要求1或2所述的基于深度学习多维度输出人脸质量评估方法,其特征在于,所述按权相加四个分支的输出值得到最终的人脸质量综合评估分数,具体为:
FQ=αS+βP1+γP2+δSd
上述公式中,S是Score分支的输出值,表示人脸图像清晰程度的评分,P1是Class分支输出分类为“good”的概率值,P2是Mask分支输出分类为“NoMask”的概率值,Sd是Pose分支人脸角度的综合得分,FQ表示人脸质量评估综合分数,最终通过该值来评价人脸质量的好坏,α、β、γ、δ表示四个分支的权重,四个值的和为1。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110389136.6A CN113158860B (zh) | 2021-04-12 | 2021-04-12 | 基于深度学习多维度输出人脸质量评估方法与电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110389136.6A CN113158860B (zh) | 2021-04-12 | 2021-04-12 | 基于深度学习多维度输出人脸质量评估方法与电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113158860A CN113158860A (zh) | 2021-07-23 |
CN113158860B true CN113158860B (zh) | 2022-06-24 |
Family
ID=76889932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110389136.6A Active CN113158860B (zh) | 2021-04-12 | 2021-04-12 | 基于深度学习多维度输出人脸质量评估方法与电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158860B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114898424B (zh) * | 2022-04-01 | 2024-04-26 | 中南大学 | 一种基于双重标签分布的轻量化人脸美学预测方法 |
CN115311680A (zh) * | 2022-07-12 | 2022-11-08 | 青岛云天励飞科技有限公司 | 人体图像质量检测方法、装置、电子设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10521705B2 (en) * | 2017-11-14 | 2019-12-31 | Adobe Inc. | Automatically selecting images using multicontext aware ratings |
CN108710885B (zh) * | 2018-03-29 | 2021-07-23 | 百度在线网络技术(北京)有限公司 | 目标对象的检测方法和装置 |
CN109242864B (zh) * | 2018-09-18 | 2021-09-24 | 电子科技大学 | 基于多分支网络的图像分割结果质量评价方法 |
CN110163114B (zh) * | 2019-04-25 | 2022-02-15 | 厦门瑞为信息技术有限公司 | 一种人脸角度及人脸模糊度分析方法、系统和计算机设备 |
CN110826402B (zh) * | 2019-09-27 | 2024-03-29 | 深圳市华付信息技术有限公司 | 一种基于多任务的人脸质量估计方法 |
CN111241925B (zh) * | 2019-12-30 | 2023-08-18 | 新大陆数字技术股份有限公司 | 人脸质量评定方法、系统、电子设备及可读存储介质 |
-
2021
- 2021-04-12 CN CN202110389136.6A patent/CN113158860B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113158860A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108229526B (zh) | 网络训练、图像处理方法、装置、存储介质和电子设备 | |
CN107945204B (zh) | 一种基于生成对抗网络的像素级人像抠图方法 | |
CN108416266B (zh) | 一种利用光流提取运动目标的视频行为快速识别方法 | |
CN110969589A (zh) | 基于多流注意对抗网络的动态场景模糊图像盲复原方法 | |
CN109934826A (zh) | 一种基于图卷积网络的图像特征分割方法 | |
CN113158860B (zh) | 基于深度学习多维度输出人脸质量评估方法与电子设备 | |
CN111241924B (zh) | 基于尺度估计的人脸检测及对齐方法、装置、存储介质 | |
CN111145145B (zh) | 一种基于MobileNets的图像表面缺陷检测方法 | |
Zhang et al. | Generative adversarial and self-supervised dehazing network | |
CN116051683B (zh) | 一种基于风格自组的遥感图像生成方法、存储介质及设备 | |
CN111696079B (zh) | 一种基于多任务学习的表面缺陷检测方法 | |
CN112528058B (zh) | 基于图像属性主动学习的细粒度图像分类方法 | |
CN116596792B (zh) | 一种面向智能船舶的内河雾天场景恢复方法、系统及设备 | |
CN112116567A (zh) | 一种无参考图像质量评价方法、装置及存储介质 | |
CN111652297B (zh) | 用于图像检测模型训练的故障图片生成方法 | |
CN111242066A (zh) | 大尺寸图像目标检测方法、装置及计算机可读存储介质 | |
CN113065379B (zh) | 融合图像质量的图像检测方法、装置、电子设备 | |
Xu et al. | Multi-scale dehazing network via high-frequency feature fusion | |
Wu et al. | Fish Target Detection in Underwater Blurred Scenes Based on Improved YOLOv5 | |
CN113627302A (zh) | 一种登高施工合规性检测方法及系统 | |
CN117392508A (zh) | 一种基于坐标注意力机制的目标检测方法和装置 | |
CN116612355A (zh) | 人脸伪造识别模型训练方法和装置、人脸识别方法和装置 | |
CN113591647B (zh) | 人体动作识别方法、装置、计算机设备和存储介质 | |
CN110136164A (zh) | 基于在线透射变换、低秩稀疏矩阵分解去除动态背景的方法 | |
Zhang et al. | A modified image processing method for deblurring based on GAN networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |