CN112580435A - 人脸定位方法、人脸模型训练与检测方法及装置 - Google Patents
人脸定位方法、人脸模型训练与检测方法及装置 Download PDFInfo
- Publication number
- CN112580435A CN112580435A CN202011340854.6A CN202011340854A CN112580435A CN 112580435 A CN112580435 A CN 112580435A CN 202011340854 A CN202011340854 A CN 202011340854A CN 112580435 A CN112580435 A CN 112580435A
- Authority
- CN
- China
- Prior art keywords
- face
- frame
- anchor
- iou
- separation convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012549 training Methods 0.000 title claims abstract description 35
- 238000001514 detection method Methods 0.000 claims abstract description 56
- 238000000926 separation method Methods 0.000 claims abstract description 55
- 238000005070 sampling Methods 0.000 claims abstract description 43
- 238000002372 labelling Methods 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 230000004807 localization Effects 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 7
- 238000003062 neural network model Methods 0.000 abstract description 2
- 208000029152 Small face Diseases 0.000 abstract 1
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种人脸定位方法、人脸模型训练与检测方法及装置,其包括以下步骤:对图像或视频进行人脸检测,得到人脸区域;对所述人脸区域添加人脸框,且所述人脸框带有旋转信息;根据所述旋转信息进行人脸定位:本发明采用具备旋转信息的人脸标注方案,不仅在训练匹配时提升了匹配的精度和训练效率,同时大大提升了现实场景中人脸多角度拍摄的性能;并且,本发明还通过有偏的人脸尺度采样方案,使得训练过程中人脸的尺度和锚点的密度相匹配,能够有效提升人脸检测装置的性能特别是对小人脸的性能;以及本发明的卷积神经网络模型采用深度分离卷积,大大降低计算量和内存占用,在保证检测性能的情况下提升检测速度。
Description
技术领域
本发明涉及图像处理技术领域,特别是一种人脸定位方法、人脸模型训练与检测方法及装置。
背景技术
人脸检测是人脸相关算法,例如人脸对齐、人脸识别、人脸验证、年龄识别等等的基础和前置模块。
传统的人脸检测算法,主要采用构造人工特征诸如Haar算法、Hog算法等,然后构造判别器,通过扫窗的方式进行人脸检测。这当中最具代表性的当属Viola Jones算法。Viola Jones检测算法第一次实现了检测的实时性,算法采用积分图的方式计算Haar特征,极大地提升了速度,同时采用 Adaboost算法方法筛选特征,并且通过级联的方式过滤掉大部分背景框,大大减小了计算量。
随着深度学习的兴起,深度卷积神经网络逐步被用于检测领域。最具代表性的尝试工作当属RCNN三部曲,其包括分阶段检测方法和单阶段检测方法:
分阶段检测方法:Faster R-CNN至今仍然是代表性的二阶段检测的基准方法。该方法分为两个阶段:第一阶段利用全卷积网络预测候选框位置,第二阶段则根据候选框位置利用RoI-Pooling或者RoI-Align方法从网络特征图中获取对应区域的特征,然后用这个特征进行更精细的分类和位置回归。分阶段检测虽然精度较高,但是整个系统较为复杂,性能受限。因此,单阶段的检测方法随后被提出。
单阶段检测方法:SSD方法是单阶段检测的开山之作。该方法利用全卷积网络多尺度的特性,在不同的尺度层安插检测头部,同时进行前景背景的判定和候选框位置的回归。SSD之后涌现出了许多单阶段的检测方法,它们分别从不同的角度改进了检测算法的表现。其中,目前较为流行的人脸检测算法主要还是基于Anchor(锚点)的方法,匹配的策略采用类似于SSD的方式,通过IoU阈值进行筛选。
但是,Anchor检测方法仍然存在以下问题:
(1)人脸旋转问题:Anchor方法虽然在WIDER FACE评测集上表现相当出色,但是WIDER FACE评测集的人脸朝向相对单一,明显不符合实际场景人脸可能在各个角度上旋转这一事实分布。
(2)Anchor匹配问题:Anchor匹配的策略过于简单,直接给Anchor打上正负标签,匹配程度的Anchor拥有相同的标签不仅在训练上目标不明确,而且在后处理NMS中,对于候选框得分所附加的语义不同。虽然已经有类似的工作开始增加IoU得分的预测分支,或者引入中心得分(centerness)来缓解这个问题。但无论是IoU得分还是centerness都未能解决得分偏低的问题。
(3)尺度采样问题:当前人脸检测主流的训练采用方法都会根据anchor 的尺度进行采样,目标是提高anchor的匹配概率,方法是认为将人脸的大小缩放到anchor的尺寸。这种方法对于特定的评测集有一定的作用,在一定程度上缓解了人脸尺度上的“不平衡”和anchor分布在尺度上的不平衡。在个策略也是采用固定阈值的匹配策略下的折衷之举。
发明内容
本发明的主要目的在于提供了一种人脸定位方法、人脸模型训练与检测方法及装置,旨在对现有的人脸旋转问题、anchor匹配问题、尺度采样问题中的一个以上问题进行一一解决。
为实现上述目的,本发明提供了一种人脸定位方法,其包括以下步骤:
对图像或视频进行人脸检测,得到人脸区域;
对所述人脸区域添加人脸框,且所述人脸框带有旋转信息;
根据所述旋转信息进行人脸定位。
优选的,所述旋转信息的编码方式为[cx,cy,w,h,θ]五元素的向量;其中,cx、cy表示框的中心点,w、h表示框的宽和高,θ表示框的角度。
优选的,根据所述旋转信息进行人脸定位,是通过对所述人脸区域标注锚点框,计算所述人脸框与所述锚点框之间的重叠率,并根据所述所述重叠率计算所述锚点框的置信度。
进一步的,所述锚点框的标注,是通过卷积神经网络模型对人脸图像进行训练和预测得到的;并根据预测结果和所述置信度,得到最终人脸定位结果。
进一步的,所述重叠率的计算包括以下步骤:
将所述人脸框和所述锚点框表示为四个角点的坐标;
初始化点集PSet;
将所述人脸框和所述锚点框相交的点加入到所述点集PSet;
将所述人脸框中位于所述锚点框内部的角点加入到所述点集PSet;
将所述锚点框中位于所述人脸框内部的角点加入到所述点集PSet;
对所述点集PSet进行排序,使点集PSet按照逆时针排序;
通过三角形法计算重叠面积Area(I);
进一步的,根据所述重叠率计算所述锚点框的置信度,进一步包括以下步骤:
计算人脸框列表Rg与锚点框列表Ra两两之间的重叠度矩阵IoU[i,j],其中,IoU[i,j]为第i个人脸框与第j个锚点框之间的重叠度;
对所述重叠度矩阵IoU[i,j]中的每个列取重叠度的最大值IoUbest-gt和人脸框的最大值Indexbest-gt对应序号,即,IoUbest-gt,Indexbest-gt= IoU.max(dim=1);
对所述重叠度矩阵IoU[i,j]中的每行取锚点框的最大值IoUbest-anchor对应序号,得每个人脸的最大的重叠度IoUbest-anchor=IoU.max(dim=0);
通过花式索引获得每个锚点框列表Ra匹配的人脸的最大重叠度 IoUmax=IoU_(best-anchor)[Indexbest-gt];
对所述重叠度进行阈值处理:
重叠度IoUbest-gt小于阈值t的置零,即:IoUbest-gt[IoUbest-gt<t]=0;
最大重叠度IoUmax小于阈值tmax的置1,即:IoUmax[IoUmax<tmax]=1;
优选的,进一步根据变换后的置信度ScoreRa筛选回归样本,将置信度 ScoreRa大于阈值treg的锚点框进行回归目标框,得到最终人脸定位结果。
本发明的目的之二,在于提供一种人脸模型训练方法,其包括以下步骤:
通过主干网络对训练集的人脸图像提取图片特征;并对所述人脸图像添加人脸框,且所述人脸框带有旋转信息;
通过深度分离卷积进行下采样;其中,所述下采样是利用逆变换采样原理,对平均分布进行扩展得到目标分布,并将所述人脸图像采样到所述目标分布上;所述深度分离卷积包括第一深度分离卷积、第二深度分离卷积、第三深度分离卷积;所述第一深度分离卷积用于预测每个人脸框包含人脸的置信度;所述第二深度分离卷积用于预测锚点框;所述第三深度分离卷积用于预测人脸关键点;
利用主干网络和下采样所得特征图构建特征金字塔结构;
在特征金字塔结构中的特征图和下采样所得的尺度不同的特征图上生成对应的锚点框;
根据锚点框与所述人脸框的重叠度是否超过预设阈值确定正负样本,对锚点框、人脸关键点进行回归训练,得到模型预测的目标框;并根据正样本锚点框与所述人脸框的重叠度进行人脸置信度的回归训练。
本发明的目的之二,在于提供一种人脸检测方法,其包括以下步骤:
通过主干网络对待检测图像提取图片特征;
通过深度分离卷积进行下采样;其中,所述下采样是利用逆变换采样原理,对平均分布进行扩展得到目标分布,并将所述人脸图像采样到所述目标分布上;所述深度分离卷积包括第一深度分离卷积、第二深度分离卷积、第三深度分离卷积;所述第一深度分离卷积用于预测每个人脸框包含人脸的置信度;所述第二深度分离卷积用于预测锚点框;所述第三深度分离卷积用于预测人脸关键点;
利用主干网络和下采样所得特征图构建特征金字塔结构;
在特征金字塔结构中的特征图和下采样所得的尺度不同的特征图上生成对应的锚点框;
对于预测的锚点框对应的置信度,选取大于指定阈值的锚点框作为预测候选框;根据所述预测候选框的重叠度,执行非极大值抑制算法,过滤重叠的候选框,得到模型最终的预测框。
此外,为实现上述目的,本发明还提供一种人脸检测装置,所述人脸检测装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人脸检测程序,所述人脸检测程序被所述处理器执行时实现如上任一项所述的人脸检测方法的步骤。
本发明的有益效果是:
(1)本发明采用具备旋转信息的人脸标注方案,不仅在训练匹配时提升了匹配的精度和训练效率,同时大大提升了现实场景中人脸多角度拍摄的性能;
(2)本发明通过有偏的人脸尺度采样方案,使得训练过程中人脸的尺度和锚点的密度相匹配,能够有效提升人脸检测装置的性能特别是对小人脸的性能;
(3)本发明的卷积神经网络模型采用深度分离卷积,大大降低计算量和内存占用,在保证检测性能的情况下提升检测速度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为现有技术的人脸框标注方法示意图(不带角度);
图2为本发明的人脸框标注方法示意图(带角度);
图3为本发明的人脸框的编码方式示意图;
图4为本发明的人脸框与锚点框三种重叠情形;
图5为本发明的人脸尺度的概率密度函数的分布曲线图;
图6为本发明的深度分离卷积结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一(人脸定位方法):
目前主流的人脸检测算法均不考虑人脸的角度旋转,即人脸边框收拾水平和竖直(如图1所示);本发明的一种人脸定位方法,其包括以下步骤:
a).对图像或视频进行人脸检测,得到人脸区域;
b).对所述人脸区域添加人脸框,且所述人脸框带有旋转信息;
c).根据所述旋转信息进行人脸定位。
本发明采用带角度的人脸定位方法(如图2所示)。带旋转角度的标注方案更加契合人脸的朝向,避免引入过多无关的背景像素。
本发明的人脸框带有旋转信息,其编码方式为[cx,cy,w,h,θ]五元素的向量,称之为RBox。其中cx、cy表示框的中心点,w、h表示框的宽高,θ表示框的角度,如图3所示。
所述的步骤c)中,根据所述旋转信息进行人脸定位,是通过对所述人脸区域标注锚点框,计算所述人脸框与所述锚点框之间的重叠率,并根据所述所述重叠率计算所述锚点框的置信度。其中,所述锚点框的标注,是通过卷积神经网络模型对人脸图像进行训练和预测得到的;并根据预测结果和所述置信度,得到最终人脸定位结果。
如图4所示,所述重叠率的计算包括以下步骤:
将所述人脸框和所述锚点框表示为四个角点的坐标;
初始化点集PSet;
将所述人脸框和所述锚点框相交的点加入到所述点集PSet;
将所述人脸框中位于所述锚点框内部的角点加入到所述点集PSet;
将所述锚点框中位于所述人脸框内部的角点加入到所述点集PSet;
对所述点集PSet进行排序,使点集PSet按照逆时针排序;
通过三角形法计算重叠面积Area(I);
其中,重叠情形主要包括以下三种:如图4-(a),包括两个交叉点,重叠面积有两个三角形;如图4-(b),包括四个交叉点,四个三角形;如图4- (c),包括八个交叉点,六个三角形。
本实施例中,根据所述重叠率计算所述锚点框的置信度,是将所述锚点框的重叠度变换为最大值为1的置信度,具体包括以下步骤:
计算人脸框列表Rg与锚点框列表Ra两两之间的重叠度矩阵IoU[i,j],其中,IoU[i,j]为第i个人脸框与第j个锚点框之间的重叠度;
对所述重叠度矩阵IoU[i,j]中的每个列取重叠度的最大值IoUbest-gt和人脸框的最大值Indexbest-gt对应序号,即,IoUbest-gt,Indexbest-gt= IoU.max(dim=1);
对所述重叠度矩阵IoU[i,j]中的每行取锚点框的最大值IoUbest-anchor对应序号,得每个人脸的最大的重叠度IoUbest-anchor=IoU.max(dim=0);
通过花式索引获得每个锚点框列表Ra匹配的人脸的最大重叠度 IoUmax=IoU-(best-anchor)[Indexbest-gt];
对所述重叠度进行阈值处理:
重叠度IoUbest-gt小于阈值t的置零,即:IoUbest-gt[IoUbest-gt<t]=0;
最大重叠度IoUmax小于阈值tmax的置1,即:IoUmax[IoUmax<tmax]=1;
本实施例中采用的配置为:t=0.1,tmax=0.3。
本实施例还进一步根据变换后的置信度ScoreRa筛选回归样本,将置信度 ScoreRa大于阈值treg的锚点框进行回归目标框,得到最终人脸定位结果。本实施例中treg=0.55。
实施例二(人脸模型训练方法):
本实施例提供一种人脸模型训练方法,其包括以下步骤:
通过主干网络对训练集的人脸图像提取图片特征;并对所述人脸图像添加人脸框,且所述人脸框带有旋转信息;
通过深度分离卷积进行下采样;其中,所述下采样是利用逆变换采样原理,对平均分布进行扩展得到目标分布,并将所述人脸图像采样到所述目标分布上;所述深度分离卷积包括第一深度分离卷积、第二深度分离卷积、第三深度分离卷积;所述第一深度分离卷积用于预测每个人脸框包含人脸的置信度;所述第二深度分离卷积用于预测锚点框;所述第三深度分离卷积用于预测人脸关键点;
利用主干网络和下采样所得特征图构建特征金字塔结构;
在特征金字塔结构中的特征图和下采样所得的尺度不同的特征图上生成对应的锚点框;
根据锚点框与所述人脸框的重叠度是否超过预设阈值确定正负样本,对锚点框、人脸关键点进行回归训练,得到模型预测的目标框;并根据正样本锚点框与所述人脸框的重叠度进行人脸置信度的回归训练。
本实施例的整个网络总共分为四个部分:
a)网络Backbone,总共下采样64倍,其中下采样8、16、32、64倍处的特征将作为FPN的基础特征,它们的特征channel数分别为64、128、128、 256;
b)第二部分为特征金字塔;
c)为特征过渡,最终会将特征金字塔特征channel数调整;
d)为预测头部。
其中,主干网络backbone采用深度分离卷积(Separable Convolution) 结构,其结构细节如表1:
表1-主干网络的实现细节
表中,Conv表示常规的卷积,s1/s2表示stride,SConv表示深度分离卷积(其结构如图6所示)。
构建特征金字塔:
首先主干网络每个Stage的特征先通过1x1卷积将通道数统一变换到64. 然后将上方特征进行上采样,最后将二者的特征进行叠加;
特征过渡:特征金字塔所输出的特征通道均为64,本实施例通过一个1x1 卷积将通道调整为检测头部需要的通道数;
检测头部(Head):检测头部通过三个深度分离卷积分别预测人脸框的置信度、锚点框和人脸点。其中人脸框的置信度、锚点框和人脸关键点的维度分别为:[m×n×k]、[m×n×(4k)]、[m×n×(10k)]其中m×n为特征图的尺寸,k表示每个特征图的锚点框个数。
本实施例的主干网络backbone大量采用深度分离卷积,能够大大降低计算量和内存占用,在保证检测性能的情况下提升检测速度。
在实践当中,由于1)不同尺度的难易程度不同;2)方法和anchor配置导致小尺度稀疏或者其它问题,使得在实践中不能简单地对尺度进行平均采样。但是现有技术的方法没有统一的目标分布采样公式。
本实施例中,利用逆变换采样原理,对平均分布进行简单扩展,提出一种有偏的尺度采样方法。使得尺度越小,出现的概率越大。优选的,最小尺度出现的概率是最大尺度的a倍,即,概率密度函数的分布曲线类似如如图所示。
概率密度函数曲线的数学公式如下:
f(x)=λa-x,其中x∈[0,1];
其概率累计函数在0和1处分别取0和1,于是有:
F(x)的函数为:
采用逆变换采样原理即可将人脸的尺度采样到目标分布上。本实施例中中取a=4,脸的目标尺寸范围为(10,256),因此本实施例的尺度采样公式为:
y=(256-10)F-1(r)+10;其中r为[0,1]之间的均匀分布。
本实施例的高效的基础网络架构具有速度快,内存占用小同时性能优越的优势。实验表明,使用本发明的技术可以在中低端手机实现实时性的效果。通过本实施例的有偏的人脸尺度采样方案,使得训练过程中人脸的尺度和锚点的密度相匹配,能够有效提升人脸检测装置的性能,特别是对小人脸的性能。
本实施例的人脸模型训练方法的其余过程
实施例三(人脸检测方法):
本实施例还提供一种人脸检测方法,其包括以下步骤:
通过主干网络对待检测图像提取图片特征;
通过深度分离卷积进行下采样;其中,所述下采样是利用逆变换采样原理,对平均分布进行扩展得到目标分布,并将所述人脸图像采样到所述目标分布上;所述深度分离卷积包括第一深度分离卷积、第二深度分离卷积、第三深度分离卷积;所述第一深度分离卷积用于预测每个人脸框包含人脸的置信度;所述第二深度分离卷积用于预测锚点框;所述第三深度分离卷积用于预测人脸关键点;
利用主干网络和下采样所得特征图构建特征金字塔结构;
在特征金字塔结构中的特征图和下采样所得的尺度不同的特征图上生成对应的锚点框;
对于预测的锚点框对应的置信度,选取大于指定阈值的锚点框作为预测候选框;根据所述预测候选框的重叠度,执行非极大值抑制(NMS)算法,过滤重叠的候选框,得到模型最终的预测框。
本实施例的其余模型结构和算法与第一实施例和第二实施例基本相似,在此不进行赘述。
实施例四(人脸检测装置):
另外,本发明还提供一种人脸检测装置,所述人脸检测装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人脸检测程序,所述人脸检测程序被所述处理器执行时实现如上任一项所述的人脸检测方法的步骤,其实现原理和技术效果类似,详细可以参见上述人脸定位方法、人脸模型训练方法、人脸检测方法等实施例中的相关记载,此处不再赘述。
所述人脸检测装置包括:手机、数码相机或平板电脑等具有拍照功能的人脸检测装置,或者具有图像处理功能的人脸检测装置,或者具有图像显示功能的人脸检测装置。所述人脸检测装置可包括存储器、处理器、输入单元、显示单元、电源等部件。
其中,存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(例如图像播放功能等)等;存储数据区可存储根据人脸检测装置的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器和输入单元对存储器的访问。
本实施例的输入单元除了包括摄像头,还可包括可用于接收输入的数字或字符或图像信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入等其他输入设备。
显示单元可用于显示由用户输入的信息或提供给用户的信息以及人脸检测装置的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元可包括显示面板,可选的,可以采用 LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器以确定触摸事件的类型,随后处理器根据触摸事件的类型在显示面板上提供相应的视觉输出。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (10)
1.一种人脸定位方法,其特征在于,包括以下步骤:
对图像或视频进行人脸检测,得到人脸区域;
对所述人脸区域添加人脸框,且所述人脸框带有旋转信息;
根据所述旋转信息进行人脸定位。
2.根据权利要求1所述的一种人脸定位方法,其特征在于:所述旋转信息的编码方式为[cx,cy,w,h,θ]五元素的向量;其中,cx、cy表示框的中心点,w、h表示框的宽和高,θ表示框的角度。
3.根据权利要求1所述的一种人脸定位方法,其特征在于:根据所述旋转信息进行人脸定位,是通过对所述人脸区域标注锚点框,计算所述人脸框与所述锚点框之间的重叠率,并根据所述所述重叠率计算所述锚点框的置信度。
4.根据权利要求3所述的一种人脸定位方法,其特征在于:所述锚点框的标注,是通过卷积神经网络模型对人脸图像进行训练和预测得到的;并根据预测结果和所述置信度,得到最终人脸定位结果。
6.根据权利要求3所述的一种人脸定位方法,其特征在于:根据所述重叠率计算所述锚点框的置信度,进一步包括以下步骤:
计算人脸框列表Rg与锚点框列表Ra两两之间的重叠度矩阵IoU[i,j],其中,IoU[i,j]为第i个人脸框与第j个锚点框之间的重叠度;
对所述重叠度矩阵IoU[i,j]中的每个列取重叠度的最大值IoUbest-gt和人脸框的最大值Indexbest-gt对应序号,即,IoUbest-gt,Indexbest-gt=IoU.max(dim=1);
对所述重叠度矩阵IoU[i,j]中的每行取锚点框的最大值IoUbest-anchor对应序号,得每个人脸的最大的重叠度IoUbest-anchor=IoU.max(dim=0);
通过花式索引获得每个锚点框列表Ra匹配的人脸的最大重叠度IoUmax=IoU_(best-anchor)[Indexbest-gt];
对所述重叠度进行阈值处理:
重叠度IoUbest-gt小于阈值t的置零,即:IoUbest-gt[IoUbest-gt<t]=0;
最大重叠度IoUmax小于阈值tmax的置1,即:IoUmax[IoUmax<tmax]=1;
7.根据权利要求6所述的一种人脸定位方法,其特征在于:进一步根据变换后的置信度ScoreRa筛选回归样本,将置信度ScoreRa大于阈值treg的锚点框进行回归目标框,得到最终人脸定位结果。
8.一种人脸模型训练方法,其特征在于,包括以下步骤:
通过主干网络对训练集的人脸图像提取图片特征;并对所述人脸图像添加人脸框,且所述人脸框带有旋转信息;
通过深度分离卷积进行下采样;其中,所述下采样是利用逆变换采样原理,对平均分布进行扩展得到目标分布,并将所述人脸图像采样到所述目标分布上;所述深度分离卷积包括第一深度分离卷积、第二深度分离卷积、第三深度分离卷积;所述第一深度分离卷积用于预测每个人脸框包含人脸的置信度;所述第二深度分离卷积用于预测锚点框;所述第三深度分离卷积用于预测人脸关键点;
利用主干网络和下采样所得特征图构建特征金字塔结构;
在特征金字塔结构中的特征图和下采样所得的尺度不同的特征图上生成对应的锚点框;
根据锚点框与所述人脸框的重叠度是否超过预设阈值确定正负样本,对锚点框、人脸关键点进行回归训练,得到模型预测的目标框;并根据正样本锚点框与所述人脸框的重叠度进行人脸置信度的回归训练。
9.一种人脸检测方法,其特征在于,包括以下步骤:
通过主干网络对待检测图像提取图片特征;
通过深度分离卷积进行下采样;其中,所述下采样是利用逆变换采样原理,对平均分布进行扩展得到目标分布,并将所述人脸图像采样到所述目标分布上;所述深度分离卷积包括第一深度分离卷积、第二深度分离卷积、第三深度分离卷积;所述第一深度分离卷积用于预测每个人脸框包含人脸的置信度;所述第二深度分离卷积用于预测锚点框;所述第三深度分离卷积用于预测人脸关键点;
利用主干网络和下采样所得特征图构建特征金字塔结构;
在特征金字塔结构中的特征图和下采样所得的尺度不同的特征图上生成对应的锚点框;
对于预测的锚点框对应的置信度,选取大于指定阈值的锚点框作为预测候选框;根据所述预测候选框的重叠度,执行非极大值抑制算法,过滤重叠的候选框,得到模型最终的预测框。
10.一种人脸检测装置,其特征在于,所述人脸检测装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人脸检测程序,所述人脸检测程序被所述处理器执行时实现如权利要求1至7任一项所述的人脸检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011340854.6A CN112580435A (zh) | 2020-11-25 | 2020-11-25 | 人脸定位方法、人脸模型训练与检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011340854.6A CN112580435A (zh) | 2020-11-25 | 2020-11-25 | 人脸定位方法、人脸模型训练与检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112580435A true CN112580435A (zh) | 2021-03-30 |
Family
ID=75124232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011340854.6A Pending CN112580435A (zh) | 2020-11-25 | 2020-11-25 | 人脸定位方法、人脸模型训练与检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580435A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705461A (zh) * | 2021-08-30 | 2021-11-26 | 平安银行股份有限公司 | 人脸清晰度检测方法、装置、设备及存储介质 |
CN116386100A (zh) * | 2022-12-30 | 2023-07-04 | 深圳市宗匠科技有限公司 | 人脸图像采集方法及皮肤检测方法、装置、设备和介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080104102A1 (en) * | 2006-10-27 | 2008-05-01 | Bin Zhang | Providing a partially sorted index |
CN108764164A (zh) * | 2018-05-30 | 2018-11-06 | 华中科技大学 | 一种基于可变形卷积网络的人脸检测方法及系统 |
CN109886341A (zh) * | 2019-02-25 | 2019-06-14 | 厦门美图之家科技有限公司 | 一种训练生成人脸检测模型的方法 |
US20190385026A1 (en) * | 2018-06-13 | 2019-12-19 | Octi | Systems and methods for instance segmentation |
CN110674674A (zh) * | 2019-08-01 | 2020-01-10 | 杭州电子科技大学 | 一种基于yolo v3的旋转目标检测方法 |
CN111178217A (zh) * | 2019-12-23 | 2020-05-19 | 上海眼控科技股份有限公司 | 人脸图像的检测方法及设备 |
CN111260630A (zh) * | 2020-01-16 | 2020-06-09 | 高新兴科技集团股份有限公司 | 一种改进的轻量化的小目标检测方法 |
WO2020140772A1 (zh) * | 2019-01-02 | 2020-07-09 | 腾讯科技(深圳)有限公司 | 一种人脸检测方法、装置、设备以及存储介质 |
CN111524095A (zh) * | 2020-03-24 | 2020-08-11 | 西安交通大学 | 一种用于旋转物体的目标检测方法 |
-
2020
- 2020-11-25 CN CN202011340854.6A patent/CN112580435A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080104102A1 (en) * | 2006-10-27 | 2008-05-01 | Bin Zhang | Providing a partially sorted index |
CN108764164A (zh) * | 2018-05-30 | 2018-11-06 | 华中科技大学 | 一种基于可变形卷积网络的人脸检测方法及系统 |
US20190385026A1 (en) * | 2018-06-13 | 2019-12-19 | Octi | Systems and methods for instance segmentation |
WO2020140772A1 (zh) * | 2019-01-02 | 2020-07-09 | 腾讯科技(深圳)有限公司 | 一种人脸检测方法、装置、设备以及存储介质 |
CN109886341A (zh) * | 2019-02-25 | 2019-06-14 | 厦门美图之家科技有限公司 | 一种训练生成人脸检测模型的方法 |
CN110674674A (zh) * | 2019-08-01 | 2020-01-10 | 杭州电子科技大学 | 一种基于yolo v3的旋转目标检测方法 |
CN111178217A (zh) * | 2019-12-23 | 2020-05-19 | 上海眼控科技股份有限公司 | 人脸图像的检测方法及设备 |
CN111260630A (zh) * | 2020-01-16 | 2020-06-09 | 高新兴科技集团股份有限公司 | 一种改进的轻量化的小目标检测方法 |
CN111524095A (zh) * | 2020-03-24 | 2020-08-11 | 西安交通大学 | 一种用于旋转物体的目标检测方法 |
Non-Patent Citations (4)
Title |
---|
DIANZHUAN JIANG等: "Detecting dense text in natural images", 《IET COMPUTER VISION》, vol. 14, no. 8, 23 November 2020 (2020-11-23), pages 597 - 604, XP006094070, DOI: 10.1049/iet-cvi.2019.0916 * |
JIANQI MA等: "Arbitrary-Oriented Scene Text Detection via Rotation Proposals", 《IEEE TRANSACTIONS ON MULTIMEDIA》, vol. 20, no. 11, 23 March 2018 (2018-03-23), pages 3111 - 3122, XP011691800, DOI: 10.1109/TMM.2018.2818020 * |
ZHUO HAN等: "An improved YOLOv2 model with depth-wise separable convolutional layers for object detection", 《TENTH INTERNATIONAL CONFERENCE ON GRAPHICS AND IMAGE PROCESSING (ICGIP2018)》, 6 May 2019 (2019-05-06), pages 1 - 8, XP060118073, DOI: 10.1117/12.2524181 * |
张立亮等: "旋转人脸检测算法", 《计算机应用与软件》, vol. 36, no. 12, 12 December 2019 (2019-12-12), pages 137 - 142 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705461A (zh) * | 2021-08-30 | 2021-11-26 | 平安银行股份有限公司 | 人脸清晰度检测方法、装置、设备及存储介质 |
CN116386100A (zh) * | 2022-12-30 | 2023-07-04 | 深圳市宗匠科技有限公司 | 人脸图像采集方法及皮肤检测方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918969B (zh) | 人脸检测方法及装置、计算机装置和计算机可读存储介质 | |
CN109977943B (zh) | 一种基于yolo的图像目标识别方法、系统和存储介质 | |
CN107808143B (zh) | 基于计算机视觉的动态手势识别方法 | |
US11361459B2 (en) | Method, device and non-transitory computer storage medium for processing image | |
US9836640B2 (en) | Face detector training method, face detection method, and apparatuses | |
CN110807385A (zh) | 目标检测方法、装置、电子设备及存储介质 | |
WO2014001610A1 (en) | Method, apparatus and computer program product for human-face features extraction | |
WO2023082784A1 (zh) | 一种基于局部特征注意力的行人重识别方法和装置 | |
CN113591968A (zh) | 一种基于非对称注意力特征融合的红外弱小目标检测方法 | |
CN111178394B (zh) | 一种基于自适应图像信息熵的特征点提取方法 | |
JP2007065844A (ja) | 顔検出方法および装置並びにプログラム | |
CN105005798B (zh) | 一种基于局部相似结构统计匹配的目标识别方法 | |
CN109299305A (zh) | 一种基于多特征融合的空间图像检索系统及检索方法 | |
CN112580435A (zh) | 人脸定位方法、人脸模型训练与检测方法及装置 | |
CN109902576B (zh) | 一种头肩图像分类器的训练方法及应用 | |
CN106407978B (zh) | 一种结合似物度的无约束视频中显著物体检测方法 | |
CN111383244A (zh) | 一种目标检测跟踪方法 | |
CN112287802A (zh) | 人脸图像检测方法、系统、存储介质及设备 | |
CN114049515A (zh) | 图像分类方法、系统、电子设备和存储介质 | |
Hu et al. | RGB-D image multi-target detection method based on 3D DSF R-CNN | |
Pettersson et al. | The histogram feature-a resource-efficient weak classifier | |
Rio-Alvarez et al. | Effects of challenging weather and illumination on learning-based license plate detection in noncontrolled environments | |
CN114387346A (zh) | 一种图像识别、预测模型处理方法、三维建模方法和装置 | |
CN112734747A (zh) | 一种目标检测方法、装置、电子设备和存储介质 | |
CN115512207A (zh) | 一种基于多路特征融合及高阶损失感知采样的单阶段目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |