CN111126358A - 人脸检测方法、装置、存储介质及设备 - Google Patents
人脸检测方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN111126358A CN111126358A CN202010117409.7A CN202010117409A CN111126358A CN 111126358 A CN111126358 A CN 111126358A CN 202010117409 A CN202010117409 A CN 202010117409A CN 111126358 A CN111126358 A CN 111126358A
- Authority
- CN
- China
- Prior art keywords
- convolution
- subunit
- pooling layer
- face detection
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 220
- 238000011176 pooling Methods 0.000 claims description 92
- 230000006870 function Effects 0.000 claims description 59
- 238000000034 method Methods 0.000 claims description 21
- 210000000697 sensory organ Anatomy 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 230000004913 activation Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本公开提供一种人脸检测方法、装置、存储介质及设备,其中,人脸检测方法包括:通过预先训练好的检测网络模型获取待检测图像;通过所述检测网络模型中的人脸检测子网络对所述待检测图像进行人脸检测,以从所述待检测图像中提取不同尺寸的第一特征图,根据所述第一特征图确定并输出人脸检测结果,其中,所述人脸检测结果包括人脸在所述待检测图像中的位置信息;通过所述检测网络模型中的关键点检测子网络从所述人脸检测子网络中获取从不同尺寸的第一特征图中选择的至少两个第一特征图,对所述第二特征图进行关键点检测,以从该至少两个第一特征图中提取不同尺寸的第二特征图,根据所述第二特征图确定并输出关键点检测结果。
Description
技术领域
本公开涉及人脸检测技术领域,尤其涉及一种人脸检测方法、装置、存储介质及设备。
背景技术
深度学习是近十年来人工智能领域取得的最重要的突破之一。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域都取得了巨大成功。人脸相关的图像处理技术是计算机视觉任务中一个非常重要的研究方向。人脸处理技术在身份验证、人机交互接口、智能视觉监控等领域有着广泛的应用。人脸的处理和分析包括人脸检测、人脸跟踪以及人脸属性识别等,其中,人脸检测是所有人脸信息处理中关键的第一步。基于深度学习的目标检测流程变得越来越精简,精度越来越高,速度也越来越快。经过优化的检测网络在人脸检测中也获得显著成果,由于人脸技术一般应用在终端,因此人脸检测对模型大小要求较高。人脸关键点的检测用于人脸对齐,有助于人脸识别和人脸属性识别。通常这两个功能是由两个网络模型完成的。目前,一般的方式是检测到人脸后再对人脸进行关键点检测,到设计出MTCNN(Multi-Task Convolutional Neural Network,多任务卷积神经网络)时,把人脸检测和关键点检测融合到一起,但是该方式需要独立训练三个分离网络。
发明内容
有鉴于此,本公开的目的在于提出一种人脸检测方法、装置、存储介质及设备。
根据本公开的第一个方面,提供了一种人脸检测方法,包括:通过预先训练好的检测网络模型获取待检测图像;通过所述检测网络模型中的人脸检测子网络对所述待检测图像进行人脸检测,以从所述待检测图像中提取不同尺寸的第一特征图,根据所述第一特征图确定并输出人脸检测结果,其中,所述人脸检测结果包括人脸在所述待检测图像中的位置信息;通过所述检测网络模型中的关键点检测子网络从所述人脸检测子网络中获取从不同尺寸的第一特征图中选择的至少两个第一特征图,对所述第二特征图进行关键点检测,以从该至少两个第一特征图中提取不同尺寸的第二特征图,根据所述第二特征图确定并输出关键点检测结果,其中,所述关键点检测结果包括人脸中的关键点在所述待检测图像中的位置信息。
可选的,所述人脸检测子网络包括第一卷积单元,所述关键点检测子网络包括第二卷积单元,所述第一卷积单元的输出端与所述第二卷积单元的输入端相连,所述第一卷积单元以及所述第二卷积单元在对特征图进行卷积操作时将一个卷积分解为一个深度卷积和一个点卷积。
可选的,所述第一卷积单元包括:依次相连的第一卷积子单元、第一池化层、第二卷积子单元、第二池化层、第三卷积子单元、第三池化层、第四卷积子单元、第四池化层、第五卷积子单元、第五池化层、第六卷积子单元;所述第二卷积单元包括:第七卷积子单元、第八卷积子单元以及第九卷积子单元、第六池化层、第七池化层、第八池化层以及第九池化层,其中,所述第六池化层的输入端与所述第六卷积子单元相连,所述第七卷积子单元的输入端与所述第五卷积子单元的输出端相连,所述第七卷积子单元的输出端与所述第七池化层相连,所述第八卷积子单元的输入端与所述第四卷积子单元的输出端相连,所述第八卷积子单元的输出端与所述第八池化层相连,所述第九卷积子单元的输入端与所述第三卷积子单元的输出端相连,所述第九卷积子单元的输出端与所述第九池化层相连。
可选的,所述方法还包括:根据图像样本以及所述人脸检测子网络基于所述图像样本确定出的人脸检测结果,确定所述人脸检测子网络产生的第一损失项;根据所述第一损失项,得到第一损失函数;根据所述图像样本以及所述关键点检测子网络基于所述图像样本确定出的关键点检测结果,确定所述关键点检测子网络产生的第二损失项;根据所述第二损失项,得到第二损失函数;根据预设的函数权重,对所述第一损失函数以及所述第二损失函数进行加权求和,获得第三损失函数;根据所述第三损失函数调整所述检测网络模型的参数的取值。
可选的,所述关键点包括:人体五官所处的位置。
根据本公开的第二个方面,提供了一种人脸检测装置,包括:获取模块,用于通过预先训练好的检测网络模型获取待检测图像;第一确定模块,用于通过所述检测网络模型中的人脸检测子网络对所述待检测图像进行人脸检测,以从所述待检测图像中提取不同尺寸的第一特征图,根据所述第一特征图确定并输出人脸检测结果,其中,所述人脸检测结果包括人脸在所述待检测图像中的位置信息;第二确定模块,用于通过所述检测网络模型中的关键点检测子网络从所述人脸检测子网络中获取从不同尺寸的第一特征图中选择的至少两个第一特征图,对所述第二特征图进行关键点检测,以从该至少两个第一特征图中提取不同尺寸的第二特征图,根据所述第二特征图确定并输出关键点检测结果,其中,所述关键点检测结果包括人脸中的关键点在所述待检测图像中的位置信息。
可选的,所述人脸检测子网络包括第一卷积单元,所述关键点检测子网络包括第二卷积单元,所述第一卷积单元的输出端与所述第二卷积单元的输入端相连,所述第一卷积单元以及所述第二卷积单元在对特征图进行卷积操作时将一个卷积分解为一个深度卷积和一个点卷积。
可选的,所述第一卷积单元包括:依次相连的第一卷积子单元、第一池化层、第二卷积子单元、第二池化层、第三卷积子单元、第三池化层、第四卷积子单元、第四池化层、第五卷积子单元、第五池化层、第六卷积子单元;所述第二卷积单元包括:第七卷积子单元、第八卷积子单元以及第九卷积子单元、第六池化层、第七池化层、第八池化层以及第九池化层,其中,所述第六池化层的输入端与所述第六卷积子单元相连,所述第七卷积子单元的输入端与所述第五卷积子单元的输出端相连,所述第七卷积子单元的输出端与所述第七池化层相连,所述第八卷积子单元的输入端与所述第四卷积子单元的输出端相连,所述第八卷积子单元的输出端与所述第八池化层相连,所述第九卷积子单元的输入端与所述第三卷积子单元的输出端相连,所述第九卷积子单元的输出端与所述第九池化层相连。
根据本公开的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本公开第一个方面所述的任意一种人脸检测方法。
根据本公开的第四个方面,一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行本公开第一个方面所述的任意一种人脸检测方法。
从上面所述可以看出,本公开的一个或多个实施例的人脸检测方法,通过预先训练好的检测网络模型中的人脸检测子网络提取待检测图像的不同尺寸的多个第一特征图,基于该多个第一特征图得到人脸检测结果,再通过检测网络模型的关键点检测子网络基于至少两个第一特征图提取第二特征图,基于该第二特征图得到关键点检测结果,实现了仅训练一个检测网络模型即可对待检测图像进行人脸检测以及关键点检测,简化了检测网络模型的训练过程,且使得检测网络模型较小,便于将检测网络模型应用于移动终端上。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本公开一示例性实施例示出的一种人脸检测方法的流程图;
图2是根据本公开一示例性实施例示出的检测网络模型的示意图;
图3是根据本公开一示例性实施例示出的基于特征图生成候选框的示意图;
图4是根据本公开一示例性实施例示出的一种人脸检测装置的框图;
图5是根据本公开一示例性实施例示出的一种电子设备的示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
图1是根据本公开一示例性实施例示出的一种人脸检测方法的流程图,该方法包括:
步骤101:通过预先训练好的检测网络模型获取待检测图像;
可选地,预先训练好的检测网络模型可包括用于对待检测图像进行人脸检测的人脸检测子网络,以及用于对从图像中检测到的人脸进行关键点检测的关键点检测子网络。
在上述步骤101中,可将待检测图像输入预先训练好的检测网络模型,以使该检测网络模型获取待检测图像。
步骤102:通过所述检测网络模型中的人脸检测子网络对所述待检测图像进行人脸检测,以从所述待检测图像中提取不同尺寸的第一特征图,根据所述第一特征图确定并输出人脸检测结果,其中,所述人脸检测结果包括人脸在所述待检测图像中的位置信息;
可选的,人脸检测结果可包括用于标识人脸在图像中的位置的边界框,以及该边界框内的图像内容被分类为人脸的类别置信度,该类别置信度例如可以以百分比的形式表示。
可选的,人脸检测子网络可包括多个卷积层,该多个卷积层可用于提取待检测图像的不同尺寸的第一特征图,以及基于该第一特征图获得人脸检测结果。
步骤103:通过所述检测网络模型中的关键点检测子网络从所述人脸检测子网络中获取从不同尺寸的第一特征图中选择的至少两个第一特征图,对所述第二特征图进行关键点检测,以从该至少两个第一特征图中提取不同尺寸的第二特征图,根据所述第二特征图确定并输出关键点检测结果,其中,所述关键点检测结果包括人脸中的关键点在所述待检测图像中的位置信息。
可选的,关键点检测子网络可包括多个卷积层,该多个卷积层可用于从人脸检测子网络的卷积层提取出的第一特征图中提取出不同尺寸的第二特征图,以及根据该第二特征图获取关键点检测结果。
本公开的一个或多个实施例的人脸检测方法,通过预先训练好的检测网络模型中的人脸检测子网络提取待检测图像的不同尺寸的多个第一特征图,基于该多个第一特征图得到人脸检测结果,再通过检测网络模型的关键点检测子网络基于至少两个第一特征图提取第二特征图,基于该第二特征图得到关键点检测结果,实现了仅训练一个检测网络模型即可对待检测图像进行人脸检测以及关键点检测,简化了检测网络模型的训练过程,且使得检测网络模型较小,便于将检测网络模型应用于移动终端上。
在本公开的一个或多个实施例中,所述人脸检测子网络可包括第一卷积单元,该第一卷积单元例如可包括多个依次相连的卷积层,所述关键点检测子网络包括第二卷积单元,该第二卷积单元例如可包括多个卷积层,所述第一卷积单元的输出端与所述第二卷积单元的输入端相连,所述第一卷积单元以及所述第二卷积单元在对特征图进行卷积操作时将一个卷积分解为一个深度卷积和一个点卷积,其中,所述深度卷积将每个卷积核应用到每一个通道,所述点卷积将不同通道的信息进行组合。其中,上述人脸检测子网络以及关键点检测子网络可使用轻量级MobileNets来实现,例如,MobileNets-v1,MobileNets-v1是一种轻量级的深层神经网络,该网络可在保证检测精度的同时实现模型的压缩。该网络是基于一个流线型的架构,它使用深度可分离的卷积来构建轻量级的深层神经网络。该网络可将一个标准的卷积分解为一个深度卷积(depthwise convolutions)和一个点卷积(pointwise convolution)。例如,利用该网络对上述第二特征图进行处理时,深度卷积用于对每个通道的特征图进行过滤(filter)操作,点卷积利用1*1卷积核将不同通道的信息进行整合,调整输出的维度。由于打破了输出通道的数量和内核尺寸(kernel size)的联系而降低了计算复杂度,对于一个大小为3*3的卷积核,计算量降低了约7~9倍,可见该网络使得计算量和参数量大幅降低。且在将人脸检测和关键点检测放入一个检测网络模型中实现的基础上,使用轻量级的MobileNets卷积方式进行卷积操作,可在保持检测准确度的同时实现快速检测,提高检测效率。
在本公开的一个或多个实施例中,依次相连的第一卷积子单元、第一池化层、第二卷积子单元、第二池化层、第三卷积子单元、第三池化层、第四卷积子单元、第四池化层、第五卷积子单元、第五池化层、第六卷积子单元;
所述第二卷积单元包括:第七卷积子单元、第八卷积子单元以及第九卷积子单元、第六池化层、第七池化层、第八池化层以及第九池化层,其中,所述第六池化层的输入端与所述第六卷积子单元相连,所述第七卷积子单元的输入端与所述第五卷积子单元的输出端相连,所述第七卷积子单元的输出端与所述第七池化层相连,所述第八卷积子单元的输入端与所述第四卷积子单元的输出端相连,所述第八卷积子单元的输出端与所述第八池化层相连,所述第九卷积子单元的输入端与所述第三卷积子单元的输出端相连,所述第九卷积子单元的输出端与所述第九池化层相连。
以下以图2所示的检测网络模型为例,对本公开一个或多个实施例中的检测网络模型的结构进行说明。该检测网络模型的主网络结构可以采用简化后的VGG(VisualGeometry Group,视觉几何组)网络。首先,结合图2对检测网络模型中的人脸检测子网络进行说明。其中,检测网络模型中的第一卷积子单元至第九卷积子单元分别对应图2中所示的Conv1至Conv9。其中,Conv1模块可包括conv1_1以及conv_2,conv1_1包括16个stride(步长)为2,padding(填充)为1的3*3卷积以及relu激活函数);conv1_2包括16个的1*1卷积以及relu激活函数);Conv1后可接MaxPooling(最大池化)层,该MaxPooling层为上述第一池化层的一个示例,其核的大小可为2*2,再接Conv2模块,Conv2模块可包括conv2_1以及conv2_2,其中,conv2_1可包括16个padding为1的3*3卷积以及relu激活函数,conv2_2可包括16个1*1卷积以及relu激活函数,Conv2后可接MaxPooling层,该MaxPooling层为上述第二池化层的一个示例,其核的大小可为2*2,再接Conv3模块;Conv3模块可包括conv3_1、conv3_2以及conv3_3,其中,conv3_1可包括32个padding为1的3*3卷积以及relu激活函数、conv3_2可包括32个1*1卷积以及relu激活函数、conv3_3可包括32个padding为1的3*3卷积以及relu激活函数,Conv3后可接MaxPooling层,该MaxPooling层可为上述第三池化层的一个示例,其核的大小可为2*2,再接Conv4模块;Conv4模块可包括conv4_1、conv4_2以及conv4_3,其中,conv4_1可包括64个padding为1的3*3卷积以及relu激活函数、conv4_2可包括64个1*1卷积以及relu激活函数、conv4_3可包括64个padding为1的3*3卷积以及relu激活函数,后面接MaxPooling层,该MaxPooling层为上述第四池化层的一个示例,其核的大小为2*2,再接Conv5模块;Conv5模块可包括conv5_1、conv5_2以及conv5_3,其中,conv5_1可包括128个padding为1的3*3卷积以及relu激活函数、conv5_2可包括128个1*1卷积以及relu激活函数、conv5_3可包括128个padding为1的3*3卷积以及relu激活函数,后面接MaxPooling层,该MaxPooling层为上述第五池化层的一个示例,其核的大小可为2*2,再接Conv6模块;Conv6模块可包括conv6_1、conv6_2以及conv6_3,其中,conv6_1可包括128个padding为1的3*3卷积以及relu激活函数、conv6_2可包括128个1*1卷积以及relu激活函数、conv6_3可包括128个padding为1的3*3卷积以及relu激活函数。
上述人脸检测子网络采用SSD的检测原理,分别利用conv3-3、conv4-3、conv5-3以及conv6-3这些大小不同的特征图,在这些特征图上同时进行是否人脸分类以及位置回归,每个特征图上生成的候选框(priorbox)的个数和候选框的尺度均符合人脸图像,例如conv4_3生成的候选框的个数为2,每个候选框对应的最小尺寸分别为32、48;因此conv4_3_norm_mbox_loc输出通道为8,conv4_3_norm_mbox_conf输出通道为4。
以下通过图3以conv4_3为例,对生成候选框的过程进行简要说明,如图3所示,conv4_3网络分了三条路径,如图3中所标示出的路径1、路径2以及路径3:
(1)、图3中所示的路径1,经过batch_norm(如图3中所示的conv4_3_norm,其中,batchnorm是深度网络中用到的加速神经网络训练,用于加速收敛速度及稳定性的算法)后,生成的特征图用于分类人脸和非人脸,其中,路径1中的Conv4_3_norm_mbox_conf表示输出通道;
(2)、经过batch_norm后,生成的特征图用于候选框的回归,即位置的回归,其中,路径2中Conv4_3_norm_mbox_loc表示输出通道;
(3)、生成候选框,即,图3中经过路径3输出的Conv4_3_norm_priorbox。
仍以图2所示的检测网络模型为例,对上述检测网络模型中的关键点检测子网络进行说明,例如,以输入320*320*3的待检测图像为例,上述人脸检测子网络的Conv6中的conv6_3输出的特征图的大小为5*5*128,其后连接一个核大小为5*5的average Pooling(平均池化层),该池化层为上述第六池化层的一个示例,输出维度为1*1*128,该池化层后连接一个全连接层,输出为10*1(对应5个关键点的坐标),产生的loss(损失函数)为loss_key_1;上述人脸检测子网络的Conv5中的conv5_3输出的特征图的大小为10*10*128,其后连接Conv7,Conv7包括128个3*3卷积、relu函数以及核大小为8*8的平均池化层,该池化层后连接一个全连接层,输出为10*1(对应5个关键点的坐标),产生loss为loss_key_2;上述人脸检测子网络的Conv4中的conv4_3输出的特征图的大小为20*20*64,其后连接Conv8,Conv8包括128个核大小为5*5的卷积、relu函数,核大小为2的最大池化层,核大小为1*1的128卷积,relu函数以及核大小为8*8的平均池化层,Conv8后连接一个全连接层,输出为10*1(对应5个关键点的坐标),产生loss为loss_key_3;上述人脸检测子网络的Conv3中的conv3_3输出大小为40*40*32,其后连接Conv9,Conv9包括64个5*5的卷积,relu函数,核大小为2的最大池化层,128个3*3的卷积,relu函数,核大小为2的最大池化层,核大小为1*1的128卷积,relu函数以及核大小8*8的平均池化层,后面连接一个全连接层,输出为10*1(对应5个关键点的坐标),产生loss为loss_key_4。
需要说明的是,在图2所示的检测网络模型中,第一池化层、第二池化层、第三池化层、第四池化层以及第五池化层可以被认为包含在Conv1至Conv5之中,故图2中暂未示出第一池化层至第五池化层。
在本公开的一个或多个实施例中,上述人脸检测方法还可包括:根据图像样本以及所述人脸检测子网络基于所述图像样本确定出的人脸检测结果,确定所述人脸检测子网络产生的第一损失项;根据所述第一损失项,得到第一损失函数,其中,该第一损失函数可使用SSD(Single Shot multibox Detection,单发多框检测器)网络中所使用的损失函数;根据所述图像样本以及所述关键点检测子网络基于所述图像样本确定出的关键点检测结果,确定所述关键点检测子网络产生的第二损失项;根据所述第二损失项,得到第二损失函数;根据预设的函数权重,对所述第一损失函数以及所述第二损失函数进行加权求和,获得第三损失函数;根据所述第三损失函数调整所述检测网络模型的参数的取值。例如,假设在对待检测图像进行检测时,上述人脸检测子网络所产生的损失函数为loss_det,仍沿用上述例子中所列举的上述关键点检测子网络的各卷积层产生的损失函数分别为loss_key_1、loss_key_2、loss_key_3以及loss_key_4,则在对上述检测网络模型进行训练或测试时,总loss(为上述第三损失函数的一个示例)为:
loss=loss_det+λ(loss_key_1+loss_key_2+loss_key_3+loss_key_4);
其中,λ为上述预设的函数权重的一个示例。
需要说明的是,在对上述检测网络模型进行测试时,人脸检测子网络获取人脸位置方式与SSD原理一致,关键点检测子网络可由conv6_3分支的结果获得。
在本公开的一个或多个实施例中,所述关键点可包括:人体五官所处的位置。例如,可包括人脸中的左右两个眼的位置、左右嘴角的位置以及鼻子的位置。
图4是根据本公开一示例性实施例示出的一种人脸检测装置的框图,如图4所示,该装置40包括:
获取模块41,用于通过预先训练好的检测网络模型获取待检测图像;
第一确定模块42,用于通过所述检测网络模型中的人脸检测子网络对所述待检测图像进行人脸检测,以从所述待检测图像中提取不同尺寸的第一特征图,根据所述第一特征图确定并输出人脸检测结果,其中,所述人脸检测结果包括人脸在所述待检测图像中的位置信息;
第二确定模块43,用于通过所述检测网络模型中的人脸检测子网络对所述待检测图像进行人脸检测,以从所述待检测图像中提取不同尺寸的第一特征图,根据所述第一特征图确定并输出人脸检测结果,其中,所述人脸检测结果包括人脸在所述待检测图像中的位置信息。
在本公开的一个或多个实施例中,所述人脸检测子网络包括第一卷积单元,所述关键点检测子网络包括第二卷积单元,所述第一卷积单元的输出端与所述第二卷积单元的输入端相连,所述第一卷积单元以及所述第二卷积单元在对特征图进行卷积操作时将一个卷积分解为一个深度卷积和一个点卷积。
在本公开的一个或多个实施例中,所述第一卷积单元包括:依次相连的第一卷积子单元、第一池化层、第二卷积子单元、第二池化层、第三卷积子单元、第三池化层、第四卷积子单元、第四池化层、第五卷积子单元、第五池化层、第六卷积子单元;
所述第二卷积单元包括:第七卷积子单元、第八卷积子单元以及第九卷积子单元、第六池化层、第七池化层、第八池化层以及第九池化层,其中,所述第六池化层的输入端与所述第六卷积子单元相连,所述第七卷积子单元的输入端与所述第五卷积子单元的输出端相连,所述第七卷积子单元的输出端与所述第七池化层相连,所述第八卷积子单元的输入端与所述第四卷积子单元的输出端相连,所述第八卷积子单元的输出端与所述第八池化层相连,所述第九卷积子单元的输入端与所述第三卷积子单元的输出端相连,所述第九卷积子单元的输出端与所述第九池化层相连。
在本公开的一个或多个实施例中,上述人脸检测装置还可包括:
第三确定模块,用于根据图像样本以及所述人脸检测子网络基于所述图像样本确定出的人脸检测结果,确定所述人脸检测子网络产生的第一损失项;根据所述第一损失项,得到第一损失函数;
第四确定模块,用于根据所述图像样本以及所述关键点检测子网络基于所述图像样本确定出的关键点检测结果,确定所述关键点检测子网络产生的第二损失项;根据所述第二损失项,得到第二损失函数;
计算模块,用于根据预设的函数权重,对所述第一损失函数以及所述第二损失函数进行加权求和,获得第三损失函数;
调整模块,用于根据所述第三损失函数调整所述检测网络模型的参数的取值。
在本公开的一个或多个实施例中,所述关键点可包括:人体五官所处的位置。
需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本公开的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本公开难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本公开难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本公开的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本公开的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种人脸检测方法,其特征在于,包括:
通过预先训练好的检测网络模型获取待检测图像;
通过所述检测网络模型中的人脸检测子网络对所述待检测图像进行人脸检测,以从所述待检测图像中提取不同尺寸的第一特征图,根据所述第一特征图确定并输出人脸检测结果,其中,所述人脸检测结果包括人脸在所述待检测图像中的位置信息;
通过所述检测网络模型中的关键点检测子网络从所述人脸检测子网络中获取从不同尺寸的第一特征图中选择的至少两个第一特征图,对所述第二特征图进行关键点检测,以从该至少两个第一特征图中提取不同尺寸的第二特征图,根据所述第二特征图确定并输出关键点检测结果,其中,所述关键点检测结果包括人脸中的关键点在所述待检测图像中的位置信息。
2.根据权利要求1所述的方法,其特征在于,所述人脸检测子网络包括第一卷积单元,所述关键点检测子网络包括第二卷积单元,所述第一卷积单元的输出端与所述第二卷积单元的输入端相连,所述第一卷积单元以及所述第二卷积单元在对特征图进行卷积操作时将一个卷积分解为一个深度卷积和一个点卷积。
3.根据权利要求2所述的方法,其特征在于,所述第一卷积单元包括:
依次相连的第一卷积子单元、第一池化层、第二卷积子单元、第二池化层、第三卷积子单元、第三池化层、第四卷积子单元、第四池化层、第五卷积子单元、第五池化层、第六卷积子单元;
所述第二卷积单元包括:第七卷积子单元、第八卷积子单元以及第九卷积子单元、第六池化层、第七池化层、第八池化层以及第九池化层,其中,所述第六池化层的输入端与所述第六卷积子单元相连,所述第七卷积子单元的输入端与所述第五卷积子单元的输出端相连,所述第七卷积子单元的输出端与所述第七池化层相连,所述第八卷积子单元的输入端与所述第四卷积子单元的输出端相连,所述第八卷积子单元的输出端与所述第八池化层相连,所述第九卷积子单元的输入端与所述第三卷积子单元的输出端相连,所述第九卷积子单元的输出端与所述第九池化层相连。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据图像样本以及所述人脸检测子网络基于所述图像样本确定出的人脸检测结果,确定所述人脸检测子网络产生的第一损失项;
根据所述第一损失项,得到第一损失函数;
根据所述图像样本以及所述关键点检测子网络基于所述图像样本确定出的关键点检测结果,确定所述关键点检测子网络产生的第二损失项;
根据所述第二损失项,得到第二损失函数;
根据预设的函数权重,对所述第一损失函数以及所述第二损失函数进行加权求和,获得第三损失函数;
根据所述第三损失函数调整所述检测网络模型的参数的取值。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述关键点包括:
人体五官所处的位置。
6.一种人脸检测装置,其特征在于,包括:
获取模块,用于通过预先训练好的检测网络模型获取待检测图像;
第一确定模块,用于通过所述检测网络模型中的人脸检测子网络对所述待检测图像进行人脸检测,以从所述待检测图像中提取不同尺寸的第一特征图,根据所述第一特征图确定并输出人脸检测结果,其中,所述人脸检测结果包括人脸在所述待检测图像中的位置信息;
第二确定模块,用于通过所述检测网络模型中的关键点检测子网络从所述人脸检测子网络中获取从不同尺寸的第一特征图中选择的至少两个第一特征图,对所述第二特征图进行关键点检测,以从该至少两个第一特征图中提取不同尺寸的第二特征图,根据所述第二特征图确定并输出关键点检测结果,其中,所述关键点检测结果包括人脸中的关键点在所述待检测图像中的位置信息。
7.根据权利要求6所述的装置,其特征在于,所述人脸检测子网络包括第一卷积单元,所述关键点检测子网络包括第二卷积单元,所述第一卷积单元的输出端与所述第二卷积单元的输入端相连,所述第一卷积单元以及所述第二卷积单元在对特征图进行卷积操作时将一个卷积分解为一个深度卷积和一个点卷积。
8.根据权利要求7所述的装置,其特征在于,所述第一卷积单元包括:
依次相连的第一卷积子单元、第一池化层、第二卷积子单元、第二池化层、第三卷积子单元、第三池化层、第四卷积子单元、第四池化层、第五卷积子单元、第五池化层、第六卷积子单元;
所述第二卷积单元包括:第七卷积子单元、第八卷积子单元以及第九卷积子单元、第六池化层、第七池化层、第八池化层以及第九池化层,其中,所述第六池化层的输入端与所述第六卷积子单元相连,所述第七卷积子单元的输入端与所述第五卷积子单元的输出端相连,所述第七卷积子单元的输出端与所述第七池化层相连,所述第八卷积子单元的输入端与所述第四卷积子单元的输出端相连,所述第八卷积子单元的输出端与所述第八池化层相连,所述第九卷积子单元的输入端与所述第三卷积子单元的输出端相连,所述第九卷积子单元的输出端与所述第九池化层相连。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述人脸检测方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1至5任一项所述的人脸检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010117409.7A CN111126358B (zh) | 2020-02-25 | 2020-02-25 | 人脸检测方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010117409.7A CN111126358B (zh) | 2020-02-25 | 2020-02-25 | 人脸检测方法、装置、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111126358A true CN111126358A (zh) | 2020-05-08 |
CN111126358B CN111126358B (zh) | 2024-08-23 |
Family
ID=70493252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010117409.7A Active CN111126358B (zh) | 2020-02-25 | 2020-02-25 | 人脸检测方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126358B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036339A (zh) * | 2020-09-03 | 2020-12-04 | 福建库克智能科技有限公司 | 人脸检测的方法、装置和电子设备 |
CN112183488A (zh) * | 2020-11-03 | 2021-01-05 | 平安科技(深圳)有限公司 | 人脸检测模型训练方法、设备及人脸检测方法 |
WO2022126464A1 (zh) * | 2020-12-17 | 2022-06-23 | 深圳市优必选科技股份有限公司 | 一种人脸识别方法、机器人及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100189361A1 (en) * | 2009-01-28 | 2010-07-29 | Seiko Epson Corporation | Image processing apparatus for detecting coordinate positions of characteristic portions of face |
CN110517278A (zh) * | 2019-08-07 | 2019-11-29 | 北京旷视科技有限公司 | 图像分割和图像分割网络的训练方法、装置和计算机设备 |
CN110619319A (zh) * | 2019-09-27 | 2019-12-27 | 北京紫睛科技有限公司 | 一种基于改进的mtcnn模型人脸检测方法和系统 |
-
2020
- 2020-02-25 CN CN202010117409.7A patent/CN111126358B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100189361A1 (en) * | 2009-01-28 | 2010-07-29 | Seiko Epson Corporation | Image processing apparatus for detecting coordinate positions of characteristic portions of face |
CN110517278A (zh) * | 2019-08-07 | 2019-11-29 | 北京旷视科技有限公司 | 图像分割和图像分割网络的训练方法、装置和计算机设备 |
CN110619319A (zh) * | 2019-09-27 | 2019-12-27 | 北京紫睛科技有限公司 | 一种基于改进的mtcnn模型人脸检测方法和系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036339A (zh) * | 2020-09-03 | 2020-12-04 | 福建库克智能科技有限公司 | 人脸检测的方法、装置和电子设备 |
CN112036339B (zh) * | 2020-09-03 | 2024-04-09 | 福建库克智能科技有限公司 | 人脸检测的方法、装置和电子设备 |
CN112183488A (zh) * | 2020-11-03 | 2021-01-05 | 平安科技(深圳)有限公司 | 人脸检测模型训练方法、设备及人脸检测方法 |
WO2022126464A1 (zh) * | 2020-12-17 | 2022-06-23 | 深圳市优必选科技股份有限公司 | 一种人脸识别方法、机器人及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111126358B (zh) | 2024-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109960742B (zh) | 局部信息的搜索方法及装置 | |
CN110659582A (zh) | 图像转换模型训练方法、异质人脸识别方法、装置及设备 | |
CN110069985B (zh) | 基于图像的目标点位置检测方法、装置、电子设备 | |
JP7425147B2 (ja) | 画像処理方法、テキスト認識方法及び装置 | |
CN111126358B (zh) | 人脸检测方法、装置、存储介质及设备 | |
CN111597884A (zh) | 面部动作单元识别方法、装置、电子设备及存储介质 | |
CN111914782A (zh) | 人脸及其特征点的检测方法、装置、电子设备和存储介质 | |
WO2017045404A1 (en) | Facial expression recognition using relations determined by class-to-class comparisons | |
CN111680678A (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
CN111108508A (zh) | 脸部情感识别方法、智能装置和计算机可读存储介质 | |
CN111310590B (zh) | 一种动作识别方法及电子设备 | |
CN113837257A (zh) | 一种目标检测方法及装置 | |
CN113569607A (zh) | 动作识别方法、装置、设备以及存储介质 | |
CN116152334A (zh) | 图像处理方法及相关设备 | |
CN117540007B (zh) | 基于相似模态补全的多模态情感分析方法、系统和设备 | |
CN113822871A (zh) | 基于动态检测头的目标检测方法、装置、存储介质及设备 | |
CN117953581A (zh) | 动作识别的方法、装置、电子设备及可读存储介质 | |
CN116912924B (zh) | 一种目标图像识别方法和装置 | |
CN113723352A (zh) | 一种文本检测方法、系统、存储介质及电子设备 | |
CN105512664A (zh) | 图像识别方法及装置 | |
CN116048682A (zh) | 一种终端系统界面布局对比方法及电子设备 | |
CN115205974A (zh) | 手势识别方法及相关设备 | |
CN114550282A (zh) | 多人三维姿态估计方法、装置及电子设备 | |
CN113191401A (zh) | 基于视觉显著性共享的用于三维模型识别的方法及装置 | |
CN113239915A (zh) | 一种课堂行为的识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |