CN117612231A - 人脸检测方法、装置、电子设备和存储介质 - Google Patents

人脸检测方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN117612231A
CN117612231A CN202311564413.8A CN202311564413A CN117612231A CN 117612231 A CN117612231 A CN 117612231A CN 202311564413 A CN202311564413 A CN 202311564413A CN 117612231 A CN117612231 A CN 117612231A
Authority
CN
China
Prior art keywords
layer
feature
feature map
face detection
inputting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311564413.8A
Other languages
English (en)
Other versions
CN117612231B (zh
Inventor
牛太阳
蔡永维
马金良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sinochem Agriculture Holdings
Original Assignee
Sinochem Agriculture Holdings
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sinochem Agriculture Holdings filed Critical Sinochem Agriculture Holdings
Priority to CN202311564413.8A priority Critical patent/CN117612231B/zh
Publication of CN117612231A publication Critical patent/CN117612231A/zh
Application granted granted Critical
Publication of CN117612231B publication Critical patent/CN117612231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种人脸检测方法、装置、电子设备和存储介质,涉及计算机视觉技术领域。方法包括:将人脸图像输入至第一特征提取层,得到第一特征提取层输出的第一特征图和第二特征图;将第二特征图输入至第二特征提取层,得到第二特征提取层输出的第三特征图;将第三特征图进行上采样得到与第一特征图相同尺度的第四特征图,将第四特征图与第一特征图进行特征融合,得到第五特征图;将第五特征图输入至第三特征提取层,得到第三特征提取层输出的第六特征图;将第三特征图和第六特征图输入至人脸检测层,得到人脸检测层输出的人脸检测结果。本发明可以降低人脸检测模型的模型算力要求,并提高人脸检测效率。

Description

人脸检测方法、装置、电子设备和存储介质
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种人脸检测方法、装置、电子设备和存储介质。
背景技术
随着计算机视觉技术的快速发展,人脸识别的应用范围越来越广。在现有的生物识别技术中,人脸识别是应用最为广泛的一种。随着深度卷积神经网络的快速发展,目前大多使用深度学习方法进行人脸识别;具体地,基于2D人脸图像进行端到端的深度人脸识别,该人脸识别以一般图像或视频帧为输入,并提取每个人脸的深度特征作为输出。其中,端到端的深度人脸识别包括人脸检测、人脸对齐和人脸表示;人脸检测是端到端的深度人脸识别的第一步,其旨在定位静止图像或视频帧中的人脸区域。
目前,通过特征金字塔提取人脸图像的多尺度特征图,进而基于多尺度特征图进行人脸检测。然而,由于多尺度特征图的特征图数量较多,导致基于多尺度特征图进行人脸检测的计算量较大,且得到多尺度特征图的计算量也较大,从而导致用于进行人脸检测的人脸检测模型的模型算力要求高,进而导致无法部署人脸检测模型到计算能力较低的智能设备,且计算量大会降低人脸检测效率。
发明内容
本发明提供一种人脸检测方法、装置、电子设备和存储介质,用以解决现有技术中人脸检测模型的模型算力要求高和人脸检测效率低的缺陷。
本发明提供一种人脸检测方法,包括:
将待检测的人脸图像输入至人脸检测模型中的第一特征提取层,得到所述第一特征提取层输出的第一特征图和第二特征图,所述第一特征图的尺度大于所述第二特征图的尺度;
将所述第二特征图输入至所述人脸检测模型中的第二特征提取层,得到所述第二特征提取层输出的第三特征图;
将所述第三特征图进行上采样得到与所述第一特征图相同尺度的第四特征图,将所述第四特征图与所述第一特征图进行特征融合,得到第五特征图;
将所述第五特征图输入至所述人脸检测模型中的第三特征提取层,得到所述第三特征提取层输出的第六特征图,所述第六特征图的尺度大于所述第三特征图的尺度;
将所述第三特征图和所述第六特征图输入至所述人脸检测模型中的人脸检测层,得到所述人脸检测层输出的人脸检测结果;
其中,所述第一特征提取层包括依次连接的M个特征提取层,M为大于2的正整数,所述第二特征图为所述M个特征提取层中连接在最后的第M个特征提取层输出的特征图,所述第一特征图为连接在倒数第二个的第M-1个特征提取层输出的特征图;
所述人脸检测模型是基于样本人脸图像和所述样本人脸图像对应的人脸检测结果标签训练得到的。
根据本发明提供的一种人脸检测方法,所述将待检测的人脸图像输入至人脸检测模型中的第一特征提取层,得到所述第一特征提取层输出的第一特征图和第二特征图,包括:
将所述人脸图像输入至所述第一特征提取层中的第四特征提取层,得到所述第四特征提取层输出的第七特征图;
将所述第七特征图输入至所述第一特征提取层中的第五特征提取层,得到所述第五特征提取层输出的第八特征图;
将所述第八特征图输入至所述第一特征提取层中的第六特征提取层,得到所述第六特征提取层输出的第一特征图;
将所述第一特征图输入至所述第一特征提取层中的第七特征提取层,得到所述第七特征提取层输出的第二特征图;
其中,所述第七特征图的尺度大于所述第八特征图的尺度,所述第八特征图的尺度大于所述第一特征图的尺度。
根据本发明提供的一种人脸检测方法,所述将所述第七特征图输入至所述第一特征提取层中的第五特征提取层,得到所述第五特征提取层输出的第八特征图,包括:
将所述第七特征图输入至所述第五特征提取层中的第八特征提取层,得到所述第八特征提取层输出的第一子特征图,并将所述第七特征图输入至所述第五特征提取层中的第九特征提取层,得到所述第九特征提取层输出的第二子特征图,并将所述第七特征图输入至所述第五特征提取层中的第十特征提取层,得到所述第十特征提取层输出的第三子特征图;
将所述第一子特征图、所述第二子特征图和所述第三子特征图输入至所述第五特征提取层中的第一特征融合层,得到所述第一特征融合层输出的第八特征图。
根据本发明提供的一种人脸检测方法,所述将所述第七特征图输入至所述第五特征提取层中的第八特征提取层,得到所述第八特征提取层输出的第一子特征图,包括:
将所述第七特征图输入至所述第八特征提取层中的第一空间注意力层,得到所述第一空间注意力层输出的第一子特征图;
所述将所述第七特征图输入至所述第五特征提取层中的第九特征提取层,得到所述第九特征提取层输出的第二子特征图,包括:
将所述第七特征图输入至所述第九特征提取层中的第二空间注意力层,得到所述第二空间注意力层输出的第四子特征图;
将所述第四子特征图输入至所述第九特征提取层中的第一卷积层,得到所述第一卷积层输出的第二子特征图,所述第一卷积层包括依次连接的卷积层和批量归一化BN层;
所述将所述第七特征图输入至所述第五特征提取层中的第十特征提取层,得到所述第十特征提取层输出的第三子特征图,包括:
将所述第七特征图输入至所述第十特征提取层中的第二卷积层,得到所述第二卷积层输出的第五子特征图,所述第二卷积层包括依次连接的卷积层、BN层和激活层;
将所述第五子特征图输入至所述第十特征提取层中的第三卷积层,得到所述第三卷积层输出的第六子特征图,所述第三卷积层包括依次连接的卷积层、BN层和激活层;
将所述第六子特征图输入至所述第十特征提取层中的第三空间注意力层,得到所述第三空间注意力层输出的第七子特征图;
将所述第七子特征图输入至所述第十特征提取层中的第四卷积层,得到所述第四卷积层输出的第三子特征图,所述第四卷积层包括依次连接的卷积层和BN层。
根据本发明提供的一种人脸检测方法,所述将所述第七特征图输入至所述第八特征提取层中的第一空间注意力层,得到所述第一空间注意力层输出的第一子特征图,包括:
将所述第七特征图输入至所述第一空间注意力层中的全局最大池化层,得到所述全局最大池化层输出的第八子特征图,并将所述第七特征图输入至所述第一空间注意力层中的全局平均池化层,得到所述全局平均池化层输出的第九子特征图;
将所述第八子特征图和所述第九子特征图进行通道拼接,得到第十子特征图;
将所述第十子特征图输入至所述第一空间注意力层中的第五卷积层,得到所述第五卷积层输出的第十一子特征图,以使所述第十一子特征图的通道数为1;
将所述第十一子特征图输入至所述第一空间注意力层中的第一激活层,得到所述第一激活层输出的第十二子特征图;
基于所述第七特征图与所述第十二子特征图的乘积,生成所述第一子特征图。
根据本发明提供的一种人脸检测方法,所述将所述第二特征图输入至所述人脸检测模型中的第二特征提取层,得到所述第二特征提取层输出的第三特征图,包括:
将所述第二特征图输入至所述第二特征提取层中的第十一特征提取层,得到所述第十一特征提取层输出的第十三子特征图,并将所述第二特征图输入至所述第二特征提取层中的第十二特征提取层,得到所述第十二特征提取层输出的第十四子特征图,并将所述第二特征图输入至所述第二特征提取层中的第十三特征提取层,得到所述第十三特征提取层输出的第十五子特征图;
将所述第十三子特征图、所述第十四子特征图和所述第十五子特征图输入至所述第二特征提取层中的第二特征融合层,得到所述第二特征融合层输出的第三特征图。
根据本发明提供的一种人脸检测方法,所述将所述第三特征图和所述第六特征图输入至所述人脸检测模型中的人脸检测层,得到所述人脸检测层输出的人脸检测结果,包括:
将所述第三特征图输入至所述人脸检测层中的第六卷积层,得到所述第六卷积层输出的第一目标特征图,并将所述第三特征图输入至所述人脸检测层中的第七卷积层,得到所述第七卷积层输出的第二目标特征图,并将所述第三特征图输入至所述人脸检测层中的第八卷积层,得到所述第八卷积层输出的第三目标特征图;
将所述第六特征图输入至所述人脸检测层中的第六卷积层,得到所述第六卷积层输出的第四目标特征图,并将所述第六特征图输入至所述人脸检测层中的第七卷积层,得到所述第七卷积层输出的第五目标特征图,并将所述第六特征图输入至所述人脸检测层中的第八卷积层,得到所述第八卷积层输出的第六目标特征图;
将所述第一目标特征图、所述第二目标特征图和所述第三目标特征图输入至所述人脸检测层中的第三特征融合层,得到所述第三特征融合层输出的第一融合特征图,并将所述第四目标特征图、所述第五目标特征图和所述第六目标特征图输入至所述人脸检测层中的第三特征融合层,得到所述第三特征融合层输出的第二融合特征图;
将所述第一融合特征图输入至所述人脸检测层中的第四空间注意力层,得到所述第四空间注意力层输出的第七目标特征图,并将所述第二融合特征图输入至所述人脸检测层中的第四空间注意力层,得到所述第四空间注意力层输出的第八目标特征图;
将所述第七目标特征图和所述第八目标特征图输入至所述人脸检测层中的检测层,得到所述检测层输出的人脸检测结果。
本发明还提供一种人脸检测装置,包括:
第一特征提取模块,用于将待检测的人脸图像输入至人脸检测模型中的第一特征提取层,得到所述第一特征提取层输出的第一特征图和第二特征图,所述第一特征图的尺度大于所述第二特征图的尺度;
第二特征提取模块,用于将所述第二特征图输入至所述人脸检测模型中的第二特征提取层,得到所述第二特征提取层输出的第三特征图;
特征融合模块,用于将所述第三特征图进行上采样得到与所述第一特征图相同尺度的第四特征图,将所述第四特征图与所述第一特征图进行特征融合,得到第五特征图;
第三特征提取模块,用于将所述第五特征图输入至所述人脸检测模型中的第三特征提取层,得到所述第三特征提取层输出的第六特征图,所述第六特征图的尺度大于所述第三特征图的尺度;
人脸检测模块,用于将所述第三特征图和所述第六特征图输入至所述人脸检测模型中的人脸检测层,得到所述人脸检测层输出的人脸检测结果;
其中,所述第一特征提取层包括依次连接的M个特征提取层,M为大于2的正整数,所述第二特征图为所述M个特征提取层中连接在最后的第M个特征提取层输出的特征图,所述第一特征图为连接在倒数第二个的第M-1个特征提取层输出的特征图;
所述人脸检测模型是基于样本人脸图像和所述样本人脸图像对应的人脸检测结果标签训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述人脸检测方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述人脸检测方法。
本发明提供的人脸检测方法、装置、电子设备和存储介质,将待检测的人脸图像输入至人脸检测模型中的第一特征提取层,得到该第一特征提取层输出的第一特征图和第二特征图,且第一特征图的尺度大于第二特征图的尺度,以使后续输入至人脸检测层的特征图的尺度不同;将第二特征图输入至人脸检测模型中的第二特征提取层,得到第二特征提取层输出的第三特征图,并将第三特征图进行上采样得到与第一特征图相同尺度的第四特征图,以便将第四特征图与第一特征图进行特征融合,得到第五特征图,将第五特征图输入至人脸检测模型中的第三特征提取层,得到第三特征提取层输出的第六特征图,且第六特征图的尺度大于第三特征图的尺度,以供将不同尺度的第三特征图和第六特征图输入至人脸检测模型中的人脸检测层,得到人脸检测层输出的人脸检测结果,从而基于多尺度的特征图提高人脸检测准确性;同时,第一特征提取层包括依次连接的M个特征提取层,且M为大于2的正整数,从而可以对人脸图像进行更深层次的特征提取,而不仅仅局限于两个层次,即可以充分利用人脸图像上下文信息,且第二特征图为M个特征提取层中连接在最后的第M个特征提取层输出的特征图,第一特征图为连接在倒数第二个的第M-1个特征提取层输出的特征图,从而本发明是基于最深层次的两层特征图进行人脸检测的,进而在确保人脸检测准确性的基础上,无需计算得到其他层次的特征图,即无需计算得到M个特征图,且后续输入至人脸检测层的特征图数量也减少了,进而减少人脸检测层的计算量,基于此,本发明可以降低人脸检测模型的模型算力要求,并提高人脸检测效率,以实现将人脸检测模型部署于计算能力较低的智能设备(如移动终端),即提高人脸检测模型的适用性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的人脸检测方法的流程示意图;
图2为本发明提供的人脸检测模型的结构示意图之一;
图3为本发明提供的人脸检测模型的结构示意图之二;
图4为本发明提供的人脸检测模型的结构示意图之三;
图5为本发明提供的人脸检测模型的结构示意图之四;
图6为本发明提供的人脸检测装置的结构示意图;
图7为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出以下各实施例。图1为本发明提供的人脸检测方法的流程示意图,如图1所示,该人脸检测方法包括:
步骤110,将待检测的人脸图像输入至人脸检测模型中的第一特征提取层,得到所述第一特征提取层输出的第一特征图和第二特征图,所述第一特征图的尺度大于所述第二特征图的尺度。
其中,所述第一特征提取层包括依次连接的M个特征提取层,M为大于2的正整数,所述第二特征图为所述M个特征提取层中连接在最后的第M个特征提取层输出的特征图,所述第一特征图为连接在倒数第二个的第M-1个特征提取层输出的特征图。
此处,待检测的人脸图像可以为实时采集的图像,也可以为视频的每一帧图像。例如,该人脸图像为移动终端(如手机)实时采集的图像。
此处,第一特征提取层用于对人脸图像进行自底向上的特征提取,以逐步提取不同尺度的特征图;即该第一特征提取层分成多个stage(阶段)进行特征提取,每个stage输出的特征图的尺度比上一个stage输出的特征图的尺度小。示例性的,将第一特征图输入至第一特征提取层中的最后一个特征提取层,得到该最后一个特征提取层输出的第二特征图。
需要说明的是,第一特征提取层包括依次连接的M个特征提取层,且M为大于2的正整数,从而在确保可以得到两个尺度的特征图(第一特征图和第二特征图)的前提下,可以对人脸图像进行更深层次的特征提取,进而提高大目标的检测能力,即提高正常人脸目标的检测能力,最终提高正常人脸目标的人脸检测准确性。
步骤120,将所述第二特征图输入至所述人脸检测模型中的第二特征提取层,得到所述第二特征提取层输出的第三特征图。
将第二特征图输入至第二特征提取层,以得到可以输入人脸检测层的第三特征图。
在一实施例中,将第二特征图输入至第二特征提取层中的卷积层,得到该卷积层输出的第三特征图。示例性的,该卷积层为1*1的卷积层。
在另一实施例中,将第二特征图输入至第二特征提取层中的空间注意力层,得到该空间注意力层输出的特征图;将空间注意力层输出的特征图输入至第二特征提取层中的卷积层,得到该卷积层输出的第三特征图。示例性的,该卷积层包括3*3的卷积层。进一步地,该卷积层包括依次连接的3*3卷积层和BN(Batch Normal,批量归一化)层。综上,考虑到了人脸检测中主要是针对人脸区域进行识别,而一张人脸图像中可能人脸所占比例不是很大,因此对于那些所要识别的人脸仅仅占图像的一小部分的任务而言,一般比较困难;基于此,通过上述的空间注意力层,能对输入图像的人脸空间信息自动定位,从而能够减少背景对于任务的干扰,从而提高人脸检测模型的识别精度及鲁棒性,即提高人脸检测准确性。
示例性的,将第二特征图输入至空间注意力层中的全局最大池化层,得到全局最大池化层输出的子特征图,并将第二特征图输入至空间注意力层中的全局平均池化层,得到全局平均池化层输出的子特征图;将两个子特征图进行通道拼接,得到第一目标子特征图;将第一目标子特征图输入至空间注意力层中的卷积层,得到该卷积层输出的第二目标子特征图,以使第二目标子特征图的通道数为1;将第二目标子特征图输入至空间注意力层中的激活层,得到该激活层输出的特征图,基于第二特征图与该激活层输出的特征图的乘积,生成特征图,以将该基于乘积确定的特征图输入至第二特征提取层中的卷积层。优选地,其中卷积层为7*7卷积层,经过大量的创造性劳动和试验可知,7*7卷积层相比3*3卷积层效果要好。换言之,空间注意力层对于输入的特征图首先做一个基于channel(通道)的global max pooling(全局最大池化)和global average pooling(全局平均池化),得到两个H×W×1的特征图,然后将这两个特征图基于channel做concat操作(即通道拼接),然后经过一个7×7卷积操作,降维为1个channel,即H×W×1,再经过sigmoid(激活函数)生成spatial attention feature(空间注意力特征图),最后将该输入的特征图和该空间注意力特征图做乘法,得到最终生成的特征。
在另一实施例中,将第二特征图输入至第二特征提取层中的若干个级联的残差块,得到第三特征图。
当然,该第二特征提取层还可以为其他结构,此处不再一一赘述。该第二特征提取层可以对第二特征图进行降维,以得到降维后的第三特征图。
步骤130,将所述第三特征图进行上采样得到与所述第一特征图相同尺度的第四特征图,将所述第四特征图与所述第一特征图进行特征融合,得到第五特征图。
将第三特征图进行上采样,以得到与第一特征图相同尺度的第四特征图,以便将第四特征图与第一特征图进行特征融合,得到第五特征图。
步骤140,将所述第五特征图输入至所述人脸检测模型中的第三特征提取层,得到所述第三特征提取层输出的第六特征图,所述第六特征图的尺度大于所述第三特征图的尺度。
将第五特征图输入至第三特征提取层,以得到可以输入人脸检测层的第六特征图。
在一实施例中,将第五特征图输入至第三特征提取层中的卷积层,得到该卷积层输出的第六特征图。示例性的,该卷积层为1*1的卷积层。
在另一实施例中,将第五特征图输入至第三特征提取层中的空间注意力层,得到该空间注意力层输出的特征图;将空间注意力层输出的特征图输入至第三特征提取层中的卷积层,得到该卷积层输出的第三特征图。示例性的,该卷积层包括3*3的卷积层。进一步地,该卷积层包括依次连接的3*3卷积层和BN(Batch Normal,批量归一化)层。综上,考虑到了人脸检测中主要是针对人脸区域进行识别,而一张人脸图像中可能人脸所占比例不是很大,因此对于那些所要识别的人脸仅仅占图像的一小部分的任务而言,一般比较困难;基于此,通过上述的空间注意力层,能对输入图像的人脸空间信息自动定位,从而能够减少背景对于任务的干扰,从而提高人脸检测模型的识别精度及鲁棒性,即提高人脸检测准确性。
示例性的,将第五特征图输入至空间注意力层中的全局最大池化层,得到全局最大池化层输出的子特征图,并将第五特征图输入至空间注意力层中的全局平均池化层,得到全局平均池化层输出的子特征图;将两个子特征图进行通道拼接,得到第一目标子特征图;将第一目标子特征图输入至空间注意力层中的卷积层,得到该卷积层输出的第二目标子特征图,以使第二目标子特征图的通道数为1;将第二目标子特征图输入至空间注意力层中的激活层,得到该激活层输出的特征图,基于第五特征图与该激活层输出的特征图的乘积,生成特征图,以将该基于乘积确定的特征图输入至第三特征提取层中的卷积层。优选地,其中卷积层为7*7卷积层,经过大量的创造性劳动和试验可知,7*7卷积层相比3*3卷积层效果要好。
在另一实施例中,将第五特征图输入至第三特征提取层中的若干个级联的残差块,得到第六特征图。
当然,该第三特征提取层还可以为其他结构,进一步地,该第三特征提取层的结构与上述第二特征提取层的结构基本相同,此处不再一一赘述。
此处,第六特征图的尺度大于第三特征图的尺度,从而确保输入至人脸检测层的特征图为多尺度的特征图,进而提高人脸检测准确性。
步骤150,将所述第三特征图和所述第六特征图输入至所述人脸检测模型中的人脸检测层,得到所述人脸检测层输出的人脸检测结果。
此处,人脸检测层可以检测是否为人脸和/或进行人脸的目标检测(即检测人脸框的位置)。相应的,该人脸检测结果包括是否为人脸的检测结果和/或目标检测结果。
其中,所述人脸检测模型是基于样本人脸图像和所述样本人脸图像对应的人脸检测结果标签训练得到的。
在一实施例中,样本人脸图像为通过不同拍摄方式拍摄得到的人脸图像。示例性的,通过不同拍摄角度(如仰拍、俯拍、侧拍和正拍等拍摄方向)进行拍摄。示例性的,通过设置不同光线情况,以拍摄各种光线的人脸图像。基于此,可以提高人脸检测模型的训练效果,进而提高人脸检测模型的人脸检测准确性。进一步地,若人脸检测模型部署于移动终端,则样本人脸图像也可以通过移动终端采集得到。
在一实施例中,对样本人脸图像进行标注,得到人脸检测结果标签。如框选出人脸的位置,并保持框左上角和右下角的坐标位置。
在一实施例中,可以对标注好的样本人脸图像进行数据增强,以得到更多的样本人脸图像,进而提高人脸检测模型的训练效果。该数据增强方式可以包括但不限于以下至少一种:旋转、左右翻转、裁剪、叠加等等。
在一实施例中,人脸检测模型的损失函数如下所示:
其中,X表示基于人脸检测模型得到的预测值,c表示类别置信度预测值,l表示先验框对应的边界框预测值,g表示l对应的真实值,N表示先验框的正样本数量,x表示框中心点横坐标点,y表示框中心点纵坐标点,w表示框的宽,h表示框的长,Xi表示第i个锚框为人脸框的概率,表示第i个锚框的预测框,/>表示第i个锚框对应的真实框,xij表示第i个预测框是真实框的概率,ci表示人脸的概率。
为便于更好地理解本发明实施例的人脸检测模型,如图2所示,该人脸检测模型包括第一特征提取层、第二特征提取层、第三特征提取层和人脸检测层。需要说明的是,经过大量样本人脸图像验证可知,该人脸检测模型对于目前正常人脸图像的检测准确性高,且计算量小,运行速度快。
本发明实施例提供的人脸检测方法,将待检测的人脸图像输入至人脸检测模型中的第一特征提取层,得到该第一特征提取层输出的第一特征图和第二特征图,且第一特征图的尺度大于第二特征图的尺度,以使后续输入至人脸检测层的特征图的尺度不同;将第二特征图输入至人脸检测模型中的第二特征提取层,得到第二特征提取层输出的第三特征图,并将第三特征图进行上采样得到与第一特征图相同尺度的第四特征图,以便将第四特征图与第一特征图进行特征融合,得到第五特征图,将第五特征图输入至人脸检测模型中的第三特征提取层,得到第三特征提取层输出的第六特征图,且第六特征图的尺度大于第三特征图的尺度,以供将不同尺度的第三特征图和第六特征图输入至人脸检测模型中的人脸检测层,得到人脸检测层输出的人脸检测结果,从而基于多尺度的特征图提高人脸检测准确性;同时,第一特征提取层包括依次连接的M个特征提取层,且M为大于2的正整数,从而可以对人脸图像进行更深层次的特征提取,而不仅仅局限于两个层次,即可以充分利用人脸图像上下文信息,且第二特征图为M个特征提取层中连接在最后的第M个特征提取层输出的特征图,第一特征图为连接在倒数第二个的第M-1个特征提取层输出的特征图,从而本发明是基于最深层次的两层特征图进行人脸检测的,进而在确保人脸检测准确性的基础上,无需计算得到其他层次的特征图,即无需计算得到M个特征图,且后续输入至人脸检测层的特征图数量也减少了,进而减少人脸检测层的计算量,基于此,本发明可以降低人脸检测模型的模型算力要求,并提高人脸检测效率,以实现将人脸检测模型部署于计算能力较低的智能设备(如移动终端),即提高人脸检测模型的适用性。
基于上述任一实施例,该方法中,上述步骤110包括:
将所述人脸图像输入至所述第一特征提取层中的第四特征提取层,得到所述第四特征提取层输出的第七特征图;
将所述第七特征图输入至所述第一特征提取层中的第五特征提取层,得到所述第五特征提取层输出的第八特征图;
将所述第八特征图输入至所述第一特征提取层中的第六特征提取层,得到所述第六特征提取层输出的第一特征图;
将所述第一特征图输入至所述第一特征提取层中的第七特征提取层,得到所述第七特征提取层输出的第二特征图。
其中,所述第七特征图的尺度大于所述第八特征图的尺度,所述第八特征图的尺度大于所述第一特征图的尺度。
应理解,该第一特征提取层包括依次连接的4个特征提取层,即进行4次特征提取。当然,该第一特征提取层可以包括更多或更少的特征提取层,然而,经过大量的创造性劳动可知,该第一特征提取层包括依次连接的4个特征提取层效果较好,即可以确保人脸检测准确性的基础上又能减少计算量。
在一实施例中,第八特征图的长为第七特征图的长的一半,且第八特征图的宽为第七特征图的宽的一半;第一特征图的长为第八特征图的长的一半,且第一特征图的宽为第八特征图的宽的一半;第二特征图的长为第一特征图的长的一半,且第二特征图的宽为第一特征图的宽的一半;相应地,第三特征图的长为第六特征图的长的一半,且第三特征图的宽为第六特征图的宽的一半。基于此,合理地对人脸图像的特征图逐步进行降维,以供输入至人脸检测层的第三特征图和第六特征图更为准确地表征人脸图像的图像信息,进而提高人脸检测的准确性。
在一实施例中,将人脸图像输入至第四特征提取层中的卷积层,得到该卷积层输出的第七特征图。示例性的,该卷积层为3*3的卷积层。进一步地,将人脸图像输入至第四特征提取层中的卷积层,得到该卷积层输出的特征图,并将该卷积层输出的特征图输入至第四特征提取层中的最大池化层,得到该最大池化层输出的第七特征图。
在另一实施例中,将人脸图像输入至第四特征提取层中的卷积层,得到该卷积层输出的特征图,将该卷积层输出的特征图输入至第四特征提取层中的空间注意力层,得到该空间注意力层输出的第七特征图。示例性的,该卷积层包括3*3的卷积层。进一步地,将人脸图像输入至第四特征提取层中的卷积层,得到该卷积层输出的特征图,将该卷积层输出的特征图输入至第四特征提取层中的空间注意力层,得到该空间注意力层输出的特征图,将该空间注意力层输出的特征图输入至第四特征提取层中的最大池化层,得到该最大池化层输出的第七特征图。综上,考虑到了人脸检测中主要是针对人脸区域进行识别,而一张人脸图像中可能人脸所占比例不是很大,因此对于那些所要识别的人脸仅仅占图像的一小部分的任务而言,一般比较困难;基于此,通过上述的空间注意力层,能对输入图像的人脸空间信息自动定位,从而能够减少背景对于任务的干扰,从而提高人脸检测模型的识别精度及鲁棒性,即提高人脸检测准确性。
示例性的,将卷积层输出的特征图输入至空间注意力层中的全局最大池化层,得到全局最大池化层输出的子特征图,并将卷积层输出的特征图输入至空间注意力层中的全局平均池化层,得到全局平均池化层输出的子特征图;将两个子特征图进行通道拼接,得到第一目标子特征图;将第一目标子特征图输入至空间注意力层中的卷积层,得到该卷积层输出的第二目标子特征图,以使第二目标子特征图的通道数为1;将第二目标子特征图输入至空间注意力层中的激活层,得到该激活层输出的特征图,基于卷积层输出的特征图与该激活层输出的特征图的乘积,生成特征图,以将该基于乘积确定的特征图输入至第四特征提取层中的最大池化层。优选地,其中卷积层为7*7卷积层,经过大量的创造性劳动和试验可知,7*7卷积层相比3*3卷积层效果要好。
当然,该第四特征提取层还可以为其他结构,此处不再一一赘述。
在一实施例中,将第七特征图输入至第五特征提取层中的卷积层,得到该卷积层输出的第八特征图。示例性的,该卷积层为3*3的卷积层。
在另一实施例中,将第七特征图输入至第五特征提取层中的空间注意力层,得到该空间注意力层输出的特征图;将空间注意力层输出的特征图输入至第五特征提取层中的卷积层,得到该卷积层输出的第八特征图。示例性的,该卷积层包括3*3的卷积层。进一步地,该卷积层包括依次连接的3*3卷积层和BN(Batch Normal,批量归一化)层。综上,考虑到了人脸检测中主要是针对人脸区域进行识别,而一张人脸图像中可能人脸所占比例不是很大,因此对于那些所要识别的人脸仅仅占图像的一小部分的任务而言,一般比较困难;基于此,通过上述的空间注意力层,能对输入图像的人脸空间信息自动定位,从而能够减少背景对于任务的干扰,从而提高人脸检测模型的识别精度及鲁棒性,即提高人脸检测准确性。
示例性的,将第七特征图输入至空间注意力层中的全局最大池化层,得到全局最大池化层输出的子特征图,并将第七特征图输入至空间注意力层中的全局平均池化层,得到全局平均池化层输出的子特征图;将两个子特征图进行通道拼接,得到第一目标子特征图;将第一目标子特征图输入至空间注意力层中的卷积层,得到该卷积层输出的第二目标子特征图,以使第二目标子特征图的通道数为1;将第二目标子特征图输入至空间注意力层中的激活层,得到该激活层输出的特征图,基于第七特征图与该激活层输出的特征图的乘积,生成特征图,以将该基于乘积确定的特征图输入至第五特征提取层中的卷积层。优选地,其中卷积层为7*7卷积层,经过大量的创造性劳动和试验可知,7*7卷积层相比3*3卷积层效果要好。
在另一实施例中,将第七特征图输入至第五特征提取层中的若干个级联的残差块,得到第八特征图。
当然,该第五特征提取层还可以为其他结构,此处不再一一赘述。
此外,第六特征提取层和第七特征提取层与第五特征提取层的结构基本相同,此处不再一一赘述。
为便于更好地理解本发明实施例的人脸检测模型,如图3所示,该第一特征提取层包括第四特征提取层、第五特征提取层、第六特征提取层和第七特征提取层。
本发明实施例提供的人脸检测方法,将人脸图像输入至上述的第一特征提取层,得到该第一特征提取层输出的第一特征图和第二特征图,且第一特征图的尺度大于第二特征图的尺度,以使后续输入至人脸检测层的特征图的尺度不同;且该第一特征提取层包括依次连接的4个特征提取层,从而可以对人脸图像进行更深层次的特征提取,而不仅仅局限于两个层次,且第二特征图为4个特征提取层中连接在最后的第4个特征提取层输出的特征图,第一特征图为连接在倒数第二个的第3个特征提取层输出的特征图,从而本发明是基于最深层次的两层特征图进行人脸检测的,进而在确保人脸检测准确性的基础上,无需计算得到其他层次的特征图,即无需计算得到4个特征图,且后续输入至人脸检测层的特征图数量也减少了,进而减少人脸检测层的计算量,基于此,本发明可以降低人脸检测模型的模型算力要求,并提高人脸检测效率,以实现将人脸检测模型部署于计算能力较低的智能设备(如移动终端),即提高人脸检测模型的适用性。
基于上述任一实施例,该方法中,所述将所述第七特征图输入至所述第一特征提取层中的第五特征提取层,得到所述第五特征提取层输出的第八特征图,包括:
将所述第七特征图输入至所述第五特征提取层中的第八特征提取层,得到所述第八特征提取层输出的第一子特征图,并将所述第七特征图输入至所述第五特征提取层中的第九特征提取层,得到所述第九特征提取层输出的第二子特征图,并将所述第七特征图输入至所述第五特征提取层中的第十特征提取层,得到所述第十特征提取层输出的第三子特征图;
将所述第一子特征图、所述第二子特征图和所述第三子特征图输入至所述第五特征提取层中的第一特征融合层,得到所述第一特征融合层输出的第八特征图。
在一实施例中,将第七特征图输入至第八特征提取层中的第一空间注意力层,得到该第一空间注意力层输出的第一子特征图。
在另一实施例中,该第八特征提取层可以为空白层,即第一子特征图为第七特征图。
当然,该第八特征提取层还可以为其他结构,此处不再一一赘述。
在一实施例中,将第七特征图输入至第九特征提取层中的第二空间注意力层,得到该第二空间注意力层输出的第四子特征图;将该第四子特征图输入至第九特征提取层中的第一卷积层,得到该第一卷积层输出的第二子特征图。示例性的,第一卷积层包括依次连接的卷积层和BN层。
在另一实施例中,将第七特征图输入至第九特征提取层中的第一卷积层,得到该第一卷积层输出的第二子特征图。示例性的,第一卷积层包括依次连接的卷积层和BN层。
当然,该第九特征提取层还可以为其他结构,此处不再一一赘述。
在一实施例中,将第七特征图输入至第十特征提取层中的第二卷积层,得到第二卷积层输出的第五子特征图,将第五子特征图输入至第十特征提取层中的第三卷积层,得到第三卷积层输出的第六子特征图;将第六子特征图输入至第十特征提取层中的第三空间注意力层,得到第三空间注意力层输出的第七子特征图;将第七子特征图输入至第十特征提取层中的第四卷积层,得到第四卷积层输出的第三子特征图。示例性的,第二卷积层包括依次连接的卷积层、BN层和激活层;第三卷积层包括依次连接的卷积层、BN层和激活层;第四卷积层包括依次连接的卷积层和BN层。
在另一实施例中,将第七特征图输入至第十特征提取层中的第二卷积层,得到第二卷积层输出的第五子特征图,将第五子特征图输入至第十特征提取层中的第三卷积层,得到第三卷积层输出的第三子特征图。示例性的,第二卷积层包括依次连接的卷积层、BN层和激活层;第三卷积层包括依次连接的卷积层、BN层和激活层。
当然,该第十特征提取层还可以为其他结构,此处不再一一赘述。
综上,考虑到了人脸检测中主要是针对人脸区域进行识别,而一张人脸图像中可能人脸所占比例不是很大,因此对于那些所要识别的人脸仅仅占图像的一小部分的任务而言,一般比较困难;基于此,通过上述的空间注意力层,能对输入图像的人脸空间信息自动定位,从而能够减少背景对于任务的干扰,从而提高人脸检测模型的识别精度及鲁棒性,即提高人脸检测准确性。
在一实施例中,基于第一特征融合层,对第一子特征图、第二子特征图和第三子特征图进行特征融合,得到第八特征图。
在另一实施例中,将第一子特征图、第二子特征图和第三子特征图输入至第一特征融合层中的特征融合层,得到该特征融合层输出的融合特征,将该融合特征输入至第一特征融合层中的激活层,得到该激活层输出的第八特征图。示例性的,该激活层为Relu激活层。
需要说明的是,本发明实施例的第五特征提取层可以级联,从而进一步增加深度,以提高第八特征图的表征能力。
此外,第六特征提取层和第七特征提取层与第五特征提取层的结构基本相同,此处不再一一赘述。
本发明实施例提供的人脸检测方法,将第七特征图输入至第五特征提取层中的第八特征提取层,得到第八特征提取层输出的第一子特征图,并将第七特征图输入至第五特征提取层中的第九特征提取层,得到第九特征提取层输出的第二子特征图,并将第七特征图输入至第五特征提取层中的第十特征提取层,得到第十特征提取层输出的第三子特征图,即对第七特征图进行三个不同分支的特征提取,且不同分支的特征提取深度不同,并将第一子特征图、第二子特征图和第三子特征图输入至第五特征提取层中的第一特征融合层,得到第一特征融合层输出的第八特征图,从而对三个分支的子特征图进行特征融合,从而在提高第八特征图的表征能力的基础上,还能避免训练模型所带来的问题,最终提高人脸检测的准确性。
基于上述任一实施例,考虑到了人脸检测中主要是针对人脸区域进行识别,而一张人脸图像中可能人脸所占比例不是很大,因此对于那些所要识别的人脸仅仅占图像的一小部分的任务而言,一般比较困难;基于此,该方法中,所述将所述第七特征图输入至所述第五特征提取层中的第八特征提取层,得到所述第八特征提取层输出的第一子特征图,包括:
将所述第七特征图输入至所述第八特征提取层中的第一空间注意力层,得到所述第一空间注意力层输出的第一子特征图。
该方法中,所述将所述第七特征图输入至所述第五特征提取层中的第九特征提取层,得到所述第九特征提取层输出的第二子特征图,包括:
将所述第七特征图输入至所述第九特征提取层中的第二空间注意力层,得到所述第二空间注意力层输出的第四子特征图;
将所述第四子特征图输入至所述第九特征提取层中的第一卷积层,得到所述第一卷积层输出的第二子特征图,所述第一卷积层包括依次连接的卷积层和批量归一化BN层。
示例性的,第一卷积层中的卷积层可以为3*3卷积层。
在一具体实施例中,将第七特征图输入至第二空间注意力层中的全局最大池化层,得到全局最大池化层输出的子特征图,并将第七特征图输入至第二空间注意力层中的全局平均池化层,得到全局平均池化层输出的子特征图;将全局最大池化层输出的子特征图和全局平均池化层输出的子特征图进行通道拼接,得到子特征图;将通道拼接得到的子特征图输入至第二空间注意力层中的卷积层,得到该卷积层输出的子特征图,以使该子特征图的通道数为1;将该卷积层输出的子特征图输入至所述第二空间注意力层中的激活层,得到该激活层输出的子特征图;基于第七特征图与该激活层输出的子特征图的乘积,生成第四子特征图。
该方法中,所述将所述第七特征图输入至所述第五特征提取层中的第十特征提取层,得到所述第十特征提取层输出的第三子特征图,包括:
将所述第七特征图输入至所述第十特征提取层中的第二卷积层,得到所述第二卷积层输出的第五子特征图,所述第二卷积层包括依次连接的卷积层、BN层和激活层;
将所述第五子特征图输入至所述第十特征提取层中的第三卷积层,得到所述第三卷积层输出的第六子特征图,所述第三卷积层包括依次连接的卷积层、BN层和激活层;
将所述第六子特征图输入至所述第十特征提取层中的第三空间注意力层,得到所述第三空间注意力层输出的第七子特征图;
将所述第七子特征图输入至所述第十特征提取层中的第四卷积层,得到所述第四卷积层输出的第三子特征图,所述第四卷积层包括依次连接的卷积层和BN层。
示例性的,第二卷积层中的卷积层可以为3*3卷积层,第二卷积层中的激活层可以为Relu激活层。第三卷积层中的卷积层可以为3*3卷积层,第三卷积层中的激活层可以为Relu激活层。第四卷积层中的卷积层可以为3*3卷积层。
此处,第三空间注意力层的结构可以参考第一空间注意力层和第二空间注意力层的结构,此处不再一一赘述。
需要说明的是,本发明实施例提供的第五特征提取层是经过大量的创造性劳动得到的,且是经过大量样本人类图像验证的,通过上述方式构建第五特征提取层达到的效果较好。
为便于理解本发明实施例的第五特征提取层,如图4所示,该第五特征提取层包括第一空间注意力层、第二空间注意力层、第一卷积层、第二卷积层、第三卷积层、第三空间注意力层、第四卷积层、特征融合层和激活层。
本发明实施例提供的人脸检测方法,通过上述方式构建第五特征提取层,能够充分提取人脸图像不同尺度的特征,提升人脸区域特征的表达,即提高特征提取得到的特征图的表达能力,进而充分利用不同尺度的特征,且利用表达能力较好的特征图进行人脸检测,最终提高人脸检测的准确性。
基于上述任一实施例,该方法中,所述将所述第七特征图输入至所述第八特征提取层中的第一空间注意力层,得到所述第一空间注意力层输出的第一子特征图,包括:
将所述第七特征图输入至所述第一空间注意力层中的全局最大池化层,得到所述全局最大池化层输出的第八子特征图,并将所述第七特征图输入至所述第一空间注意力层中的全局平均池化层,得到所述全局平均池化层输出的第九子特征图;
将所述第八子特征图和所述第九子特征图进行通道拼接,得到第十子特征图;
将所述第十子特征图输入至所述第一空间注意力层中的第五卷积层,得到所述第五卷积层输出的第十一子特征图,以使所述第十一子特征图的通道数为1;
将所述第十一子特征图输入至所述第一空间注意力层中的第一激活层,得到所述第一激活层输出的第十二子特征图;
基于所述第七特征图与所述第十二子特征图的乘积,生成所述第一子特征图。
示例性的,第一激活层可以为sigmoid激活层。优选地,其中第五卷积层为7*7卷积层,经过大量的创造性劳动和试验可知,7*7卷积层相比3*3卷积层效果要好。
示例性的,第一空间注意力层对于输入的第七特征图首先做一个基于channel(通道)的global max pooling(全局最大池化)和global average pooling(全局平均池化),得到两个H×W×1的第八子特征图和第九子特征图,然后将这两个特征图基于channel做concat操作(即通道拼接),以生成H×W×2的第十子特征图,然后经过一个7×7卷积操作,降维为1个channel,即H×W×1,再经过sigmoid(激活函数)生成空间注意力特征图(第十二子特征图),最后将该输入的第七特征图和该空间注意力特征图做乘法,得到最终生成的第一子特征图。为便于理解,该第一空间注意力层可以通过如下公式表示:
Ms(F)=σ(f7×7([AvgPool(F):MaxPool(F)]));
式中,Ms(F)表示第十二子特征图,F表示第七特征图,σ表示激活函数,f7×7表示进行7*7卷积,AvgPool(F)、表示对第七特征图进行平均池化,MaxPool(F)、/>表示对第七特征图进行最大池化,[:]表示通道拼接。
本发明实施例提供的人脸检测方法,通过上述第一空间注意力层,能对输入图像的人脸空间信息自动定位,从而能够减少背景对于任务的干扰,从而提高人脸检测模型的识别精度及鲁棒性,即提高人脸检测准确性;且通过上述方式构建的第一空间注意力层,可以更好地进行空间注意力机制的特征提取,从而进一步提高人脸检测准确性。
基于上述任一实施例,该方法中,上述步骤120包括:
将所述第二特征图输入至所述第二特征提取层中的第十一特征提取层,得到所述第十一特征提取层输出的第十三子特征图,并将所述第二特征图输入至所述第二特征提取层中的第十二特征提取层,得到所述第十二特征提取层输出的第十四子特征图,并将所述第二特征图输入至所述第二特征提取层中的第十三特征提取层,得到所述第十三特征提取层输出的第十五子特征图;
将所述第十三子特征图、所述第十四子特征图和所述第十五子特征图输入至所述第二特征提取层中的第二特征融合层,得到所述第二特征融合层输出的第三特征图。
在一实施例中,将第二特征图输入至第十一特征提取层中的空间注意力层,得到该空间注意力层输出的第十三子特征图。
在另一实施例中,该第十一特征提取层可以为空白层,即第十三子特征图为第二特征图。
当然,该第十一特征提取层还可以为其他结构,此处不再一一赘述。
在一实施例中,将第二特征图输入至第十二特征提取层中的空间注意力层,得到该空间注意力层输出的子特征图;将该子特征图输入至第十二特征提取层中的卷积层,得到该卷积层输出的第十四子特征图。示例性的,该卷积层包括依次连接的卷积层和BN层。
在另一实施例中,将第二特征图输入至第十二特征提取层中的卷积层,得到该卷积层输出的第十四子特征图。示例性的,卷积层包括依次连接的卷积层和BN层。
当然,该第十二特征提取层还可以为其他结构,此处不再一一赘述。
在一实施例中,将第二特征图输入至第十三特征提取层中的第二卷积层,得到第二卷积层输出的子特征图,将该子特征图输入至第十三特征提取层中的第三卷积层,得到该第三卷积层输出的子特征图;将该子特征图输入至第十三特征提取层中的空间注意力层,得到空间注意力层输出的子特征图;将子特征图输入至第十三特征提取层中的第四卷积层,得到该第四卷积层输出的第十五子特征图。示例性的,第二卷积层包括依次连接的卷积层、BN层和激活层;第三卷积层包括依次连接的卷积层、BN层和激活层;第四卷积层包括依次连接的卷积层和BN层。
在另一实施例中,将第二特征图输入至第十三特征提取层中的第二卷积层,得到第二卷积层输出的第五子特征图,将第五子特征图输入至第十三特征提取层中的第三卷积层,得到第三卷积层输出的第十五子特征图。示例性的,第二卷积层包括依次连接的卷积层、BN层和激活层;第三卷积层包括依次连接的卷积层、BN层和激活层。
当然,该第十特征提取层还可以为其他结构,此处不再一一赘述。
综上,考虑到了人脸检测中主要是针对人脸区域进行识别,而一张人脸图像中可能人脸所占比例不是很大,因此对于那些所要识别的人脸仅仅占图像的一小部分的任务而言,一般比较困难;基于此,通过上述的空间注意力层,能对输入图像的人脸空间信息自动定位,从而能够减少背景对于任务的干扰,从而提高人脸检测模型的识别精度及鲁棒性,即提高人脸检测准确性。
在一实施例中,基于第二特征融合层,对第十三子特征图、第十四子特征图和第十五子特征图进行特征融合,得到第三特征图。
在另一实施例中,将第十三子特征图、第十四子特征图和第十五子特征图输入至第二特征融合层中的特征融合层,得到该特征融合层输出的融合特征,将该融合特征输入至第二特征融合层中的激活层,得到该激活层输出的第三特征图。示例性的,该激活层为Relu激活层。
在一些实施例中,该第二特征提取层的具体结构可以与上述第五特征提取层的结构相同。
需要说明的是,本发明实施例的第二特征提取层可以级联,从而进一步增加深度,以提高第三特征图的表征能力。
此外,第三特征提取层与第二特征提取层的结构基本相同,此处不再一一赘述。
本发明实施例提供的人脸检测方法,将第二特征图输入至第二特征提取层中的第十一特征提取层,得到第十一特征提取层输出的第十三子特征图,并将第二特征图输入至第二特征提取层中的第十二特征提取层,得到第十二特征提取层输出的第十四子特征图,并将第二特征图输入至第二特征提取层中的第十三特征提取层,得到第十三特征提取层输出的第十五子特征图,即对第二特征图进行三个不同分支的特征提取,且不同分支的特征提取深度不同,并将第十三子特征图、第十四子特征图和第十五子特征图输入至第二特征提取层中的第二特征融合层,得到第二特征融合层输出的第三特征图,从而对三个分支的子特征图进行特征融合,从而在提高第三特征图的表征能力的基础上,还能避免训练模型所带来的问题,最终提高人脸检测的准确性。
基于上述任一实施例,该方法中,上述步骤150包括:
将所述第三特征图输入至所述人脸检测层中的第六卷积层,得到所述第六卷积层输出的第一目标特征图,并将所述第三特征图输入至所述人脸检测层中的第七卷积层,得到所述第七卷积层输出的第二目标特征图,并将所述第三特征图输入至所述人脸检测层中的第八卷积层,得到所述第八卷积层输出的第三目标特征图;
将所述第六特征图输入至所述人脸检测层中的第六卷积层,得到所述第六卷积层输出的第四目标特征图,并将所述第六特征图输入至所述人脸检测层中的第七卷积层,得到所述第七卷积层输出的第五目标特征图,并将所述第六特征图输入至所述人脸检测层中的第八卷积层,得到所述第八卷积层输出的第六目标特征图;
将所述第一目标特征图、所述第二目标特征图和所述第三目标特征图输入至所述人脸检测层中的第三特征融合层,得到所述第三特征融合层输出的第一融合特征图,并将所述第四目标特征图、所述第五目标特征图和所述第六目标特征图输入至所述人脸检测层中的第三特征融合层,得到所述第三特征融合层输出的第二融合特征图;
将所述第一融合特征图输入至所述人脸检测层中的第四空间注意力层,得到所述第四空间注意力层输出的第七目标特征图,并将所述第二融合特征图输入至所述人脸检测层中的第四空间注意力层,得到所述第四空间注意力层输出的第八目标特征图;
将所述第七目标特征图和所述第八目标特征图输入至所述人脸检测层中的检测层,得到所述检测层输出的人脸检测结果。
示例性的,第六卷积层为3*3卷积层。
在一实施例中,第七卷积层为5*5卷积层。在另一实施例中,第七卷积层包括依次连接的两个3*3卷积层,以进行两次3*3卷积代替5*5卷积。
在一实施例中,第八卷积层为7*7卷积层。在另一实施例中,第八卷积层包括依次连接的三个3*3卷积层,以进行三次3*3卷积代替7*7卷积。
在一具体实施例中,将第一融合特征图输入至第四空间注意力层中的全局最大池化层,得到全局最大池化层输出的子特征图,并将第一融合特征图输入至第四空间注意力层中的全局平均池化层,得到全局平均池化层输出的子特征图;将全局最大池化层输出的子特征图和全局平均池化层输出的子特征图进行通道拼接,得到子特征图;将通道拼接得到的子特征图输入至第四空间注意力层中的卷积层,得到该卷积层输出的子特征图,以使该子特征图的通道数为1;将该卷积层输出的子特征图输入至所述第四空间注意力层中的激活层,得到该激活层输出的子特征图;基于第一融合特征图与该激活层输出的子特征图的乘积,生成第七目标特征图。
在一具体实施例中,将第二融合特征图输入至第四空间注意力层中的全局最大池化层,得到全局最大池化层输出的子特征图,并将第二融合特征图输入至第四空间注意力层中的全局平均池化层,得到全局平均池化层输出的子特征图;将全局最大池化层输出的子特征图和全局平均池化层输出的子特征图进行通道拼接,得到子特征图;将通道拼接得到的子特征图输入至第四空间注意力层中的卷积层,得到该卷积层输出的子特征图,以使该子特征图的通道数为1;将该卷积层输出的子特征图输入至所述第四空间注意力层中的激活层,得到该激活层输出的子特征图;基于第二融合特征图与该激活层输出的子特征图的乘积,生成第八目标特征图。
综上,考虑到了人脸检测中主要是针对人脸区域进行识别,而一张人脸图像中可能人脸所占比例不是很大,因此对于那些所要识别的人脸仅仅占图像的一小部分的任务而言,一般比较困难;基于此,通过上述的空间注意力层,能对输入图像的人脸空间信息自动定位,从而能够减少背景对于任务的干扰,从而提高人脸检测模型的识别精度及鲁棒性,即提高人脸检测准确性。
进一步地,将第七目标特征图输入至人脸检测层中的激活层,得到该激活层输出的第九目标特征图;将第八目标特征图输入至人脸检测层中的激活层,得到该激活层输出的第十目标特征图;将第九目标特征图和第十目标特征图输入至人脸检测层中的检测层,得到检测层输出的人脸检测结果。示例性的,激活层为Relu激活层。
进一步地,检测层包括两个检测层,其中一个检测层用于检测是否为人脸,另一个检测层用于进行人脸目标检测。基于此,将第七目标特征图和第八目标特征图输入至第一个检测层,并将第七目标特征图和第八目标特征图输入至第二个检测层,以输出二者的人脸检测结果。
为便于更好地理解本发明实施例的人脸检测层,在一具体实施例中,第七卷积层包括第九卷积层和第十卷积层,第八卷积层包括九卷积层、第十一卷积层和第十二卷积层,如图5所示,该人脸检测层包括第六卷积层、第九卷积层、第十卷积层、第十一卷积层、第十二卷积层、第三特征融合层、第四空间注意力层、激活层和检测层。
本发明实施例提供的人脸检测方法,考虑到人脸周围的背景信息有助于正确分类尺寸较小或者非正面的人脸,因此人脸检测需要利用超过目标范围的图像信息来辅助检测,基于此,通过上述三个并行结构,即第六卷积层、第七卷积层和第八卷积层,增加感受野(即扩大感受野),即增加网络抓取上下文信息的能力;且将第一目标特征图、第二目标特征图和第三目标特征图输入至第三特征融合层,得到第三特征融合层输出的第一融合特征图,并将第四目标特征图、第五目标特征图和第六目标特征图输入至第三特征融合层,得到第三特征融合层输出的第二融合特征图,将第一融合特征图输入至第四空间注意力层,得到第四空间注意力层输出的第七目标特征图,并将第二融合特征图输入至第四空间注意力层,得到第四空间注意力层输出的第八目标特征图,从而在三个并行结构输出的特征图结合后增加空间注意力,以增加不同感受野的人脸区域特征表达,进而提高第七目标特征图和第八目标特征图的表征能力,最终提高人脸检测准确性。
下面对本发明提供的人脸检测装置进行描述,下文描述的人脸检测装置与上文描述的人脸检测方法可相互对应参照。
图6为本发明提供的人脸检测装置的结构示意图,如图6所示,该人脸检测装置,包括:
第一特征提取模块610,用于将待检测的人脸图像输入至人脸检测模型中的第一特征提取层,得到所述第一特征提取层输出的第一特征图和第二特征图,所述第一特征图的尺度大于所述第二特征图的尺度;
第二特征提取模块620,用于将所述第二特征图输入至所述人脸检测模型中的第二特征提取层,得到所述第二特征提取层输出的第三特征图;
特征融合模块630,用于将所述第三特征图进行上采样得到与所述第一特征图相同尺度的第四特征图,将所述第四特征图与所述第一特征图进行特征融合,得到第五特征图;
第三特征提取模块640,用于将所述第五特征图输入至所述人脸检测模型中的第三特征提取层,得到所述第三特征提取层输出的第六特征图,所述第六特征图的尺度大于所述第三特征图的尺度;
人脸检测模块650,用于将所述第三特征图和所述第六特征图输入至所述人脸检测模型中的人脸检测层,得到所述人脸检测层输出的人脸检测结果;
其中,所述第一特征提取层包括依次连接的M个特征提取层,M为大于2的正整数,所述第二特征图为所述M个特征提取层中连接在最后的第M个特征提取层输出的特征图,所述第一特征图为连接在倒数第二个的第M-1个特征提取层输出的特征图;
所述人脸检测模型是基于样本人脸图像和所述样本人脸图像对应的人脸检测结果标签训练得到的。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行人脸检测方法,该方法包括:将待检测的人脸图像输入至人脸检测模型中的第一特征提取层,得到所述第一特征提取层输出的第一特征图和第二特征图,所述第一特征图的尺度大于所述第二特征图的尺度;将所述第二特征图输入至所述人脸检测模型中的第二特征提取层,得到所述第二特征提取层输出的第三特征图;将所述第三特征图进行上采样得到与所述第一特征图相同尺度的第四特征图,将所述第四特征图与所述第一特征图进行特征融合,得到第五特征图;将所述第五特征图输入至所述人脸检测模型中的第三特征提取层,得到所述第三特征提取层输出的第六特征图,所述第六特征图的尺度大于所述第三特征图的尺度;将所述第三特征图和所述第六特征图输入至所述人脸检测模型中的人脸检测层,得到所述人脸检测层输出的人脸检测结果;其中,所述第一特征提取层包括依次连接的M个特征提取层,M为大于2的正整数,所述第二特征图为所述M个特征提取层中连接在最后的第M个特征提取层输出的特征图,所述第一特征图为连接在倒数第二个的第M-1个特征提取层输出的特征图;所述人脸检测模型是基于样本人脸图像和所述样本人脸图像对应的人脸检测结果标签训练得到的。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的人脸检测方法,该方法包括:将待检测的人脸图像输入至人脸检测模型中的第一特征提取层,得到所述第一特征提取层输出的第一特征图和第二特征图,所述第一特征图的尺度大于所述第二特征图的尺度;将所述第二特征图输入至所述人脸检测模型中的第二特征提取层,得到所述第二特征提取层输出的第三特征图;将所述第三特征图进行上采样得到与所述第一特征图相同尺度的第四特征图,将所述第四特征图与所述第一特征图进行特征融合,得到第五特征图;将所述第五特征图输入至所述人脸检测模型中的第三特征提取层,得到所述第三特征提取层输出的第六特征图,所述第六特征图的尺度大于所述第三特征图的尺度;将所述第三特征图和所述第六特征图输入至所述人脸检测模型中的人脸检测层,得到所述人脸检测层输出的人脸检测结果;其中,所述第一特征提取层包括依次连接的M个特征提取层,M为大于2的正整数,所述第二特征图为所述M个特征提取层中连接在最后的第M个特征提取层输出的特征图,所述第一特征图为连接在倒数第二个的第M-1个特征提取层输出的特征图;所述人脸检测模型是基于样本人脸图像和所述样本人脸图像对应的人脸检测结果标签训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种人脸检测方法,其特征在于,包括:
将待检测的人脸图像输入至人脸检测模型中的第一特征提取层,得到所述第一特征提取层输出的第一特征图和第二特征图,所述第一特征图的尺度大于所述第二特征图的尺度;
将所述第二特征图输入至所述人脸检测模型中的第二特征提取层,得到所述第二特征提取层输出的第三特征图;
将所述第三特征图进行上采样得到与所述第一特征图相同尺度的第四特征图,将所述第四特征图与所述第一特征图进行特征融合,得到第五特征图;
将所述第五特征图输入至所述人脸检测模型中的第三特征提取层,得到所述第三特征提取层输出的第六特征图,所述第六特征图的尺度大于所述第三特征图的尺度;
将所述第三特征图和所述第六特征图输入至所述人脸检测模型中的人脸检测层,得到所述人脸检测层输出的人脸检测结果;
其中,所述第一特征提取层包括依次连接的M个特征提取层,M为大于2的正整数,所述第二特征图为所述M个特征提取层中连接在最后的第M个特征提取层输出的特征图,所述第一特征图为连接在倒数第二个的第M-1个特征提取层输出的特征图;
所述人脸检测模型是基于样本人脸图像和所述样本人脸图像对应的人脸检测结果标签训练得到的。
2.根据权利要求1所述的人脸检测方法,其特征在于,所述将待检测的人脸图像输入至人脸检测模型中的第一特征提取层,得到所述第一特征提取层输出的第一特征图和第二特征图,包括:
将所述人脸图像输入至所述第一特征提取层中的第四特征提取层,得到所述第四特征提取层输出的第七特征图;
将所述第七特征图输入至所述第一特征提取层中的第五特征提取层,得到所述第五特征提取层输出的第八特征图;
将所述第八特征图输入至所述第一特征提取层中的第六特征提取层,得到所述第六特征提取层输出的第一特征图;
将所述第一特征图输入至所述第一特征提取层中的第七特征提取层,得到所述第七特征提取层输出的第二特征图;
其中,所述第七特征图的尺度大于所述第八特征图的尺度,所述第八特征图的尺度大于所述第一特征图的尺度。
3.根据权利要求2所述的人脸检测方法,其特征在于,所述将所述第七特征图输入至所述第一特征提取层中的第五特征提取层,得到所述第五特征提取层输出的第八特征图,包括:
将所述第七特征图输入至所述第五特征提取层中的第八特征提取层,得到所述第八特征提取层输出的第一子特征图,并将所述第七特征图输入至所述第五特征提取层中的第九特征提取层,得到所述第九特征提取层输出的第二子特征图,并将所述第七特征图输入至所述第五特征提取层中的第十特征提取层,得到所述第十特征提取层输出的第三子特征图;
将所述第一子特征图、所述第二子特征图和所述第三子特征图输入至所述第五特征提取层中的第一特征融合层,得到所述第一特征融合层输出的第八特征图。
4.根据权利要求3所述的人脸检测方法,其特征在于,所述将所述第七特征图输入至所述第五特征提取层中的第八特征提取层,得到所述第八特征提取层输出的第一子特征图,包括:
将所述第七特征图输入至所述第八特征提取层中的第一空间注意力层,得到所述第一空间注意力层输出的第一子特征图;
所述将所述第七特征图输入至所述第五特征提取层中的第九特征提取层,得到所述第九特征提取层输出的第二子特征图,包括:
将所述第七特征图输入至所述第九特征提取层中的第二空间注意力层,得到所述第二空间注意力层输出的第四子特征图;
将所述第四子特征图输入至所述第九特征提取层中的第一卷积层,得到所述第一卷积层输出的第二子特征图,所述第一卷积层包括依次连接的卷积层和批量归一化BN层;
所述将所述第七特征图输入至所述第五特征提取层中的第十特征提取层,得到所述第十特征提取层输出的第三子特征图,包括:
将所述第七特征图输入至所述第十特征提取层中的第二卷积层,得到所述第二卷积层输出的第五子特征图,所述第二卷积层包括依次连接的卷积层、BN层和激活层;
将所述第五子特征图输入至所述第十特征提取层中的第三卷积层,得到所述第三卷积层输出的第六子特征图,所述第三卷积层包括依次连接的卷积层、BN层和激活层;
将所述第六子特征图输入至所述第十特征提取层中的第三空间注意力层,得到所述第三空间注意力层输出的第七子特征图;
将所述第七子特征图输入至所述第十特征提取层中的第四卷积层,得到所述第四卷积层输出的第三子特征图,所述第四卷积层包括依次连接的卷积层和BN层。
5.根据权利要求4所述的人脸检测方法,其特征在于,所述将所述第七特征图输入至所述第八特征提取层中的第一空间注意力层,得到所述第一空间注意力层输出的第一子特征图,包括:
将所述第七特征图输入至所述第一空间注意力层中的全局最大池化层,得到所述全局最大池化层输出的第八子特征图,并将所述第七特征图输入至所述第一空间注意力层中的全局平均池化层,得到所述全局平均池化层输出的第九子特征图;
将所述第八子特征图和所述第九子特征图进行通道拼接,得到第十子特征图;
将所述第十子特征图输入至所述第一空间注意力层中的第五卷积层,得到所述第五卷积层输出的第十一子特征图,以使所述第十一子特征图的通道数为1;
将所述第十一子特征图输入至所述第一空间注意力层中的第一激活层,得到所述第一激活层输出的第十二子特征图;
基于所述第七特征图与所述第十二子特征图的乘积,生成所述第一子特征图。
6.根据权利要求1所述的人脸检测方法,其特征在于,所述将所述第二特征图输入至所述人脸检测模型中的第二特征提取层,得到所述第二特征提取层输出的第三特征图,包括:
将所述第二特征图输入至所述第二特征提取层中的第十一特征提取层,得到所述第十一特征提取层输出的第十三子特征图,并将所述第二特征图输入至所述第二特征提取层中的第十二特征提取层,得到所述第十二特征提取层输出的第十四子特征图,并将所述第二特征图输入至所述第二特征提取层中的第十三特征提取层,得到所述第十三特征提取层输出的第十五子特征图;
将所述第十三子特征图、所述第十四子特征图和所述第十五子特征图输入至所述第二特征提取层中的第二特征融合层,得到所述第二特征融合层输出的第三特征图。
7.根据权利要求1所述的人脸检测方法,其特征在于,所述将所述第三特征图和所述第六特征图输入至所述人脸检测模型中的人脸检测层,得到所述人脸检测层输出的人脸检测结果,包括:
将所述第三特征图输入至所述人脸检测层中的第六卷积层,得到所述第六卷积层输出的第一目标特征图,并将所述第三特征图输入至所述人脸检测层中的第七卷积层,得到所述第七卷积层输出的第二目标特征图,并将所述第三特征图输入至所述人脸检测层中的第八卷积层,得到所述第八卷积层输出的第三目标特征图;
将所述第六特征图输入至所述人脸检测层中的第六卷积层,得到所述第六卷积层输出的第四目标特征图,并将所述第六特征图输入至所述人脸检测层中的第七卷积层,得到所述第七卷积层输出的第五目标特征图,并将所述第六特征图输入至所述人脸检测层中的第八卷积层,得到所述第八卷积层输出的第六目标特征图;
将所述第一目标特征图、所述第二目标特征图和所述第三目标特征图输入至所述人脸检测层中的第三特征融合层,得到所述第三特征融合层输出的第一融合特征图,并将所述第四目标特征图、所述第五目标特征图和所述第六目标特征图输入至所述人脸检测层中的第三特征融合层,得到所述第三特征融合层输出的第二融合特征图;
将所述第一融合特征图输入至所述人脸检测层中的第四空间注意力层,得到所述第四空间注意力层输出的第七目标特征图,并将所述第二融合特征图输入至所述人脸检测层中的第四空间注意力层,得到所述第四空间注意力层输出的第八目标特征图;
将所述第七目标特征图和所述第八目标特征图输入至所述人脸检测层中的检测层,得到所述检测层输出的人脸检测结果。
8.一种人脸检测装置,其特征在于,包括:
第一特征提取模块,用于将待检测的人脸图像输入至人脸检测模型中的第一特征提取层,得到所述第一特征提取层输出的第一特征图和第二特征图,所述第一特征图的尺度大于所述第二特征图的尺度;
第二特征提取模块,用于将所述第二特征图输入至所述人脸检测模型中的第二特征提取层,得到所述第二特征提取层输出的第三特征图;
特征融合模块,用于将所述第三特征图进行上采样得到与所述第一特征图相同尺度的第四特征图,将所述第四特征图与所述第一特征图进行特征融合,得到第五特征图;
第三特征提取模块,用于将所述第五特征图输入至所述人脸检测模型中的第三特征提取层,得到所述第三特征提取层输出的第六特征图,所述第六特征图的尺度大于所述第三特征图的尺度;
人脸检测模块,用于将所述第三特征图和所述第六特征图输入至所述人脸检测模型中的人脸检测层,得到所述人脸检测层输出的人脸检测结果;
其中,所述第一特征提取层包括依次连接的M个特征提取层,M为大于2的正整数,所述第二特征图为所述M个特征提取层中连接在最后的第M个特征提取层输出的特征图,所述第一特征图为连接在倒数第二个的第M-1个特征提取层输出的特征图;
所述人脸检测模型是基于样本人脸图像和所述样本人脸图像对应的人脸检测结果标签训练得到的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述人脸检测方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述人脸检测方法。
CN202311564413.8A 2023-11-22 2023-11-22 人脸检测方法、装置、电子设备和存储介质 Active CN117612231B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311564413.8A CN117612231B (zh) 2023-11-22 2023-11-22 人脸检测方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311564413.8A CN117612231B (zh) 2023-11-22 2023-11-22 人脸检测方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN117612231A true CN117612231A (zh) 2024-02-27
CN117612231B CN117612231B (zh) 2024-06-25

Family

ID=89952678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311564413.8A Active CN117612231B (zh) 2023-11-22 2023-11-22 人脸检测方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN117612231B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180068198A1 (en) * 2016-09-06 2018-03-08 Carnegie Mellon University Methods and Software for Detecting Objects in an Image Using Contextual Multiscale Fast Region-Based Convolutional Neural Network
CN111178183A (zh) * 2019-12-16 2020-05-19 深圳市华尊科技股份有限公司 人脸检测方法及相关装置
CN111915487A (zh) * 2020-08-04 2020-11-10 武汉工程大学 基于分层多尺度残差融合网络的人脸超分辨率方法及装置
CN112036339A (zh) * 2020-09-03 2020-12-04 福建库克智能科技有限公司 人脸检测的方法、装置和电子设备
US20200401871A1 (en) * 2019-06-20 2020-12-24 Pegatron Corporation Object detection system and object detection method
CN112560701A (zh) * 2020-12-17 2021-03-26 成都新潮传媒集团有限公司 一种人脸图像提取方法、装置及计算机存储介质
CN112949507A (zh) * 2021-03-08 2021-06-11 平安科技(深圳)有限公司 人脸检测方法、装置、计算机设备及存储介质
CN113869282A (zh) * 2021-10-22 2021-12-31 马上消费金融股份有限公司 人脸识别方法、超分模型训练方法及相关设备
US20220406091A1 (en) * 2021-06-16 2022-12-22 Sony Group Corporation Landmark detection using deep neural network with multi-frequency self-attention
WO2023063874A1 (en) * 2021-10-14 2023-04-20 Exo Imaging, Inc. Method and system for image processing based on convolutional neural network

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180068198A1 (en) * 2016-09-06 2018-03-08 Carnegie Mellon University Methods and Software for Detecting Objects in an Image Using Contextual Multiscale Fast Region-Based Convolutional Neural Network
US20200401871A1 (en) * 2019-06-20 2020-12-24 Pegatron Corporation Object detection system and object detection method
CN111178183A (zh) * 2019-12-16 2020-05-19 深圳市华尊科技股份有限公司 人脸检测方法及相关装置
CN111915487A (zh) * 2020-08-04 2020-11-10 武汉工程大学 基于分层多尺度残差融合网络的人脸超分辨率方法及装置
CN112036339A (zh) * 2020-09-03 2020-12-04 福建库克智能科技有限公司 人脸检测的方法、装置和电子设备
CN112560701A (zh) * 2020-12-17 2021-03-26 成都新潮传媒集团有限公司 一种人脸图像提取方法、装置及计算机存储介质
CN112949507A (zh) * 2021-03-08 2021-06-11 平安科技(深圳)有限公司 人脸检测方法、装置、计算机设备及存储介质
US20220406091A1 (en) * 2021-06-16 2022-12-22 Sony Group Corporation Landmark detection using deep neural network with multi-frequency self-attention
WO2023063874A1 (en) * 2021-10-14 2023-04-20 Exo Imaging, Inc. Method and system for image processing based on convolutional neural network
CN113869282A (zh) * 2021-10-22 2021-12-31 马上消费金融股份有限公司 人脸识别方法、超分模型训练方法及相关设备

Also Published As

Publication number Publication date
CN117612231B (zh) 2024-06-25

Similar Documents

Publication Publication Date Title
EP3690742A1 (en) Method for auto-labeling training images for use in deep learning network to analyze images with high precision, and auto-labeling device using the same
EP3690712A1 (en) Learning method and learning device of pedestrian detector for robust surveillance based on image analysis by using gan and testing method and testing device using the same
EP3916627A1 (en) Living body detection method based on facial recognition, and electronic device and storage medium
CN112132156B (zh) 多深度特征融合的图像显著性目标检测方法及系统
US20200250402A1 (en) Method for recognizing face using multiple patch combination based on deep neural network with fault tolerance and fluctuation robustness in extreme situation
CN108491848B (zh) 基于深度信息的图像显著性检测方法和装置
CN111178211A (zh) 图像分割方法、装置、电子设备及可读存储介质
CN109118504B (zh) 一种基于神经网络的图像边缘检测方法、装置及其设备
WO2022105197A1 (en) Systems and methods for image detection
CN111079739A (zh) 一种多尺度注意力特征检测方法
KR102645698B1 (ko) 얼굴의 정렬 형태에 강인한 얼굴 인식 방법 및 그 장치
CN112927209B (zh) 一种基于cnn的显著性检测系统和方法
CN112215119A (zh) 一种基于超分辨率重建的小目标识别方法、装置及介质
CN115861462B (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN116311214B (zh) 车牌识别方法和装置
CN116563840B (zh) 基于弱监督跨模态对比学习的场景文本检测与识别方法
CN117612231B (zh) 人脸检测方法、装置、电子设备和存储介质
CN112733670B (zh) 指纹特征提取方法、装置、电子设备及存储介质
CN112288748B (zh) 一种语义分割网络训练、图像语义分割方法及装置
CN111797737A (zh) 遥感目标检测方法及装置
CN112966670A (zh) 人脸识别方法、电子设备及存储介质
CN115147434A (zh) 图像处理方法、装置、终端设备及计算机可读存储介质
CN117765521A (zh) 车牌识别方法、电子设备及存储介质
CN113642353B (zh) 一种人脸检测模型的训练方法、存储介质及终端设备
CN114882449B (zh) 一种基于Car-Det网络模型的车辆检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant