CN115004263A - 人脸检测装置、方法和人脸解锁系统 - Google Patents
人脸检测装置、方法和人脸解锁系统 Download PDFInfo
- Publication number
- CN115004263A CN115004263A CN202080079565.7A CN202080079565A CN115004263A CN 115004263 A CN115004263 A CN 115004263A CN 202080079565 A CN202080079565 A CN 202080079565A CN 115004263 A CN115004263 A CN 115004263A
- Authority
- CN
- China
- Prior art keywords
- convolution
- face
- feature maps
- detector
- feature extractor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/162—Detection; Localisation; Normalisation using pixel segmentation or colour matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Biodiversity & Conservation Biology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种基于卷积神经网络的人脸检测设备。所述设备包括:前端特征提取器单元和后端检测器单元。所述前端特征提取器单元包括:基本特征提取器、多尺度特征提取器和深度特征提取器。所述基本特征提取器用于对输入灰度图像应用第一组卷积核以生成一组基本特征图。所述多尺度特征提取器用于对所述一组基本特征图应用第二组卷积核以生成多组中间特征图,所述多组中间特征图被连接在一起。所述深度特征提取器用于对连接层执行至少一卷积操作。所述后端检测器单元包括至少一个检测器,其输入来自于所述多尺度特征提取器或所述深度特征提取器。
Description
相关申请的交叉引用
本申请要求于2019年11月20日提交的申请号为No.62/938,205,标题为“人脸检测器在人脸解锁应用中的方法和系统”的美国临时申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及计算机视觉技术领域,尤其涉及一种人脸检测设备、一种人脸检测方法和一种人脸解锁系统。
背景技术
人脸检测一直是计算机视觉研究中最重要的课题之一,在人脸解锁、视频监控等日常应用中发挥着重要作用。
目前,大多数研究都集中在野外环境中,其中,人脸通常具有不同的尺度,很难检测到极小的人脸;人脸检测的研究主要集中在提高人脸检测准确度上,增加了昂贵的计算成本。然而,上述两种情况都不是人脸解锁的关注点。原因如下:1)人脸尺度与人脸解锁下的尺度不同;2)人脸解锁部署在移动设备上,计算能力非常有限。
发明内容
本申请提供了一种人脸检测设备、人脸检测方法和人脸解锁系统,能够实现良好的准确性,并且重量轻,易于部署在移动设备上。
本申请实施例提供了一种基于卷积神经网络的人脸检测设备。所述设备包括前端特征提取器单元和后端检测器单元。所述前端特征提取器单元包括基本特征提取器、多尺度特征提取器和深度特征提取器。所述基本特征提取器用于对输入灰度图像应用第一组卷积核,以生成一组基本特征图(feature map)。所述多尺度特征提取器用于将大小小于所述第一组卷积核的第二组卷积核应用于所述一组基本特征图,从而生成多组中间特征图。所述深度特征提取器用于对所述多组中间特征图执行至少一卷积操作。所述后端检测器单元包括至少一个检测器,其输入来自所述多尺度特征提取器或所述深度特征提取器。
本申请实施例提供了一种基于卷积神经网络的人脸检测方法。所述方法包括:对输入灰度图像应用第一组卷积核,以生成一组基本特征图;在所述一组基本特征图上应用第二组卷积核,所述第二组卷积核的大小小于所述第一组卷积核的大小,从而生成多组中间特征图;对所述多组中间特征图执行至少一个卷积操作,以生成一组深度特征图;以及基于所述多组中间特征图或所述一组深度特征图确定边界框分类和边界框回归。
本申请实施例提供了一种人脸解锁系统。所述系统包括:用于拍摄图像的红外摄像机;用于对拍摄的所述图像进行解码以形成灰度图像的图像解码设备;用于生成一组基本特征图、多组中间特征图和一组深度特征图,并输出边界框分类结果和边界框回归结果的人脸检测设备;以及用于基于所述边界框分类结果和所述边界框回归结果确定所述灰度图像是否对应于用于解锁的被授权人的人脸验证设备。
所述人脸检测设备、所述人脸检测方法和所述人脸解锁系统重量轻,易于部署在移动终端设备上,以及提高了人脸检测的准确性。
附图说明
为了更清楚地描述本申请的技术方案,下面对实施例描述中所需要使用的附图进行简单的介绍。显而易见地,以下描述中的附图仅示出了本申请的一些实施例,对于本领域技术人员来说,在不付出创造性劳动的前提下,可以根据这些附图获得其他附图。
图1示出了根据本申请实施例提供的人脸解锁系统的框图。
图2示出了根据本申请实施例提供的人脸检测设备的示意图。
图3示出了根据本申请实施例提供的基本特征提取器的示意图。
图4示出了根据本申请实施例提供的多尺度特征提取器的处理路径的示意图。
图5示出了根据本申请实施例提供的深度特征提取器的示意图。
图6示出了根据本申请实施例提供的后端检测器的示意图。
图7示出了根据本申请实施例提供的人脸检测方法的流程图。
具体实施方式
图中相同的附图标记表示相同的元件,并且为了说明,通过在适当的计算环境中实施来说明本申请的原理。以下描述基于本申请的示例性具体实施例,不应视为对本文未说明的其他实施例的限制。
本申请的原理使用具有通用或特定目的的许多其他计算系统、通信环境或配置来执行。适用于本申请的计算系统、环境和配置的众所周知的示例可以包括(但不限于)手持电话、个人计算机、服务器、多处理器系统、基于微型计算机的系统、主架构计算机和包括任何上述系统或设备的分布式计算环境。
下面将进行详细描述。
图1示出了人脸解锁系统10的结构示意图。人脸解锁系统10包括红外(InfraredRadiation,IR)摄像机11、图像解码设备12、人脸检测设备13和人脸验证设备18。
红外摄像机11采用红外传感器。红外传感器包括两部分,一个作为发射器的红外发光二极管(light-emitting diode,LED)和一个作为接收器的红外光电二极管。红外LED是一种特殊用途的LED,其发射红外线的波长范围为700nm-1mm。不同的红外LED可能会产生不同波长的红外光。红外LED可以由砷化镓或铝砷化镓制成。红外光电二极管对红外LED发出的红外光很敏感。光电二极管的电阻和输出电压与接收到的红外光成比例变化。这是红外传感器的基本工作原理。入射类型可以是直接入射或间接入射。在直接入射时,红外LED位于光电二极管的前面,且中间没有障碍物。在间接入射时,两个二极管并排放置,且传感器前面有不透明物体。红外LED发出的光照射到不透明物体的表面,反射回到光电二极管。
红外摄像机11用于拍摄物体的图像,即人脸。在本实施例中,拍摄的原始图像的大小可以是640×400,即宽度为640,高度为400。拍摄的原始图像的深度可能为12位。
当红外LED与红外结构光一起工作时,红外摄像机11可以构建3D图像。
红外摄像机11采用自动对焦技术,可以对焦人脸以捕捉清晰的人脸图像。
图像解码设备12用于对拍摄的原始图像进行灰度解码以形成灰度图像。灰度图像的每个像素都有一个像素值,范围从0到255。也就是说,解码的灰度图像可以表示为640×400大小的矩阵。
图像解码设备12可以以软件或硬件的方式实现。
图像解码设备12电连接在红外摄像机11和人脸检测设备13之间。从红外摄像机输出的拍摄的原始图像被输入到图像解码设备12。从图像解码设备12输出的解码的灰度图像可以输入到人脸检测设备13。
人脸检测设备13用于处理输入的灰度图像并输出检测结果。检测结果包括边界框(bounding box)分类结果和边界框回归结果。
边界框分类结果是指人脸分类结果,它包括两个维度,第一个维度表示是人脸的概率,第二个维度表示不是人脸的概率。
边界框回归结果是指边界框定位结果,它包括四个维度,第一个维度表示边界框左上角的x坐标偏移量,第二个维度表示边界框左上角的y坐标偏移量,第三个维度表示边界框右下角的x坐标偏移量,第四个维度表示边界框右下角的y坐标偏移量。
基于检测结果,可以预测输入图像是否包括人脸以及人脸所在的位置。检测结果可以输入到人脸验证设备18中,人脸验证设备18用于确定其是否对应于用于解锁的被授权人(authorized person)。
也就是说,人脸验证设备18可以获取被授权人的样本人脸图像,生成包括由检测设备13预测的人脸和被授权人的样本人脸的验证对,并确定所述验证对是否为正对(positive pair),其中,所述正对可对应于解锁指令。当检测设备13预测的人脸和样本人脸被确定属于同一个人时,验证对被视为肯定的。当检测设备13预测的人脸和样本人脸被确定不属于同一个人时,验证对被视为否定的。正对可以生成解锁指令,以指示解锁电子设备。同时,负对可能无法生成解锁指令,并且电子设备可能保持锁定。
人脸验证设备18还可与电子设备的安全模块连接,安全模块可接收解锁指令以解锁电子设备。
人脸验证设备18可以包括比较处理器和存储器,比较处理器用于执行前述验证过程,存储器用于存储样本人脸图像。此处可以理解的是,比较处理器和存储器也可以是外部设备,只是与人脸验证设备18进行信号连接。
图2示出了人脸检测设备13的框图。人脸检测设备13包括前端特征提取器单元14和后端检测器单元15。
前端特征提取器单元14包括基本特征提取器141、多尺度特征提取器143和深度特征提取器145,如图3所示。
基本特征提取器141用于提取输入灰度图像的基本特征。基本特征提取器141对输入灰度图像应用至少一个卷积操作(Conv)和至少一个池化操作(Pool)。
具体地,基本特征提取器141对输入灰度图像依序执行第一操作、第二操作、第三操作和第四操作。
第一操作是卷积操作,对输入灰度图像应用多个卷积核,该卷积核具有相对较大的核大小N×N和特定的步长L,从而生成第一组特征图,即多个卷积层。卷积核的数量表示为M,M等于第一组特征图中的特征图的数量。换句话说,卷积核的数量M定义了第一操作的输出通道的数量。第一组特征图中每个特征图的大小均小于输入灰度图像,第一组特征图的特征图的大小由核大小、步长和第一操作中的相应的填充值决定。
例如,N=7,L=4,M=24。有24个卷积核,核大小为7×7,步长为4,应用于输入灰度图像,从而生成24个卷积层,构成第一组特征图。也就是说,第一操作的输出通道的数量是24。假设填充值为0,即无填充,则第一组特征图中的每一个特征图的大小可能为149*99。应当注意的是,当特征图的计算大小不是整数时,计算大小可以在卷积操作中向下四舍五入。在其他实施例中,可以对输入灰度执行填充操作以生成整数大小的特征图,可以根据需要预设填充值。在这种情况下,第一组特征图的大小可能是其他值。
可以理解的是,具有不同大小和不同步长的卷积核可以应用于输入灰度图像,但本申请并不仅限于此。
在第一操作后,对第一组特征图执行第二操作。第二操作是池化操作,以减少特征图的大小和计算量。将具有特定大小C*C和特定步长O的池化过滤器应用于第一组特征图,以生成第二组特征图,即多个池化层。第二组特征图中的特征图的数量与第一组特征图的数量相同。第二组特征图中每个特征图的大小均小于第一组特征图中的特征图的大小,第二组特征图中的特征图的大小由第二操作中的池化过滤器大小、步长和相应的填充值确定。
例如,C=3,O=2。大小为3×3以及步长为2的池化过滤器应用于第一组特征图,从而生成由24个池化层构成的第二组特征图。假设填充值为0,则第二组特征图中的每个特征图的大小可能为74×49。应注意的是,当特征图的计算大小不是整数时,可在池化操作中对计算大小进行四舍五入。在其他实施例中,可以采用其他方式来生成整数大小的特征图。
池化操作可以是最大池化操作或平均池化操作,最大池化操作提取对应池化过滤器的最大值,而平均池化操作提取对应的池化过滤器的平均值。
在第二操作后,对第二组特征图执行第三操作。第三操作也是卷积操作。对输入的第二组特征图应用多个卷积核,卷积核具有相对较大的核大小P×P和特定的步长O,从而生成第三组特征图,即多个卷积层。此操作中应用的卷积核的数量表示为Q,Q等于此操作中输出通道的数量。第三组特征图的大小均小于第二组特征图的大小,第三组特征图的大小由第三操作中的核大小和步长决定。
例如,P=5,Q=64。有64个卷积核,其核大小为5×5以及步长为2,应用于第二组特征图,从而生成64个卷积层,构成第三组特征图。当在第三操作中假设填充值为1时,第三组特征图中的每一个都可能具有36×24的大小。应该注意的是,填充值不受限制,可以根据实际需要确定。此外,应用于第三组特征图的具有不同大小和不同步长的卷积核,以及第三操作中的输出信道的数量在本申请中也不受限制。
在第三操作后,对第三组特征图执行第四操作。第四操作是池化操作。将具有特定大小C×C和特定步长O的池化过滤器应用于第三组特征图,以生成第四组特征图,即多个池化层。
第四组特征图的特征图的数量与第三组特征图的数量相同。第四组特征图中每个特征图的大小均小于第三组特征图的大小,第四组特征图的特征图的大小由第四操作中的池化过滤器的大小和步长决定。
例如,大小为3×3以及步长为2的池化过滤器应用于第三组特征图,从而生成64个池化层以构成第四组特征图。第四组特征图的每个特征图的大小可能为18×12。应注意的是,当特征图的计算大小不是整数时,可在池化操作中对计算大小进行四舍五入。在其他实施例中,可以采用其他方式来生成整数大小的特征图。
池化操作可以是最大池化操作或平均池化操作。
需要注意的是,基本特征提取器141中应用的卷积核具有相对较大的大小。此外,在第一操作中应用的卷积核的大小大于在第三操作中应用的卷积核的大小。第二操作中应用的池化过滤器的大小与第四操作中应用的池化过滤器的大小相同。然而,卷积核的大小大于池化滤波器的大小。
在基本特征提取器141中,为了降低计算成本,输入图像被快速下采样。
例如,基于上面列出的应用在四个操作中的卷积核和池化过滤器的步长,下采样步长可以确定为32。因此,有效地降低了计算成本。
基本特征提取器141提取输入灰度图像并输出第四组特征图,并且第四组特征图被输入到多尺度特征提取器143。
图4示出了根据本申请实施例提供的多尺度特征提取器143的结构示意图。
多尺度特征提取器143用于对来自上一层的输入图像或输入特征图执行具有不同卷积核大小的多个卷积操作,从而获得不同的卷积特征图。多尺度特征提取器143还用于对来自每个处理路径的不同的卷积特征图执行连接操作(concatenating operation),从而生成和输出聚合特征图。
在本实施例中,多尺度特征提取器143定义了多个处理路径,以对来自前一层的输入图像或输入特征图执行不同的操作。每个处理路径包括至少一个卷积操作。
在一个实施例中,可以在每个处理路径中处理来自前一层的输入图像或输入特征图。每个处理路径的输出通道的数量相同。也就是说,处理路径以相同的通道数量输出不同的卷积特征图,因此,这些输出特征图可以被连接(concatenated),以进一步形成连接层(concatenated layer)。
在其他实施例中,可以在至少一个处理路径中选择性地处理来自前一层的输入图像或输入特征图,并输出从处理路径生成的卷积特征图。处理路径的选择可以由处理器指定,也可以是卷积神经网络(convolutional neural network,CNN)的自动选择。
多尺度特征提取器143中应用的卷积核的大小小于基本特征提取器141中应用的卷积核的大小。
例如,多尺度特征提取器143定义了四个处理路径。
第一个处理路径仅包括一个卷积操作。第一个处理路径使用多个1×1卷积核来限制(减少或增加)输出通道的数量。第一个处理路径中的1×1卷积核的数量表示为整数A,输入特征图的通道数量表示为整数B;如果A大于B,则在卷积操作之后增加通道数量;如果A小于B,则在卷积操作之后,减小通道数量。
将大小为1×1的卷积核应用于输入的第四组特征图,以生成第五组特征图。第五组特征图有A个输出通道。例如,A=32,第五组特征图由32个卷积层构成。
第二个处理路径依序包括池化操作和卷积操作。对输入的第四组特征图应用大小为C×C的池化过滤器,以生成第六组特征图;然后对第六组特征图应用大小为1×1以及数量为A的卷积核,生成由A个卷积层构成的第七组特征图。C是大于1的整数,例如C=3。
第三个处理路径包括两个卷积操作。对输入的第四组特征图应用大小为1×1以及数量为D的卷积核,以生成由D个卷积层构成的第八组特征图;然后,将大小为C×C以及数量为A的卷积核应用于第八组特征图,以生成由A个卷积层构成的第九组特征图。整数D可以小于整数A。D是小于A的整数,例如,D=24。
第四个处理路径包括三个卷积操作。对输入的第四组特征图应用大小为1×1以及数量为D的卷积核,以生成由D个卷积层构成的第十组特征图;将大小为C×C以及数量为A的卷积核应用于第十组特征图,以生成由A个卷积层构成的第十一组特征图;然后,将大小为C×C且数量为A的卷积核应用于第十一组特征图,以生成由A个卷积层构成的第十二组特征图。
第五组特征图、第七组特征图、第九组特征图和第十二组特征图被融合,从而集成为一个聚合特征图。可以在第五组特征图、第七组特征图、第九组特征图和第十二组特征图上应用连接操作(Concat),将这些组特征图融合以生成连接层作为聚合特征图,其由多尺度特征提取器143输出。
在其他实施例中,连接操作可以由加法(adding)操作代替。
多尺度特征提取器143还可以包括第一子提取器1431、第二子提取器、第三子提取器和特征融合模块。第一子提取器、第二子提取器、第三子提取器和特征融合模块的细节可参考上述操作,且不再在此重复。
多尺度特征提取器143中的操作不受限制,其他处理路径也可以在多尺度特征提取器143中定义,每个处理路径也可以定义其中的其他操作。应当注意的是,为了提高检测精度,在多尺度特征提取器143中应用了不同大小的卷积核(或滤波器)。
深度特征提取器145用于对从多尺度特征提取器143输出的聚合特征图执行至少一个卷积操作。换句话说,深度特征提取器145对聚合特征图应用至少一个卷积操作。具体地说,深度特征提取器145依序对聚合特征图执行四个卷积操作,即,第十三操作、第十四操作、第十五操作和第十六操作,如图5所示。
第十三操作将大小为1×1以及数量为E的卷积核应用于聚合特征图,从而生成由E个卷积层构成的第十三组特征图。第十四操作将大小为C×C以及数量为F的卷积核应用于第十三组特征图,从而生成由F个卷积层构成的第十四组特征图。E和F可以根据实际需求进行设置,在一些实施例中,F=2E。例如,E=128,F=256。第十五操作将大小为1×1以及数量为E的卷积核应用于第十四组特征图,从而生成由E个卷积层构成的第十五组特征图。第十六操作将大小为C×C以及数量为F的卷积核应用于第十五组特征图,从而生成由F个卷积层构成的第十六组特征图。
在深度特征提取器145中应用的卷积核的大小小于在基本特征提取器141中应用的卷积核的大小。
可以理解的是,深度特征提取器145还可以对从多尺度特征提取器143输出的聚合特征图执行其他操作。
后端检测器单元15包括至少一个检测器,其输入来自多尺度特征提取器143或深度特征提取器145。
在本实施例中,多个检测器分别应用于多个不同尺度的特征图上,以更好地检测不同尺度的人脸,从而提高检测精度。
检测器的数量可以是三个。也就是说,后端检测器单元15包括第一后端检测器151、第二后端检测器153和第三后端检测器155。第一后端检测器单元15与多尺度特征提取器143数据连接,换句话说,第一后端检测器151的输入来自于多尺度特征提取器143。第二后端检测器单元153和第三后端检测器155都与深度特征提取器145数据连接,换句话说,第二后端检测器153的输入来自于深度特征提取器145,第三后端检测器155的输入来自于深度特征提取器145。需要注意的是,第二后端检测器153和第三后端检测器155的输入来自于深度特征提取器145中的不同操作。
在一个实施例中,第一后端检测器151的输入可以来自于多尺度特征提取器143的连接操作的输出。在另一个实施例中,第一后端检测器151的输入还可以来自于第四个处理路径中最后的卷积操作。在其他实施例中,第一后端检测器151的输入还可以来自于任何处理路径的任何其他卷积操作。例如,从多尺度特征提取器143输出的聚合特征图可以输入到第一后端检测器151中。如图6所示,对输入特征图应用大小为C×C且数量分别为2和4的卷积滤波器,并输出具有2个值(即通道)的第一边界框分类结果和具有4个值的第一边界框回归结果。第一边界框分类结果的第一个值表示是人脸的概率,第一边界框分类结果的第二个值表示不是人脸的概率。在第一边界框回归结果中,第一个值表示边界框左上角的x坐标偏移量,第二个值表示边界框左上角的y坐标偏移量,第三个值表示边界框右下角的x坐标偏移量,第四个值表示边界框右下角的y坐标偏移量。
第二后端检测器153的输入可以来自于深度特征提取器145的第十四操作的输出。在其他实施例中,第二后端检测器153的输入还可以来自于深度特征检测器155的另一操作。对输入特征图(即第十四组特征图)应用大小为C×C、数量分别为2和4的卷积滤波器,并输出具有2个值(即通道)的第二人脸分类结果和具有4个值的第二边界框定位结果。
第三后端检测器155的输入可以来自于深度特征提取器145的第十六操作的输出。在其他实施例中,第三后端检测器155的输入也可以来自于深度特征检测器155的另一操作。对输入特征图(即第十六组特征图)应用大小为C×C、数量分别为2和4的卷积滤波器,并输出具有2个值(即通道)的第三人脸分类结果和具有4个值的第三边界框定位结果。
C是大于1的整数,例如C=3。
三个检测器151、153和155分别应用于三种不同尺度的特征图,以更好地检测不同尺度的人脸,从而达到提高检测精度的目的。
此处可以理解的是,整个输入灰度图像中人脸的面积比可能不同。在一些灰度图像中,人脸可能在整个灰度图像中占据相对较大的比例;在其他一些灰度图像中,人脸可能在整个灰度图像中占据相对较小的比例。人脸特征可以在不同深度的不同卷积层中提取和反映。因此,检测器151、153和155中的至少一个是用于预测的最准确的检测器。在训练CNN后,CNN可以自动确定哪个检测器是最准确的检测器,并使用确定的检测器进行预测。
例如,当人脸与整个输入灰度图像的面积比在第一范围内时,CNN自动确定第一后端检测器151是用于输出检测结果的最准确的检测器。当人脸与整个输入灰度图像的面积比在第二范围内时,CNN自动确定第二后端检测器153是用于输出检测结果的最准确的检测器。当人脸与整个输入灰度图像的面积比在第三范围内时,CNN自动确定第三后端检测器155是用于输出检测结果的最准确的检测器。第一范围大于第二范围,第二范围大于第三范围。例如,第一范围是99%-70%,第二范围是69%-40%,第三范围是39%-10%。
在另一个实施例中,后端检测器单元15还包括判断模块,当三个检测结果中的一个与另一检测结果不同时,判断模块用于判断采用和输出哪个检测结果。
在另一个实施例中,后端检测器单元15还包括融合模块,所述融合模块用于当三个检测结果中的一个检测结构与另一检测结果不同时,融合三个检测结果并输出融合结果。具体地,每个后端检测器151、153和155可对应于一个分配的权重,该权重可在训练之后根据各自的预测准确度进行分配。
人脸检测设备13的单元和模块可以通过硬件或软件独立或集成地实现。人脸检测设备13的实现不限于此。
申请人在红外人脸数据集上评估性能,该数据集包括:1763000张红外人脸图像。35500张图像用于训练,所有人脸图像用于评估。目前,就计算成本而言,参数大小为90万,乘法器加法计数为1.6亿,估计在骁龙(snapdragon)845上使用HVX(“Hexagon矢量扩展”,Hexagon-六边形、Vector-矢量、Extensions-扩展)运行10毫秒。漏检率为0.06%,其远低于最先进的SSH(Single Stage Headless)人脸检测仪的漏检率1.87%。
图7示出了基于卷积神经网络的人脸检测方法的流程图。该方法包括以下步骤。
S101,对输入灰度图像应用第一组卷积核,以执行至少一个卷积操作,从而生成一组基本特征图。
S102,对所述一组基本特征图应用第二组卷积核,其大小小于所述第一组卷积核的大小,从而生成多组中间特征图。所述多组中间特征图被连接形成连接层。
S103,对所述连接层执行至少一个卷积操作,从而生成一组深度特征图。
S104,基于所述多组中间特征图或所述一组深度特征图,确定边界框分类和边界框回归。
这些步骤和操作可以基于卷积神经网络执行,具体来说,可以基于上述人脸检测设备13执行。因此,细节不再重复。
人脸检测设备13、人脸检测方法和人脸解锁系统10重量轻,易于部署在移动终端设备上,以及提高了人脸检测的准确性。
本文通过具体示例来说明本申请的原理和实现方式,上述示例的描述仅用于帮助理解本申请。同时,对于本领域技术人员来说,根据本申请的精神,其具体实施方式和公开范围会有所变化。总之,本说明书的内容不应被解释为对本申请的限制。
Claims (20)
1.一种基于卷积神经网络的人脸检测设备,其特征在于,包括:
前端特征提取器单元,包括:
基本特征提取器,用于对输入灰度图像应用第一组卷积核以生成一组基本特征图;
多尺度特征提取器,用于对所述一组基本特征图应用第二组卷积核以生成多组中间特征图,所述第二组卷积核的大小小于所述第一组卷积核的大小,所述多组中间特征图连接形成连接层;和
深度特征提取器,用于对所述连接层执行至少一卷积操作;以及
后端检测器单元,包括至少一个检测器,所述至少一个检测器的输入来自于所述多尺度特征提取器或所述深度特征提取器。
2.根据权利要求1所述的设备,其特征在于,所述第一组卷积核包括:第一类卷积核和第二类卷积核,所述第一类卷积核的大小为N×N,所述第二类卷积核的大小为P×P,N大于P。
3.根据权利要求2所述的设备,其特征在于,P是大于或等于5的整数。
4.根据权利要求1所述的设备,其特征在于,所述基本特征提取器用于执行至少一卷积操作和至少一池化操作。
5.根据权利要求1所述的设备,其特征在于,所述基本特征提取器用于依次执行第一操作、第二操作、第三操作和第四操作,所述第一操作和所述第三操作为卷积操作,所述第二操作和所述第四操作为池化操作。
6.根据权利要求1所述的设备,其特征在于,所述基本特征提取器的下采样步长大于或等于32。
7.根据权利要求2所述的设备,其特征在于,所述第二组卷积核包括:第三类卷积核和第四类卷积核,所述第三类卷积核的大小为C×C,所述第二类卷积核的大小为1×1,C大于1且小于P。
8.根据权利要求1所述的设备,其特征在于,所述多尺度特征提取器包括:多个处理路径和一连接操作,所述多个处理路径用于在所述一组基本特征图上应用不同大小的卷积核以生成不同尺度的多组特征图,所述连接操作用于连接所述不同尺度的多组特征图以生成所述连接层。
9.根据权利要求8所述的设备,其特征在于,每个所述处理路径包括1×1卷积操作。
10.根据权利要求1所述的设备,其特征在于,所述至少一个检测器包括第一后端检测器和第二后端检测器,所述第一后端检测器的输入来自于所述多尺度特征提取器,所述第二后端检测器的输入来自于所述深度特征提取器。
11.根据权利要求1所述的设备,其特征在于,所述深度特征提取器包括至少两个卷积操作;其中,所述至少一个检测器包括第一后端检测器、第二后端检测器和第三后端检测器,所述第一后端检测器的输入来自于所述多尺度特征提取器,所述第一后端检测器用于输出第一检测结果,所述第二后端检测器的输入来自于所述深度特征提取器的一个卷积操作,所述第二后端检测器用于输出第二检测结果,所述第三后端检测器的输入来自于所述深度特征提取器的另一个卷积操作,所述第三后端检测器用于输出第三检测结果。
12.根据权利要求11所述的设备,其特征在于,所述卷积神经网络用于在训练后自动确定哪个检测器是最准确的检测器,并且所述后端检测器单元用于输出所述最准确的检测器的所述检测结果。
13.根据权利要求11所述的设备,其特征在于,当人脸相对于整个所述输入灰度图像的面积比在第一范围内时,所述第一后端检测器被确定为所述最准确的检测器,并输出所述第一检测结果;当所述人脸相对于整个所述输入灰度图像的面积比在第二范围内时,所述第二后端检测器被确定为所述最准确的检测器,并输出所述第二检测结果;当所述人脸相对于整个所述输入灰度图像的面积比在第三范围内时,所述第三后端检测器被确定为所述最准确的检测器,并输出所述第三检测结果。
14.根据权利要求13所述的设备,其特征在于,所述第一范围大于所述第二范围,以及所述第二范围大于所述第三范围。
15.根据权利要求11所述的设备,其特征在于,所述后端检测器单元还包括判断模块,所述判断模块用于当所述第一检测结果、所述第二检测结果和所述第三检测结果不同时,判断输出哪个检测器的检测结果。
16.根据权利要求11所述的设备,其特征在于,所述后端检测器单元还包括融合模块,所述融合模块用于当所述第一检测结果、所述第二检测结果和所述第三检测结果不同时,融合所述第一检测结果、所述第二检测结果和所述第三检测结果,并输出融合结果。
17.一种基于卷积神经网络的人脸检测方法,其特征在于,包括:
对输入灰度图像应用第一组卷积核,以生成一组基本特征图;
对所述一组基本特征图应用第二组卷积核,以生成多组中间特征图,其中,所述第二组卷积核的大小小于所述第一组卷积核的大小,所述多组中间特征图连接形成连接层;
对所述连接层执行至少一卷积操作,以生成一组深度特征图;以及
基于所述连接层或所述一组深度特征图,确定边界框分类和边界框回归。
18.一种人脸解锁系统,其特征在于,包括:
红外摄像机,用于拍摄图像;
图像解码设备,用于对拍摄的所述图像进行解码以形成灰度图像;
人脸检测设备,用于生成一组基本特征图、多组中间特征图以及一组深度特征图,并输出边界框分类结果和边界框回归结果;和
人脸验证设备,用于基于所述边界框分类结果和所述边界框回归结果确定所述灰度图像是否对应于用于解锁的被授权人。
19.根据权利要求18所述的系统,其特征在于,所述人脸验证设备用于:
获取所述被授权人的样本人脸图像,
生成包括由所述人脸检测设备预测的人脸和所述样本人脸图像中的样本人脸的验证对;以及
确定所述验证对是否为正对,其中所述正对对应于解锁指令。
20.根据权利要求19所述的系统,其特征在于,所述人脸验证设备用于:
当所述人脸检测设备预测的所述人脸和所述样本人脸图像中的所述样本人脸属于同一所述被授权人时,确定所述验证对为所述正对。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962938205P | 2019-11-20 | 2019-11-20 | |
US62/938,205 | 2019-11-20 | ||
PCT/CN2020/130219 WO2021098799A1 (en) | 2019-11-20 | 2020-11-19 | Face detection device, method and face unlock system |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115004263A true CN115004263A (zh) | 2022-09-02 |
Family
ID=75981364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080079565.7A Pending CN115004263A (zh) | 2019-11-20 | 2020-11-19 | 人脸检测装置、方法和人脸解锁系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220351491A1 (zh) |
EP (1) | EP4058933A4 (zh) |
CN (1) | CN115004263A (zh) |
WO (1) | WO2021098799A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200067631A (ko) * | 2018-12-04 | 2020-06-12 | 삼성전자주식회사 | 영상 처리 장치 및 그 동작방법 |
CN114049518A (zh) * | 2021-11-10 | 2022-02-15 | 北京百度网讯科技有限公司 | 图像分类方法、装置、电子设备和存储介质 |
CN115601819B (zh) * | 2022-11-29 | 2023-04-07 | 四川大学华西医院 | 基于多模态暴力倾向识别方法、装置、设备及介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5517504B2 (ja) * | 2009-06-29 | 2014-06-11 | キヤノン株式会社 | 画像処理装置、画像処理方法、およびプログラム |
CN107209864B (zh) * | 2015-01-27 | 2018-03-30 | 北京市商汤科技开发有限公司 | 人脸识别方法和装置 |
US10354159B2 (en) * | 2016-09-06 | 2019-07-16 | Carnegie Mellon University | Methods and software for detecting objects in an image using a contextual multiscale fast region-based convolutional neural network |
CN106599797B (zh) * | 2016-11-24 | 2019-06-07 | 北京航空航天大学 | 一种基于局部并行神经网络的红外人脸识别方法 |
WO2018120013A1 (en) * | 2016-12-30 | 2018-07-05 | Nokia Technologies Oy | Artificial neural network |
CN107403141B (zh) * | 2017-07-05 | 2020-01-10 | 中国科学院自动化研究所 | 人脸检测方法及装置、计算机可读存储介质、设备 |
CN108765279A (zh) * | 2018-03-19 | 2018-11-06 | 北京工业大学 | 一种面向监控场景的行人人脸超分辨率重建方法 |
CN109919013A (zh) * | 2019-01-28 | 2019-06-21 | 浙江英索人工智能科技有限公司 | 视频图像中基于深度学习的人脸检测方法及装置 |
CN110097673A (zh) * | 2019-05-17 | 2019-08-06 | 北京深醒科技有限公司 | 一种基于红外摄像头下的门禁识别方法 |
-
2020
- 2020-11-19 EP EP20890449.0A patent/EP4058933A4/en active Pending
- 2020-11-19 CN CN202080079565.7A patent/CN115004263A/zh active Pending
- 2020-11-19 WO PCT/CN2020/130219 patent/WO2021098799A1/en unknown
-
2022
- 2022-05-19 US US17/748,813 patent/US20220351491A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2021098799A1 (en) | 2021-05-27 |
EP4058933A4 (en) | 2022-12-28 |
EP4058933A1 (en) | 2022-09-21 |
US20220351491A1 (en) | 2022-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115004263A (zh) | 人脸检测装置、方法和人脸解锁系统 | |
CN105933589B (zh) | 一种图像处理方法及终端 | |
EP3816929B1 (en) | Method and apparatus for restoring image | |
CN106295502B (zh) | 一种人脸检测方法及装置 | |
JP6305171B2 (ja) | シーン内の物体を検出する方法 | |
US20140023279A1 (en) | Real Time Detecting and Tracing Apparatus and Method | |
CN101576953A (zh) | 一种人体姿态的分类方法和装置 | |
CN105654067A (zh) | 一种车辆检测方法及装置 | |
CN106524909B (zh) | 三维图像采集方法及装置 | |
KR102476022B1 (ko) | 얼굴검출 방법 및 그 장치 | |
CN111598065B (zh) | 深度图像获取方法及活体识别方法、设备、电路和介质 | |
KR101941878B1 (ko) | 무인항공기 영상 자동 기하보정을 위한 처리시스템 | |
CN105787429B (zh) | 采用机器视觉用于检查物体的方法和设备 | |
US20160247286A1 (en) | Depth image generation utilizing depth information reconstructed from an amplitude image | |
CN113743521B (zh) | 一种基于多尺度上下文感知的目标检测方法 | |
Satish et al. | Hardware implementation of template matching algorithm and its performance evaluation | |
CN103841340A (zh) | 图像传感器及其运作方法 | |
KR101515308B1 (ko) | 얼굴 자세 추정 장치 및 그 방법 | |
CN111178178B (zh) | 结合区域分布的多尺度行人重识别方法、系统、介质及终端 | |
Ye et al. | GBForkDet: A lightweight object detector for forklift safety driving | |
EP3494545B1 (en) | Methods and apparatus for codeword boundary detection for generating depth maps | |
KR100837244B1 (ko) | 자동차 번호판의 영상 인식 시스템 및 그 방법 | |
CN116310669A (zh) | 基于多模态特征提取网络的目标检测方法、系统及设备 | |
CN106101542B (zh) | 一种图像处理方法及终端 | |
CN113489925B (zh) | 一种实现卷积计算的焦平面探测器读出电路 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |