CN115546906A - 检测图像中人脸活度的系统和方法及电子设备 - Google Patents
检测图像中人脸活度的系统和方法及电子设备 Download PDFInfo
- Publication number
- CN115546906A CN115546906A CN202211110077.5A CN202211110077A CN115546906A CN 115546906 A CN115546906 A CN 115546906A CN 202211110077 A CN202211110077 A CN 202211110077A CN 115546906 A CN115546906 A CN 115546906A
- Authority
- CN
- China
- Prior art keywords
- image
- face
- labeling
- activity
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000000694 effects Effects 0.000 title claims description 38
- 238000001514 detection method Methods 0.000 claims abstract description 50
- 230000011218 segmentation Effects 0.000 claims abstract description 42
- 230000001815 facial effect Effects 0.000 claims abstract description 12
- 238000002372 labelling Methods 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 14
- 239000003086 colorant Substances 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 2
- 238000007689 inspection Methods 0.000 claims 2
- 230000006870 function Effects 0.000 abstract description 9
- 238000013528 artificial neural network Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 241001351225 Sergey Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 235000007215 black sesame Nutrition 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000013186 photoplethysmography Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/40—Spoof detection, e.g. liveness detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/40—Spoof detection, e.g. liveness detection
- G06V40/45—Detection of the body part being alive
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像检测系统和方法及电子设备。该技术涉及面部属性识别领域。该技术可以识别图像中的人脸为真实的或具有欺骗性的。本申请提供的系统和方法包括:识别面部属性和利用多任务学习网络。神经网络包括分割功能和分类功能。最终输出结果用于获取像素级语义信息和高级特征信息。
Description
技术领域
本申请涉及人脸活度检测的系统和方法,其旨在使提取面部属性更为便利以确定所呈现的面部是真实的还是欺骗性的。更具体地说,本申请旨在提供一种新的人脸反欺骗多任务学习网络,将分割任务与分类任务相结合,以进行人脸图像的活度检测。
背景技术
基于图像的人脸反欺骗是指仅将三原色(Red Green Blue,RGB)图像作为输入而无需深度或热量等额外信息的人脸反欺骗技术。在过去的工作中,如“Blacksesame”提出的“基于深度神经网络的RGB-近红外(Near Infrared Ray,NIR)双摄像头人脸反欺骗系统”所提到的,基于多传感器的方法在人脸反欺骗上可以达到很好的性能表现。现有的基于图像的人脸反欺骗方法可以分为两类:传统方法和基于深度学习的方法。
最近,深度学习方法,尤其是卷积神经网络(Convolution Neural Network,CNN),已经在人脸反欺骗研究中得到了利用,并且如Yaojie Liu在“计算机视觉和模式识别”中提到的,一些已公开的CNN成果总体上性能优于传统方法。此外,由Lei Li和KeyurkumarPatel提出的“具有鲁棒特征表示的跨数据库人脸反欺骗”方法利用预训练的快速特征嵌入卷积结构网络(Convolutional Architecture for Fast Feature Embedding Network,CaffeNet)或二维物体识别(Visual Geometry Group,VGG)人脸模型作为特征提取器来区分活体人脸和欺骗人脸。
此外,Sergey Tulyakov在“现实条件下从面部视频中进行心率估计的自适应矩阵补全”中利用了多个空间尺度来对活体图像和欺骗图像进行分类。还有一些附加信息,例如远程照片体积描记法和欺骗噪声等已被开发。
J.Yang在“用于人脸反欺骗的学习卷积神经网络”中提出使用从原始帧中裁剪出的不同比例的图像堆栈作为CNN模型的输入。此外,Z.Xu在“使用长短期记忆(Long ShortTerm Memory,LSTM)CNN架构学习暂态特征用于人脸反欺骗”中提出通过LSTM CNN网络利用帧之间的暂态特征。Y.Atoum在“使用基于补丁和深度的卷积神经网络进行人脸反欺骗”中提出使用全卷积神经网络来估计输入的人脸图像的深度,然后将生成的深度图馈入支持向量机(support vector machine,SVM)以区分活体人脸和欺骗人脸。
另一个现有技术为美国专利8856541提供的一种通过利用图形用户界面(Graphical User Interface,GUI)来检测图像中的活度的技术。该专利中的系统利用GUI元素来提供用于基于面部的第一和第二图像检测人的眼睛运动的挑战模式。虽然此现有技术提供了全面的分析并给出了准确的结果,但是在仅提供单个图像的情况下仍然无法检测活度。
尽管上述相关技术的性能相对于传统方法有所进步,但是对于实际应用来说,它们的检测精度和对外部干扰变量的鲁棒性仍然不太令人满意。此外,所有参考文献都解决了活度检测问题,但是都没有公开分割引导的反欺骗分类网络,因此具有局限性。
因此,为了克服上述参考文献的局限性,本申请提出了一种将分割任务与分类任务相结合的新的人脸反欺骗多任务学习网络。此外,本申请的系统包括对现有技术的以下创新。
·一种新的用于人脸反欺骗的多任务学习网络。
·一种用于人脸反欺骗任务的多尺度注意力输入解决方案。
·一种主任务和副任务的决策融合方案。
本申请旨在提供一种对识别图像中人脸活度的改进。本申请提供了一种多任务学习网络,命名为分割引导的人脸反欺骗分类网络。
显然,在现有技术中开发了适合各种目的的多种方法和系统。然而,尽管这些申请可能适用于它们所针对的特定目的,但是不适用于如前所述的本申请的目的。因此,需要一种先进的图像检测系统来检测图像的活度。
发明内容
本申请提供了一种用于面部图像的活体检测的系统和方法,利用面部属性来确定所呈现的面部是真实的还是虚假。本申请提供了一种新颖的人脸反欺骗多任务学习网络。此外,学习网络将分割任务与分类任务相结合,进行人脸图像的活度检测。并且本申请的系统包括如下所述的多个的基本要素,以实现检测输入图像的人脸是真还是假的目标。
人脸检测模块,用于处理和缩放输入图像以生成特征图。其中,输入图像缩放通常用于根据需求提取少量或多个面部属性。
分割引导的反欺骗分类网络,用于执行图像的分割和分类。
融合模块,用于结合分割模块和分类模块的结果来识别人脸图像的活度。
本申请的主要目的是提供一种利用分割模块和分类模块的多任务学习网络,以及进行人脸图像中的活度检测的系统。
人脸检测模块接收输入图像以处理和识别感兴趣区域(Region of Interest,ROI)。人脸检测模块识别面部并通过边界框突出显示面部。对被识别的面部进行缩放以重新缩放图像来识别详细的面部属性。此外,人脸检测模块还获取面部区域和面部部分之外的信息。
分割模块提取像素级语义信息。每个像素的准确语义信息通过对图像进行标注来获取。使用四种标签对活体图像和欺骗图像在像素级别进行标注,这些标注是像素级别图像的彩色表示,用于在像素级别识别图像的某些属性。分割模块在分割每个像素后对欺骗像素和活体像素的数量进行计数。
分类模块从输入图像中提取高级特征信息。执行概率确定操作以检测特征是否属于欺骗的或活体的。此外,概率估计是通过softmax函数实现的。
本申请的另一目的在于提供一种分割模块,用作辅助模块以收集最终结果。
本申请的又一目的在于提供一种分类模块和融合模块。分类模块确定一个概率值,融合模块将分割模块的结果与分类模块的结果融合。分类模块和融合模块仅在分割模块未能检测到图像的活度时才被应用。
本申请的再一个目的是提供一种标注单元,用于根据定义的色板将单独的颜色标注到面部、前景区域和背景区域。
本申请的再一个目的是提供基于真人脸、假人脸、真前景、假前景、真背景和假背景的标注。此外,标注单元生成图像的特征图。
然而,本申请的再一个目的是提供一种解码头以获取携带局部和全局上下文信息的特征表示。
本申请的其他目的和方面将体现在以下结合附图的详细描述中,这些附图示出了根据本申请实施例的特征。
为了实现上述和相关的目的,本申请可以以附图中所示的形式实施,但是要注意以下事实,附图仅是说明性的,并且可以在所附权利要求的范围内说明和描述的具体结构上进行改变。
尽管以上根据各种示例性实施例和实施方式描述了本申请,但是应当理解,在一个或多个单独实施例中描述的各种特征、方面和功能在适用性上并不限于所描述的特定实施例,还可以单独或以各种组合被应用到本申请的其他实施例中的一个或多个,无论这些实施例是否被描述以及这些特征是否被呈现为一部分描述的实施例。因此,本申请的广度和范围不应受到任何上述示例性实施例的限制。
某些示例中的诸如“一个或多个”、“至少”、“但不限于”或其他类似的扩大词和短语不应被理解为在不存在此类扩大词的情况下意指或需要较窄的情况。
附图说明
本申请的目的和特征将结合附图从以下描述和所附权利要求中得到全面的展示。应该理解的是,这些附图仅描绘了本申请的典型实施例并且因此不应被视为限制其范围。本申请将通过下述附图结合附加的特征和细节来进行描述和解释。
图1A示出了根据本申请的第一种情况下的一种图像检测系统。
图1B示出了根据本申请在第二种情况下的一种图像检测系统。
图2示出了根据本申请的一种图像检测系统的人脸检测模块。
图3示出了根据本申请的一种图像检测系统的分割模块。
图4示出了根据本申请的分割引导的人脸反欺骗分类网络的概况。
图5示出了根据本申请在像素级用四种标签标注活体和欺骗图像。
图6示出了根据本申请的用于多尺度生成的数据预处理。
图7示出了根据本申请的一种检测图像中的活度的方法。
图8示出了根据本申请的级联结果融合流程示意图。
图9示出了根据本申请的一示例性实施例提供的电子设备的结构示意图。
具体实施方式
人脸活体检测是计算机视觉中的一项重要任务,旨在使人脸交互系统能够确认呈现的人脸是真实的还是欺骗性的。随着手机解锁、门禁和电子钱包支付的成功应用,面部交互系统已经成为现实世界中不可或缺的一部分。然而,这些面部交互系统构成了重大威胁。想象一下,攻击者拥有您的照片或视频,可以解锁您的手机,甚至可以使用电子钱包付款。因此,人脸活体检测已成为保护我们的隐私和财产免遭他人非法使用的一项重要技术。
通常,非法攻击的来源主要包括打印照片、屏幕图像或视频、超逼真的面罩或授权客户端的三维模型。在这些类型的攻击中,最灵活的攻击是从互联网获取的打印照片或屏幕图像。
图1A图示了根据本申请的第一种情况下的一种检测图像中的活度的图像检测系统。图像检测系统100包括人脸检测模块200和分割模块300。人脸检测模块200包括处理单元、缩放单元和标注单元。
处理单元被配置为处理图像以识别感兴趣区域。缩放单元对图像中的感兴趣区域进行缩放以识别至少一个面部特征并生成第一图像。
标注单元被配置为从多个定义颜色中的标注单个颜色。将第一颜色标注到第一图像中的面部,将第二颜色标注到第一图像的前景区域并且将第三颜色标注到第一图像的背景区域以生成第二图像。标注单元根据前景区域和背景区域的活度来分配颜色。
分割模块300,用于提取第一图像上的像素级语义信息并生成第二图像,其中分割模块被配置为对第一图像的活体像素和欺骗像素的数量进行计数。如果分割模块未能检测到视频的活度,则使用分类模块。
此外,人脸检测模块200进行面部检测并生成边界框。分割模块300从图像中提取特征表示。特征表示携带局部和全局上下文信息。此外,每个像素的预测是从分割头中的最后一个卷积层获得的。
分割引导的人脸反欺骗分类网络,其主干是卷积层与池化层和激活层的级联,用于获取每个块的特征。然后使用解码头(也称为分割头)得到最终的特征表示,最终的特征表示携带局部和全局上下文信息。最后,从解码头中的最后一个卷积层获得最终的每个像素的预测结果。并且特征图也被输入到分类头,分类头由一个卷积层和完全连接层组成,得到最终的特征表示,并通过soft-max函数得到最终的活体/欺骗概率。
图1B图示了根据本发明的第二种情况下用于检测图像中的活度的图像检测系统。分割引导分类图像检测系统100B包括人脸检测模块200、分割模块300、分类模块400和融合模块500。人脸检测模块200进行人脸检测并生成边界框。
分割模块300从携带局部和全局上下文信息的图像中提取特征表示。此外,每个像素的预测结果是从分割头中的最后一个卷积层获得的。分类模块400是具有一个卷积层和完全连接层的分层架构。将特征图输入到分类模块400以获得最终的特征表示并使用soft-max函数获得最终的活体/欺骗概率。融合模块500验证活体/欺骗的概率,同时活体/欺骗的概率还会用于第二次验证。
分类模块,用于提取第二图像上的高级特征信息并生成第三图像,其中,分类模块被配置为估算高级特征属于活体或欺骗的概率。融合模块用以将第二图像与第三图像进行融合以检测图像的活度。
近几十年来,作为分类表示的补充,基于物体、人脸和场景的属性表示的研究引起了广泛关注。然而,很少有人尝试在人脸反欺骗中使用语义信息。实际上,对于人脸反欺骗来说,可以利用附加的语义信息通过属性来表征目标图像,而不是将其区分为单一类别,即活体的或欺骗的。在本文中,本申请设计了一个多任务学习网络,命名为分割引导的人脸反欺骗分类网络,如图1所示。
主干是多个卷积层与池化层和激活层级联的合并,其中存在分割头,也称为解码头,以逐块解码面部特征表示,最后从分割或解码头中的最后一个卷积层中获取包含每个像素预测的最终特征。
根据要求,还可以通过分类头进一步分析获得的特征图,该分类头采用分层架构的形式,包含所讨论的一个卷积层和完全连接层,以获得更详细的图像概率估计,其中soft-max函数用于获得欺骗和活体像素的最终概率。
分割网络为了获得每个像素的准确的语义信息,在像素级别使用四个标签对活体图像和欺骗图像进行标注。黄色表示假人脸,绿色表示假前景,蓝色表示假背景。另外,红色表示真人脸,紫色表示真前景,黑色表示真背景。
为了更加关注人脸区域,输入图像通过常规人脸检测模型进一步处理得到人脸边界框,并将其重新放大以获得更多特征。边缘信息包含在重新缩放的边界框中。
学习网络在进行推理时输出两个结果,一个是分割任务的输出,将输入图像的每个像素分割为1)真人脸/前景像素,2)假人脸/前景像素,3)真背景像素和4)假背景像素。真人脸像素和假人脸像素的数量将被统计并用于计算真人脸的概率。另一个结果为活体/欺骗概率,是分类任务的输出。通过下述应用公式(1)得到最终的预测结果。
Pl=α∑Psl/(∑Psl+∑Pss)+βPcl
在公式(1)中:Pl表示最终结果属于“活体”类型的概率,∑Psl和∑Pss分别表示输出分割图中真人脸和假人脸像素的总数。Pcl表示来自分类头的“活体”类型的概率。α和β分别表示分割结果和分类结果的权重。(默认α=β=0.5)
首先验证来自分割网络的活体概率或欺骗概率,如果满足条件,则输出最终结果,否则,使用活体/欺骗概率进行第二次验证。融合模块融合来自分割模块和分类模块的输出来检测图像的活度。
图2示出了根据本发明的图像检测系统的人脸检测模块。从常规人脸检测模块200获得重新缩放的边界框。此外,获得人脸区域和人脸部分之外的信息。
人脸检测模块包括处理单元202、缩放单元204和标注单元206。处理单元202对输入图像进行处理。完成该处理是为了生成一个边界框。生成了边界框后,缩放单元执行注意力缩放204以将图像重新缩放为更大的图像以获得更多特征。
为了获得每个像素的准确语义信息,系统使用了标注单元206。标注单元分别用不同的颜色标注人脸、前景区域和背景区域。
第一颜色被标注到图像中的面部,第二颜色被标注到前景区域并且第三颜色被标注到第一图像的背景区域以生成第二图像。标注单元根据前景区域和背景区域的活度来分配颜色。
为了获得每个像素的准确语义信息,在像素级别使用四种标签对活体图像和欺骗图像进行标注。黄色表示假人脸,绿色表示假前景,蓝色表示假背景。此外,红色表示真人脸;紫色表示真前景,黑色表示真背景。
图3示出了分割模块300的内部组件。分割模块将输入图像的每个像素分割成1)真人脸/前景像素,2)假人脸/前景像素,3)真背景像素和4)假背景像素。
分割模块包括提取器单元302和计数器单元304。提取器单元302从特征图的每个块中提取特征。像素级语义信息由分割模块300提取。计数器单元304分别统计欺骗像素和活体像素的数量来预测识别结果以检测图像的活度。
图4示出了根据本发明的分割引导的人脸反欺骗分类网络的概况。输入图像402被输入到网络。该网络包括一个主干404,它是卷积层与池化层412和激活层的级联。主干(具有卷积层与池化层和激活层的级联)用于获取每个块的特征。然后使用解码头(也称为分割头)得到最终的特征表示,最终的特征表示携带局部和全局上下文信息。
应用来自每个块的特征以获得最终特征表示。每个像素的预测是从分割头或解码头中的最后一个卷积层获得的。如此获得的特征图被馈送到由一个卷积层和完全连接层组成的分类头406,以获得最终的特征表示,并使用softmax函数获得欺骗/活体的概率。
图5示出了根据本发明在像素级用四种标签标注活体图像和欺骗图像。分割模块,为了获得每个像素的准确语义信息,在像素级别使用四种标签对活体图像和欺骗图像进行标注。
如图5,左真实图像502和左特征图像504中,黄色表示假人脸,绿色表示假前景,蓝色表示假背景。在右真实图像506和右特征图像508中,红色表示真人脸,紫色表示真前景,黑色表示真背景。
图6图示了根据本发明的用于多尺度生成的数据预处理。为了更加关注人脸区域,将输入图像通过常规的人脸检测模型进行处理,得到人脸边界框。边缘信息包含在重新缩放的边界框中。
输入图像602被呈现给面部检测模块600以获得面部边界框604执行注意力缩放606以将其重新缩放为较大的一个或较小的一个图像608以获得更多特征。
图7示出了根据本发明的检测图像的活度的方法。在步骤702,输入图像被呈现给人脸检测模块,人脸检测模块通过在图像周围创建边界框来识别感兴趣区域,并且缩放单元重新缩放图像以获得更大和更多的特征。
在步骤704,对人脸检测模块检测到的图像进行标注生成特征图。特征图是根据标注而生成的,黄色表示假人脸,绿色表示假前景,蓝色表示假背景,红色代表真人脸,紫色代表真前景,黑色代表真背景。
接下来,在步骤706,分割模块从特征图中提取像素级语义信息。提取器单元从特征图中提取像素,计数器单元计算欺骗和活体像素的数量以生成第一结果。在这种情况下,不使用分类模块。
如果需要提取高级特征信息,则会使用分类模块。此外,在步骤708,计算特征属于欺骗或活体的概率以生成第二结果。
最后,在步骤710,融合模块将第一结果与第二结果结合以检测图像的活度。
图8示出了根据本发明的级联结果融合流程图。输入图像802由编码器804编码。然后,呈现给分割解码器806和分类解码器816。计算活体/欺骗概率(1)808,如果结果令人满意,则执行第一阶段验证810。稍后,该输出成为最终结果,否则分类解码器816计算活体/欺骗概率(2)812。将从分割任务中获得的结果与分类任务相结合以获得最终结果814。
在一些实施例中,仅需要分割级别信息,并且在一些实施例中,分割模块的结果用作收集最终结果的辅助。
下面,参考图9来描述根据本申请实施例的电子设备。图9所示为本申请一示例性实施例提供的电子设备的结构示意图。
如图9所示,电子设备90包括一个或多个处理器901和存储器902。
处理器901可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备90中的其他组件以执行期望的功能。
存储器902可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器901可以运行所述程序指令,以实现上文所述的本申请的实施例的利用多任务学习在输入图像上检测人脸活度的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如第一图像、第二图像等各种内容。
在一个示例中,电子设备90还可以包括:输入装置903和输出装置904,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置903可以包括例如键盘、鼠标等等。
该输出装置904可以向外部输出各种信息,包括根据输入图像检测的人脸活度等。该输出装置904可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图9中仅示出了该电子设备90中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备90还可以包括任何其他适当的组件。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述描述的根据本申请各种实施例的利用多任务学习在输入图像上检测人脸活度的方法的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述描述的根据本申请各种实施例的利用多任务学习在输入图像上检测人脸活度的方法的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
虽然上面已经描述了本发明的各种实施例,但是应当理解,它们只是作为示例而不是限制性的方式呈现的。同样,该图可以描绘本发明的示例架构或其他配置,这样做是为了帮助理解可以包括在本发明中的特征和功能。本发明不限于图示的示例架构或配置,而是可以使用各种替代架构和配置来实现期望的特征。
尽管以上根据各种示例性实施例和实施方式描述了本发明,但是应当理解,在一个或多个单独实施例中描述的各种特征、方面和功能不限于它们对特定实施例的适用性。描述它们的实施例,可以单独或以各种组合应用到本发明的其他实施例中的一个或多个,无论这些实施例是否被描述以及这些特征是否被呈现为一部分描述的实施例。因此,本发明的广度和范围不应受到任何上述示例性实施例的限制。
在某些情况下,诸如“一个或多个”、“至少”、“但不限于”或其他类似短语之类的加宽词和短语的存在不应被理解为意味着或需要较窄的情况活在可能不存在此类扩展短语的情况下。
Claims (13)
1.一种图像检测系统,用于检测图像的活度,其特征在于,包括:
人脸检测模块,包括:
处理单元,用于处理所述图像以识别感兴趣区域;
缩放单元,用于缩放所述感兴趣区域以识别一个或多个面部特征以生成第一图像;
标注单元,用于将多个定义颜色中的第一颜色标注到所述第一图像的人脸区域,将所述多个定义颜色中的第二颜色标注到所述第一图像的前景区域,以及将所述多个定义颜色中的第三颜色标注到所述第一图像的背景区域,以生成第二图像;以及
分割模块,包括:
提取器单元,用于基于所述多个定义颜色提取所述第二图像内的多个像素以生成第三图像;以及
计数器单元,用于对所述第三图像中的活体像素和欺骗像素进行计数,以检测所述图像的活度。
2.根据权利要求1所述的图像检测系统,其特征在于,所述标注是基于真人脸、假人脸、真前景、假前景、真背景和假背景。
3.根据权利要求1所述的图像检测系统,其特征在于,所述标注单元基于所述前景区域和所述背景区域的活度来分配颜色。
4.根据权利要求1所述的图像检测系统,其特征在于,所述标注单元生成所述图像的特征图。
5.一种图像检测系统,用于检测图像的活度,其特征在于,包括:
人脸检测模块,包括:
处理单元,用于处理所述图像以识别感兴趣区域;
缩放单元,用于缩放所述感兴趣区域以识别一个或多个面部特征以生成第一图像;
标注单元,用于将多个定义颜色中的第一颜色标注到所述第一图像的前景区域,将所述多个定义颜色中的第二颜色标注到所述第一图像的背景区域,以生成第二图像;以及
分割模块,包括:
提取器单元,用于基于所述多个定义颜色提取所述第二图像内的多个像素以生成第三图像;以及
计数器单元,用于对所述第三图像中的活体像素和欺骗像素进行计数,以检测所述图像中的活度;
分类模块,用于提取所述第二图像上的高级特征信息并生成所述第三图像,其中,所述分类模块被配置为估算所述高级特征信息属于活体人脸的概率;以及
融合模块,用于将所述第二图像与所述第三图像进行融合生成最终图像以检测所述图像的活度。
6.根据权利要求5所述的图像检测系统,其特征在于,所述分类模块是主干网络的一部分,采用块架构。
7.根据权利要求6所述的图像检测系统,其特征在于,所述主干网络是卷积层与池化层和激活层的级联结构。
8.根据权利要求6所述的图像检测系统,其特征在于,所述主干网络为块架构。
9.根据权利要求7所述的图像检测系统,其特征在于,所述卷积层和所述激活层识别每个块的特征。
10.根据权利要求5所述的图像检测系统,其特征在于,所述分割模块包括解码头,以得到携带局部和全局上下文信息的特征表示。
11.一种利用多任务学习在输入图像上检测人脸活度的方法,其特征在于,包括:
通过人脸检测模块获取输入的图像,识别所述图像的感兴趣区域并对所述图像执行缩放以进行合适的特征提取;
对所述人脸检测模块检测到的所述图像进行标注并根据标注生成特征图;
提取像素级语义信息并计数欺骗像素和活体像素的数量以生成第一结果;
通过计算所述特征属于欺骗或活体的概率以提取高级特征信息以生成第二结果;
结合所述第一结果与所述第二结果以生成所述图像的活度。
12.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求11所述的利用多任务学习在输入图像上检测人脸活度的方法。
13.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求11所述的利用多任务学习在输入图像上检测人脸活度的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/474,965 | 2021-09-14 | ||
US17/474,965 US20230084980A1 (en) | 2021-09-14 | 2021-09-14 | System for detecting face liveliness in an image |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115546906A true CN115546906A (zh) | 2022-12-30 |
Family
ID=84725096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211110077.5A Pending CN115546906A (zh) | 2021-09-14 | 2022-09-13 | 检测图像中人脸活度的系统和方法及电子设备 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230084980A1 (zh) |
CN (1) | CN115546906A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021229659A1 (ja) * | 2020-05-11 | 2021-11-18 | 日本電気株式会社 | 判定装置、判定方法および記録媒体 |
-
2021
- 2021-09-14 US US17/474,965 patent/US20230084980A1/en active Pending
-
2022
- 2022-09-13 CN CN202211110077.5A patent/CN115546906A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230084980A1 (en) | 2023-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Malik et al. | DeepFake detection for human face images and videos: A survey | |
Bappy et al. | Hybrid lstm and encoder–decoder architecture for detection of image forgeries | |
JP7165742B2 (ja) | 生体検出方法及び装置、電子機器ならびに記憶媒体 | |
JP7490141B2 (ja) | 画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム | |
CN110222573B (zh) | 人脸识别方法、装置、计算机设备及存储介质 | |
Deb et al. | Look locally infer globally: A generalizable face anti-spoofing approach | |
CN111444881A (zh) | 伪造人脸视频检测方法和装置 | |
Bonomi et al. | Dynamic texture analysis for detecting fake faces in video sequences | |
EP4085369A1 (en) | Forgery detection of face image | |
Silva et al. | Deepfake forensics analysis: An explainable hierarchical ensemble of weakly supervised models | |
Rehman et al. | Enhancing deep discriminative feature maps via perturbation for face presentation attack detection | |
CN115546906A (zh) | 检测图像中人脸活度的系统和方法及电子设备 | |
Arunkumar et al. | Deep learning for forgery face detection using fuzzy fisher capsule dual graph | |
Hu et al. | Structure destruction and content combination for generalizable anti-spoofing | |
Jin et al. | A region generation based model for occluded face detection | |
CN116152908A (zh) | 动作识别、活体检测和模型训练方法及装置、电子设备 | |
Nataraj et al. | Holistic image manipulation detection using pixel co-occurrence matrices | |
KR102112033B1 (ko) | 얼굴 군집화 기법을 이용한 영상 추출 장치 | |
CN113723310A (zh) | 基于神经网络的图像识别方法及相关装置 | |
Rao et al. | Differentiating digital image forensics and tampering localization by a novel hybrid approach | |
Jia et al. | Enhanced face morphing attack detection using error-level analysis and efficient selective kernel network | |
Fang et al. | Forged facial video detection framework based on multi-region temporal relationship feature | |
Dong et al. | Robust Text Image Tampering Localization via Forgery Traces Enhancement and Multiscale Attention | |
Fute et al. | FaSIVA: Facial signature for identification, verification and authentication of persons | |
Pan et al. | OpticalDR: A Deep Optical Imaging Model for Privacy-Protective Depression Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |