CN113688707A - 脸部反欺骗方法 - Google Patents
脸部反欺骗方法 Download PDFInfo
- Publication number
- CN113688707A CN113688707A CN202110939307.8A CN202110939307A CN113688707A CN 113688707 A CN113688707 A CN 113688707A CN 202110939307 A CN202110939307 A CN 202110939307A CN 113688707 A CN113688707 A CN 113688707A
- Authority
- CN
- China
- Prior art keywords
- channel
- red
- blue
- image
- green
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000001815 facial effect Effects 0.000 claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 16
- 239000002131 composite material Substances 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 7
- 238000002156 mixing Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 230000009977 dual effect Effects 0.000 description 8
- 239000000872 buffer Substances 0.000 description 7
- 238000013461 design Methods 0.000 description 5
- 210000000887 face Anatomy 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/164—Detection; Localisation; Normalisation using holistic features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/12—Details of acquisition arrangements; Constructional details thereof
- G06V10/14—Optical characteristics of the device performing the acquisition or on the illumination arrangements
- G06V10/143—Sensing or illuminating at different wavelengths
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/40—Spoof detection, e.g. liveness detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/45—Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from two or more image sensors being of different type or operating in different modes, e.g. with a CMOS sensor for moving images in combination with a charge-coupled device [CCD] for still images
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/30—Transforming light or analogous information into electric information
- H04N5/33—Transforming infrared radiation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
一种示例性的脸部反欺骗方法,包括:接收具有近红外通道的近红外脸部图像;接收具有红色通道、绿色通道和蓝色通道的红‑绿‑蓝脸部图像;基于近红外通道、红色通道、绿色通道和蓝色通道生成合成的三通道图像;以及基于合成的三通道图像训练深度神经网络。
Description
技术领域
本发明涉及双相机(即红-蓝-绿(RGB)相机和近红外(NIR)相机)脸部反欺骗方法。
背景技术
现有的脸部反欺骗方法从图像中提取纹理特征来训练分类器,从而区分真实脸部和欺骗 脸部。例如,局部二值模式(local binary pattern,LBP)和图像失真分析(imagedistortion analysis,IDA)能够训练并测试在类似成像条件下拍摄的图像。然而,LBP/IDA方法将对相 机和照明差异敏感,并且将具有较差的泛化能力。
其他反欺骗方法依赖于来自3D相机的深度信息,或者利用用户的协作来执行预定义的 脸部动作。3D相机依赖于渡越时间数据且会引起额外的费用,并且利用预定义的脸部动作 将会对终端用户不友好且花费额外的时间。
发明内容
一种脸部反欺骗的示例性方法,包括:接收具有近红外通道的近红外脸部图像;接收具 有红色通道、绿色通道和蓝色通道的红-绿-蓝脸部图像;基于近红外通道、红色通道、绿色 通道和蓝色通道生成合成的三通道图像;以及基于合成的三通道图像训练深度神经网络。
另一种脸部反欺骗的示例性方法,包括:接收具有近红外通道的近红外脸部图像;接收 具有红色通道、绿色通道和蓝色通道的红-绿-蓝脸部图像;以及融合近红外通道、红色通道、 绿色通道和蓝色通道的特征图,以形成融合层,其中在深度神经网络的中间级别的卷积层处 融合特征图。
附图说明
在附图中:
图1是根据本发明的一个实施例的第一示例性系统的示意图;
图2是根据本发明的一个实施例的第二示例性系统的示意图;
图3是根据本发明的一个实施例的示例性的脸部感兴趣区域;
图4是根据本发明的一个实施例的示例性的NIR-RGB合成三通道图像建模;
图5是根据本发明的一个实施例的示例性的NIR-RGB三通道合成图像;
图6是根据本发明的一个实施例的示例性的NIR-RGB三通道合成混合模型的接收机操 作特性(ROC)曲线;
图7是示例性的NIR-RGB未对准的合成图像;
图8是根据本发明的一个实施例的示例性的Mobilenet流;
图9是根据本发明的一个实施例的示例性的Mobilenet流模型的接收机操作特性(ROC) 曲线和比较;
图10是根据本发明的一个实施例的另一示例性的Mobilenet流模型的接收器操作特性 (ROC)曲线和比较;
图11是根据本发明的一个实施例的示例性的方法;以及
图12是根据本发明的一个实施例的另一示例性的方法。
具体实施方式
以下列出的实施例仅用于说明装置和方法的应用,而不是限制本发明的范围。对该装置 和方法的修改的等同形式的修改应归入到权利要求的范围内。
贯穿以下说明书和权利要求使用的某些术语用于指代特定系统部件。如本领域技术人员 将理解的,不同的公司可以以不同的名称来指代部件和/或方法。该文献无意区分名称不同 但功能并非不同的部件和/或方法。
在以下讨论和权利要求中,术语“包括”和“包含”以开放式的方式使用,因此可以被 解释为“包括,但不限于…”。此外,术语“联接”或“连接联接(第三人称)”旨在表示 间接或直接的连接。因此,如果第一设备与第二设备联接,则该连接可以通过直接连接或通 过经由其他设备和连接的间接连接来实现。
图1描绘了示例性的混合计算系统100,该系统可用于实现与过程1100中的一个或多个 部分或步骤的操作相关联的神经网络。在该示例中,与所述混合系统相关联的处理器包括现 场可编程门阵列(FPGA)122、图形处理器单元(GPU)120和中央处理单元(CPU)118。
CPU 118、GPU 120和FPGA 122具有提供神经网络的能力。CPU是可以执行许多不同功能的通用处理器,它的通用性导致其能执行多个不同任务的能力,然而,它对于多个数据流的处理是有限的,并且它相对于神经网络的功能是有限的。GPU是图形处理器,它具有 能够依次处理并行任务的许多小的处理内核。FPGA是现场可编程设备,它具有被重配置并 且以硬连线电路的方式来执行任何可被编程到CPU或GPU中的功能的能力。由于FPGA的 编程是以电路形式的,因此其速度是CPU的几倍快,并且明显快于GPU。
系统还可以包含其他类型的处理器,例如:加速处理单元(APU,其包括有CPU并且在芯片上具有GPU元件)以及专门用于执行高速数字数据处理的数字信号处理器(DSP)。 专用集成电路(ASIC)也可以执行FPGA的硬连线功能,然而,设计和生产ASIC的交付周 期约为一个季度,其并不是在对FPGA进行编程中可用的快速周转实现实施方案。
图形处理器单元120、中央处理单元118和现场可编程门阵列122连接并连接至存储器 接口和控制器112。FPGA通过可编程逻辑电路连接至存储器接口,以连接存储器互连130。 由于FPGA的工作带宽非常大的事实并且为了将FPGA的用来执行存储任务的电路最小化, 可以使用附加设备。存储器接口和控制器112另外连接至永久存储盘110、存储系统114和 只读存储器(ROM)116。
图1的系统可用于FPGA进行编程和训练。GPU利用非结构化数据良好地运行并且可以被用于进行训练,一旦数据被训练完成,则可以找到确定性推论模型(deterministicinference model),并且CPU可以利用由GPU确定的模型数据对FPGA进行编程。
存储器接口和控制器连接至中央互连124,中央互连124另外连接至GPU 120、CPU118和FPGA 122。中心互连124另外连接至输入和输出接口128和网络接口126。
图2描绘了第二示例性混合计算系统200,该系统可用于实现与过程1200中的一个或多 个部分或步骤的操作相关联的神经网络。在该示例中,与混合系统相关联的处理器包括现场 可编程门阵列(FPGA)210和中央处理单元(CPU)220。
FPGA电连接至FPGA控制器212,该FPGA控制器212与直接存储器访问(DMA) 218接口连接。DMA 218连接至输入缓冲器214和输出缓冲器216,输入缓冲器214和输出 缓冲器216都与FPGA联接,以分别将数据缓冲到FPGA和将数据从FPGA缓冲出来。 DMA 218具有两个先进先出(FIFO)缓冲器,一个用于主CPU,另一个用于FPGA,DMA 允许向适当的缓冲器写入数据或者从适当的缓冲器读取数据。
在DMA的CPU侧是主交换机228,其将数据和命令往返传送至DMA。DMA还连接至 同步动态随机存取存储器(SDRAM)控制器224,该SDRAM控制器允许数据在FPGA和 CPU220之间往返传送,SDRAM控制器还连接至外部SDRAM 226和CPU 220。主交换机 228连接至外围接口230。闪存控制器222控制永久存储器并且连接至CPU 220。
利用脸部识别进行安全访问的现有系统可能被诸如例如脸部照片打印和视频重放的欺骗 攻击所入侵。脸部反欺骗技术正成为脸部验证系统的重要组成部分。反欺骗方法允许系统检 测并拒绝欺骗攻击,这增强了系统安全性。目前的反欺骗技术依赖于来自渡越时间分析的三 维(3D)深度信息或对诸如微笑、点头、眨眼等预定义动作的识别。目前的脸部反欺骗系 统可能呈现出较低的精度以及较差的泛化能力。
描述了将来自近红外(NIR)和红-蓝-绿(RGB)图像源的信息进行组合以训练深度神 经网络的两个实施例。第一实施例利用来自NIR和RGB双相机组的双模态输入来捕获人脸 的NIR和RGB图像并生成合成的三通道图像。第二实施例提供了用于处理人脸的NIR输入和RGB输入的双分支网络结构。
NIR-RGB模型展示了高精确度以及区分真实脸部与欺骗攻击的能力。已将实施例与目 前的局部二值模式(LBP)-支持向量机(SVM)方法和目前的红外(IR)单模态方法进行了比较。
第一实施例利用近红外(NIR)相机和红-蓝-绿(RGB)相机基于通过深度神经网络路 由的组合式混合通道输入来实现脸部反欺骗。NIR相机输入可以提供照明条件不变的图像, 而RGB相机可以提供脸部颜色信息。第一实施例基于300个现实受试者和1000个欺骗受试 者的数据集而得到具有增强精度的测试结果(真实阳性率(TPR)大于99.9%,假接受率(FAR)=10e-3.5)。
NIR相机由NIR光源、NIR传输透镜和NIR响应传感器组成。NIR相机检测具有700 nm至140 0nm的近红外波长光谱的光,并且通常利用窄NIR带通滤光器进行滤光。在手机、 平板计算机或计算机屏幕上显示的照片或视频等欺骗攻击的电子版本被近红外相机拒绝,因为这些欺骗攻击并不在NIR波长光谱范围内。NIR图像可以捕获3D结构细节。NIR图像的 外观类似于灰度图像,因为有色光并不在NIR波长光谱范围内。图像质量相对于环境光变 化通常是不变的。然而,NIR图像缺乏可见的颜色信息和来自自然光的反射细节。
RGB相机接收可见光波长光谱中的数据并处理接近人类视觉感知的彩色图像。RGB相 机输出包含丰富的颜色信息和自然环境光在3D物体上的反射。
在一个示例中,NIR相机和RGB相机在设置为水平线上彼此相距固定距离。NIR和RGB视频帧被同步度捕获并被传送到图像处理系统。
脸部检测器可以识别NIR图像和RGB图像中的人脸,并返回它们的边界框位置,如图 3所示的300。NIR图像和RGB图像对中的边界框310、312、314、320根据它们的位置、 大小和形状进行匹配,以确定它们是否属于同一人脸。在NIR-RGB图像中检测到人脸之后, 可以提取包括双眼的中心位置的脸部界标316、318。可以从NIR图像和RGB图像对中裁剪 出脸部感兴趣区域(ROI),并根据两个眼睛中心对齐。
可以根据NIR和RGB脸部感兴趣区域来重铸合成的三通道图像。该方法的一个示例利 用Mobilenet V1作为基线分类模型。由于从NIR-RGB双相机收集的图像数据有限,因此在 ImageNet上预先训练模型权重以初始化训练。在大规模数据集上进行预训练可以提供低级别 过滤器权重,该权重捕获用于高级别分类的图像细节。利用小数据集从头开始训练将导致训 练不足、缺少泛化能力和模型性能低下。为了重用预先训练的权重,输入利用三通道(RGB) 图像。在一个示例性实施例中,将单通道NIR和三通道RGB图像组合以生成合成的三通道 图像。
第一实施例的前两个变体利用NIR通道和R、G、B通道的线性组合将NIR-RGB图像对转换为新的合成三通道图像。图4中示出的两个版本(v1,410和v2,412)的公式被训 练并测试。变体1(v1,410)在新的R通道上输入NIR图像414,在新的G通道上输入近 红外图像416,并且将近红外图像418线性地组合到新的B通道上。变体2(v2,412)在新 的R通道上输入NIR图像420,将蓝色和绿色通道422线性混合到新的G通道上,并且在 新的R通道上输入红色通道424。
第一实施例的第三变体通过将RGB图像转换为YUV格式、用NIR图像代替Y通道, 并利用Y和NIR的线性组合作为新的Y通道,来根据NIR-RGB图像对生成合成的三通道图 像。然后该方法将新的YUV通道转换为合成的RGB三通道图像。
第一实施例的第四变体通过将RGB图像转换为YUV格式并分解在频域中的Y通道和NIR单通道图像,来根据NIR-RGB图像对生成合成的三通道图像。该方法将Y和NIR的高 频分解图像组合成高频集合,将Y和NIR的低频分解图像组合成低频集合,并且根据高频 集合和低频集合的频率图像来重构新合成的RGB三通道图像。
图5中的500描绘了组合RGB图像512和NIR图像510以允许访问RGB图像和近红外图像的优点。RGB图像包含用于区分黑白照片打印的脸部的颜色信息。可以在恒定点光源下捕获NIR图像,这增强了在各种环境照明条件下的结构细节。结果是NIR-RGB通道514 的合成。
在图6中,针对以下模型的输出、NIR图像610、利用根据图4的v1,612的NIR-RGB 图像和利用根据图4的v2,612的NIR-RGB图像绘制了真阳性率(TPR)和假接受率 (FAR)。在由v1,612和v2,614方法生成的合成三通道图像上训练反欺骗模型,而在 NIR图像610上训练相同的模型。如图所示,v1,612和v2,614方法优于仅使用NIR图像 作为输入610的已有方法。
图6指示出v2,614方法优于v1,612方法,这可能是由于v2方法将来自RGB图像的附加颜色信息并入模型中所导致的。v1方法具有两个来自近红外图像通道和一个来自RGB图像的通道。v2方法利用NIR图像中的一个通道和由RGB图像导出的两个通道。
基于在NIR-RGB三通道合成图像上的训练的方法,观察到将NIR图像与RGB图像组合可有利于提高脸部反欺骗性能。生成NIR-RGB三通道合成图像部分地基于NIR和RGB 图像的精确对准,该对准基于脸部界标检测。该脸部界标检测包括不精确性,并且可能由于 大姿态和脸部遮挡物(例如眼镜、头发等)而产生错误。界标检测误差可能导致NIR-RGB 脸部感兴趣区域之间的不对准,从而导致不真实的合成图像,例如图7中描绘的双重图像 700,其导致结构和颜色信息偏移。
图8描绘了NIR图像和RGB图像经由深度神经网络的路由,其可以以至少两种方式完 成。第一实施例的合成三通道图像可以路由经过神经网络,如810所示。经过神经网络的NIR图像和RGB图像的第二路由可以是经过第一初始部分的网络812输入的RGB图像,以 及经过第二初始部分的网络814输入的NIR图像。在下游的点处,第一初始部分的网络812 和第二初始部分的网络814被级联,并作为一个组合流路由经过神经网络的其余部分。经过神经网络的NIR图像和RGB图像的第二路由涉及利用两个分支Mobilenet-V1结构的脸部界标检测和脸部对准,所述两个分支Mobilenet-V1结构在卷积层(逐深度(depth-wise)的和逐点(point-wise)的)的两个单独分支中以并行方式输入NIR通道和RGB通道。
这两个分支在合并层816处级联,然后运行经过网络的其余部分。图8中展示了原始 Mobilenet V1模型和两个分支Mobilenet V1模型的结构。由于两个特征图在几个卷积层之后 被合并,因此NIR和RGB脸部感兴趣区域之间的不对准(参见图7中的700)对两个信号 的融合几乎没有影响。
在两个分支模型中,由于级联,在合并层816(conv11)处的输入通道的数量加倍。在 合并层(conv11)处的输出通道的数量与原始网络的数量相同。因此,网络结构的其余部分 保持不变。
至少两个因素对合并层的选择有影响。由于有限的训练数据大小,利用一组预先训练的 网络权重来初始化训练。预先训练的权重被加载到两个分支上直到合并层。然而,由于合并 层的结构由于级联而改变,因此在合并层之后不使用预先训练的权重。
如果两个分支过早合并,则只能在前几层上应用预先训练的权重。可能需要根据有限的 数据从头开始对网络的其余部分进行训练。如果两个分支合并得太晚,该模型就像训练两个 单独的网络并在它们的末端合并,这将会丢失NIR图像和RGB图像之间的低等级和空间相 关性。在一个示例中,基于初始实验结果,在层conv11处的合并(图9,920)产生了最佳 结果。
图9描绘了以下基于Mobilenet的模型的真阳性率与假接受率的输出:仅NIR 910、合 成的三通道NIR-RGB V1 912、合成的三通道NIR-RGB V2 914、在第6层级联的两分支NIR-RGB 916、在第10层级联的两分支NIR-RGB 918、在第11层级联的两分支NIR-RGB 920,在第12层级联的两分支NIR-RGB 922、和在第13层级联的两分支NIR-RGB 924。
两分支模型(916-924)和NIR-RGB合成三通道模型(912-914)的优于仅NIR 910的基 线模型。由于NIR-RGB三通道V2模型(图9,914)具有混合的NIR-RGB颜色信息的以及 充分利用ImageNet预训练模型的能力,所以在测试的模型中实现了最佳性能。
图10描绘了针对以下模型的真阳性率与假接受率的输出:仅NIR 1010、合成的三通道NIR-RGB V1 1012、合成的三通道NIR-RGB V2 1014、在第11层级联的两分支NIR-RGB1016、和目前支持向量机(SVM)方法和NIR局部二值模式(LBP)的方法1018。
在卷积层11级联的NIR-RGB两分支模型(图10,1016)提供比NIR-RGB三通道合成V2模型(图10,1014)略低的性能。一种可能的原因可能是预先训练的权重未被完全重用。NIR-RGB模型明显优于基于LBP-SVM算法的传统计算机视觉解决方案(图10,1018)。
图11描绘了脸部反欺骗的示例性方法,包括:接收1110具有近红外通道的近红外脸部 图像;以及接收1112具有红色通道、绿色通道和蓝色通道的红-绿-蓝脸部图像。该方法还基 于近红外通道、红色通道、绿色通道和蓝色通道生成1114合成的三通道图像,以及基于合 成的三通道图像训练1116深度神经网络。
在该示例性方法中,合成的三通道图像包括:可以包括近红外通道的第一新通道、可以 包括近红外通道的第二新通道、可以包括红色通道、绿色通道和蓝色通道的平均值的第三新 通道。
合成的三通道图像包括:可以包括近红外通道的第一新通道、可以包括绿色通道和蓝色 通道的平均值的第二新通道、可以包括红色通道的第三新通道。
该方法还可以包括:将红-绿-蓝脸部图像转换为具有亮度通道、蓝色通道和红色通道的 亮度-蓝-红脸部图像;利用近红外线通道替换换新的亮度通道;以及将亮度-蓝-红脸部图像 转换为新的合成红-绿-蓝脸部图像。
该方法还可以包括:将红绿蓝脸部图像转换为具有亮度通道、蓝色通道和红色通道的亮 度蓝红脸部图像;用近红外通道和亮度通道的平均值替换新的亮度通道,并将亮度蓝红脸部 图像转换为新的合成红绿蓝脸部图像。
该方法还可以包括:将红-绿-蓝脸部图像转换为具有亮度通道、蓝通道和红通道的亮度- 蓝-红脸部图像;在频域中分解亮度通道;在频域中分解近红外通道,以及将分解的亮度通 道和分解的近红外通道的高频分量进行组合。该方法还可以包括:将分解的亮度通道和分解 的近红外通道的低频分量进行组合,并且根据组合的高频分量和低频分量来重构新的合成图 像。
图12描绘了脸部反欺骗的另一示例性方法,包括:接收1210具有近红外通道的近红外 脸部图像;以及接收1212具有红色通道、绿色通道和蓝色通道的红-绿-蓝脸部图像。该方法 还包括:融合1214近红外通道和红色通道、绿色通道和蓝色通道的特征图以形成融合层, 其中在深度神经网络的中间级别的卷积层处融合所述特征图。
在该示例中,可以在第11卷积层(conv11)处执行融合,并且可以在逐深度和逐点的基础 上执行卷积层融合。针对融合层的输入通道的数量加倍,针对融合层的输出通道的数量保持 不变。
在即时应用中描述的解决方案示例提供了基于深度学习的脸部反欺骗系统,该系统具有 NIR-RGB双模态输入。一个实施例组合NIR和RGB双重输入脸部感兴趣区域图像以生成用 于训练深度神经网络的合成三通道图像。另一实施例利用两分支神经网络结构,该结构采用 NIR和RGB双重输入脸部感兴趣区域图像,并在中间层处融合特征图,以获取低级别和空 间相关性。NIR-RGB模型在大型数据集(300个现实受试者和1000个欺骗受试者)上进行 测试,并且在利用ImageNet预先训练权重进行训练之后证实了高性能。
本领域的技术人员将了解,本文中所描述的各种说明性的块、模块、元件、部件、方法 和算法可实施为电子硬件、计算机软件或两者的组合。为了说明硬件和软件的这种可互换性, 上文已经在其功能方面对各种说明性的块、模块、元件、部件、方法和算法进行了总体描述。 将该功能实施为硬件还是软件取决于强加于整个系统的特定应用和设计约束。熟练的技术人 员可以针对每个特定应用以不同方式来实施所描述的功能。在不脱离本主题技术的范围的情 况下,各种部件和块可以被不同地布置(例如以不同的顺序布置,或以不同的方式划分)。
应理解,所公开的过程中的步骤的特定顺序或层级是对示例方法的一种说明。基于设计 偏好,可以理解,过程中的步骤的特定顺序或层级可以被重新排列。一些步骤可以同时进行。 所附方法权利要求以样本顺序呈现各个步骤的要素,并不意味着受限于所呈现的特定顺序或 层级。
提供前面的描述是为了使本领域技术人员能够实践本文中所描述的各种方面。前面的描 述提供了本主题技术的各种示例,并且本主题技术不限于这些示例。对于本领域技术人员来 说,对这些方面的各种修改是明显的,并且本文限定的一般原理可以应用于其他方面。因此, 权利要求并不旨在受限于本文所示的方面,而是旨在使全部范围与权利要求的语言表述相一 致,其中对单数元素的引用并不旨在表示“一个且仅一个”,除非具体如此陈述,而是表示 “一个或多个”。除非另外特别说明,否则术语“一些”是指一个或多个。男性中的代词 (例如,他的)包括女性和中性(例如,她和它的),反之亦然。标题和副标题(如果有的 话)仅为了方便而使用,并不限制本发明。谓语“被配置以”、“可操作以”和“被编程以”并不暗示着对主语的任何特定的有形或无形修改,而是旨在可被互换地使用。例如,被配置以监视和控制操作或部件的处理器,还可以表示,该处理器被编程以监视和控制操作,或者处理器可操作以监视和控制操作。同样地,被配置以执行代码的处理器,可以被解释为,被编程以执行代码的处理器或可操作以执行代码的处理器。
诸如“方面”之类的短语并不暗示这样的方面对于本技术是必不可少的,或者这样的方 面适用于主题技术的所有配置。涉及一方面的公开可适用于所有配置、或一个或多个配置。 一个方面可以提供一个或多个示例。诸如“方面”的短语可以指代一个或多个方面,反之亦 然。诸如“实施例”之类的短语并不暗示这样的实施例对于主题技术是必不可少的,或者这 样的实施例适用于主题技术的所有配置。涉及一个实施例的公开可应用于所有实施例,或一 个或多个实施例。一个实施例可提供一个或多个示例。诸如“实施例”的短语可以指代一个 或多个实施例,反之亦然。诸如“配置”之类的短语并不暗示这样的配置对于主题技术是必 不可少的,或者这样的配置适用于主题技术的所有配置。涉及一种配置的公开可应用于所有 配置、或一个或多个配置。一种配置可提供一个或多个示例。诸如“配置”的短语可以指一 个或多个配置,反之亦然。
本文使用词语“示例”来表示“用作示例或说明”。本文描述为“示例”的任何方面或设计不必被解释为比其他方面或设计更优选或更具优势。
本领域普通技术人员已知或以后将知道的,贯穿本发明所描述的各个方面的元件的所有 结构和功能等同物通过引用被明确地并入本文,并且旨在由权利要求所涵盖。此外,无论在 权利要求中是否明确地叙述了这样的公开,本文的公开都不旨在捐献于公众。此外,关于在 说明书或权利要求书中使用“包括”、“具有”或类似术语的含义,这样的术语旨在被包括 在术语“包含”的方式内,类似于当“包括”在权利要求中被用作连接词时,对“包括”的 解释那样。
对“一个实施例”、“实施例”、“一些实施例”、“各种实施例”或类似表述的引用 表明特定元件或特性被包括在本发明的至少一个实施例中。虽然短语可能出现在多个地方,但短语不一定是指同一个实施例。结合本发明,本领域技术人员将能够设计和并入适合于实 现上述功能的各种机制中的任何一种。
应理解,本发明仅教导了说明性的实施例的一个示例,并且本领域技术人员在阅读本发 明之后可以容易地设计出本发明的许多变体,并且本发明的范围由以下权利要求确定。
Claims (11)
1.一种脸部反欺骗方法,包括:
接收具有近红外通道的近红外脸部图像;
接收具有红色通道、绿色通道和蓝色通道的红-绿-蓝脸部图像;
基于所述近红外通道、所述红色通道、所述绿色通道和所述蓝色通道生成合成的三通道图像;以及
基于所述合成的三通道图像训练深度神经网络。
2.根据权利要求1所述的脸部反欺骗方法,其特征在于,所述合成的三通道图像包括:包括所述近红外通道的第一新通道、包括所述近红外通道的第二新通道、和包括所述红色通道、所述绿色通道和所述蓝色通道的平均值的第三新通道。
3.根据权利要求1所述的脸部反欺骗方法,其特征在于,所述合成的三通道图像包括:包括所述近红外通道的第一新通道、包括所述绿色通道和所述蓝色通道的平均值的第二新通道、和包括所述红色通道的第三新通道。
4.根据权利要求1所述的脸部反欺骗方法,其特征在于,还包括:
将所述红-绿-蓝脸部图像转换为具有亮度通道、蓝色通道和红色通道的亮度-蓝-红脸部图像;
利用所述近红外通道替换新的亮度通道;以及
将所述亮度-蓝-红脸部图像转换为新的红-绿-蓝脸部图像。
5.根据权利要求1所述的脸部反欺骗方法,其特征在于,还包括:
将所述红-绿-蓝脸部图像转换为具有亮度通道、蓝色通道和红色通道的亮度-蓝-红脸部图像;
将所述近红外通道和所述亮度通道的平均值替换成新的亮度通道;以及
将所述亮度-蓝-红脸部图像转换为新的红-绿-蓝脸部图像。
6.根据权利要求1所述的脸部反欺骗方法,其特征在于,还包括:
将所述红-绿-蓝脸部图像转换为具有亮度通道、蓝色通道和红色通道的亮度-蓝-红脸部图像;
在频域中分解所述亮度通道;
在频域中分解所述近红外通道;
将分解的亮度通道和分解的近红外通道的高频分量进行组合;
将分解的亮度通道和分解的近红外通道的低频分量进行组合;以及
根据组合的高频分量和低频分量来重构新的合成图像。
7.一种脸部反欺骗方法,包括:
接收具有近红外通道的近红外脸部图像;
接收具有红色通道、绿色通道和蓝色通道的红-绿-蓝脸部图像;以及
融合所述近红外通道以及所述红色通道、所述绿色通道和所述蓝色通道的特征图,以形成融合层,
其中,在深度神经网络的中间级别的卷积层处融合所述特征图。
8.根据权利要求7所述的脸部反欺骗方法,其特征在于,在第11卷积层处执行所述融合。
9.根据权利要求8所述的脸部反欺骗方法,其特征在于,所述卷积层融合是基于逐深度和逐点执行的。
10.根据权利要求7所述的脸部反欺骗方法,其特征在于,进入所述融合层的输入通道的数量加倍。
11.根据权利要求7所述的脸部反欺骗方法,其特征在于,所述融合层的输入通道是被级联的。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/192,605 | 2021-03-04 | ||
US17/192,605 US20220284229A1 (en) | 2021-03-04 | 2021-03-04 | Rgb-nir dual camera face anti-spoofing method |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113688707A true CN113688707A (zh) | 2021-11-23 |
Family
ID=78580144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110939307.8A Pending CN113688707A (zh) | 2021-03-04 | 2021-08-16 | 脸部反欺骗方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220284229A1 (zh) |
CN (1) | CN113688707A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11600112B2 (en) * | 2021-07-08 | 2023-03-07 | Black Sesame Technologies Inc. | Bio-security system based on multi-spectral sensing |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140153823A1 (en) * | 2012-11-30 | 2014-06-05 | Industry-Academic Cooperation Foundation, Yonsei University | Method and apparatus for processing image |
CN108040243A (zh) * | 2017-12-04 | 2018-05-15 | 南京航空航天大学 | 多光谱立体视觉内窥镜装置及图像融合方法 |
CN108694715A (zh) * | 2018-05-15 | 2018-10-23 | 清华大学 | 基于卷积稀疏编码的单相机rgb-nir成像系统 |
US20180330488A1 (en) * | 2017-05-11 | 2018-11-15 | Digitalglobe, Inc. | Muddy water detection using normalized semantic layers |
CN109614996A (zh) * | 2018-11-28 | 2019-04-12 | 桂林电子科技大学 | 基于生成对抗网络的弱可见光与红外图像融合的识别方法 |
CN111080568A (zh) * | 2019-12-13 | 2020-04-28 | 兰州交通大学 | 一种基于Tetrolet变换的近红外与彩色可见光图像融合算法 |
CN111695406A (zh) * | 2020-04-23 | 2020-09-22 | 西安电子科技大学 | 一种基于红外线的人脸识别反欺骗方法、系统及终端 |
CN111814545A (zh) * | 2020-06-01 | 2020-10-23 | 北京简巨科技有限公司 | 作物识别方法、装置、电子设备及存储介质 |
CN112104847A (zh) * | 2020-09-17 | 2020-12-18 | 北京理工大学 | 一种基于残差和高频替换的sony-rgbw阵列彩色重构方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6708143B2 (ja) * | 2017-02-07 | 2020-06-10 | 株式会社島津製作所 | 時間強度曲線測定装置 |
US20220067519A1 (en) * | 2020-08-28 | 2022-03-03 | Affectiva, Inc. | Neural network synthesis architecture using encoder-decoder models |
-
2021
- 2021-03-04 US US17/192,605 patent/US20220284229A1/en active Pending
- 2021-08-16 CN CN202110939307.8A patent/CN113688707A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140153823A1 (en) * | 2012-11-30 | 2014-06-05 | Industry-Academic Cooperation Foundation, Yonsei University | Method and apparatus for processing image |
US20180330488A1 (en) * | 2017-05-11 | 2018-11-15 | Digitalglobe, Inc. | Muddy water detection using normalized semantic layers |
CN108040243A (zh) * | 2017-12-04 | 2018-05-15 | 南京航空航天大学 | 多光谱立体视觉内窥镜装置及图像融合方法 |
CN108694715A (zh) * | 2018-05-15 | 2018-10-23 | 清华大学 | 基于卷积稀疏编码的单相机rgb-nir成像系统 |
CN109614996A (zh) * | 2018-11-28 | 2019-04-12 | 桂林电子科技大学 | 基于生成对抗网络的弱可见光与红外图像融合的识别方法 |
CN111080568A (zh) * | 2019-12-13 | 2020-04-28 | 兰州交通大学 | 一种基于Tetrolet变换的近红外与彩色可见光图像融合算法 |
CN111695406A (zh) * | 2020-04-23 | 2020-09-22 | 西安电子科技大学 | 一种基于红外线的人脸识别反欺骗方法、系统及终端 |
CN111814545A (zh) * | 2020-06-01 | 2020-10-23 | 北京简巨科技有限公司 | 作物识别方法、装置、电子设备及存储介质 |
CN112104847A (zh) * | 2020-09-17 | 2020-12-18 | 北京理工大学 | 一种基于残差和高频替换的sony-rgbw阵列彩色重构方法 |
Non-Patent Citations (2)
Title |
---|
刘庆飞 等: "基于深度可分离卷积的实时农业图像逐像素分类研究", 中国农业科学, no. 19, 1 October 2018 (2018-10-01) * |
徐涵秋: "基于压缩数据维的城市建筑用地遥感信息提取", 中国图象图形学报, no. 02, 25 February 2005 (2005-02-25) * |
Also Published As
Publication number | Publication date |
---|---|
US20220284229A1 (en) | 2022-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10956725B2 (en) | Automated sign language translation and communication using multiple input and output modalities | |
US11010967B2 (en) | Three dimensional content generating apparatus and three dimensional content generating method thereof | |
WO2020078243A1 (zh) | 一种图像处理和人脸图像识别方法、装置及设备 | |
CN111062378B (zh) | 图像处理方法、模型训练方法、目标检测方法及相关装置 | |
CN108416265A (zh) | 一种人脸检测方法、装置、设备及存储介质 | |
CN107800965B (zh) | 图像处理方法、装置、计算机可读存储介质和计算机设备 | |
CN111462128A (zh) | 一种基于多模态光谱图像的像素级图像分割系统及方法 | |
CN113449623B (zh) | 一种基于深度学习的轻型活体检测方法 | |
US20240112404A1 (en) | Image modification techniques | |
CN110276831A (zh) | 三维模型的建构方法和装置、设备、计算机可读存储介质 | |
JP2023539865A (ja) | リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定 | |
CN111325107A (zh) | 检测模型训练方法、装置、电子设备和可读存储介质 | |
TW202334899A (zh) | 用於產生合成景深效果的系統和方法 | |
CN113688707A (zh) | 脸部反欺骗方法 | |
CN110933290A (zh) | 一种基于人机交互的虚拟拍照综合系统及方法 | |
JP2688527B2 (ja) | 視線方向検出方法 | |
US11605174B2 (en) | Depth-of-field simulation via optical-based depth extraction | |
Mai et al. | Sparse LiDAR and stereo fusion (SLS-Fusion) for depth estimationand 3D object detection | |
Huang et al. | Dual fusion paired environmental background and face region for face anti-spoofing | |
Guo et al. | Robust Full-Fov Depth Estimation in Tele-Wide Camera System | |
Salamati et al. | Analyzing near-infrared images for utility assessment | |
CN113298694B (zh) | 用于深度图生成的具有闪光灯的多相机系统 | |
EP4322053A1 (en) | Information processing method and apparatus | |
Zhang et al. | Synchronous Binocular Visible Light Parallax Map for Face Detection | |
Liu et al. | Polarized Image Fusion Method with Joint Target Polarization Material Information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |