CN112989304A

CN112989304A - 用户认证设备、用户认证方法和用于用户认证的训练方法

Info

Publication number: CN112989304A
Application number: CN202010513178.1A
Authority: CN
Inventors: 金熙愿; 李宣旼; 金智慧; 宋周奂; 韩在濬
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2019-12-18
Filing date: 2020-06-08
Publication date: 2021-06-18
Also published as: KR20210077993A; US11749005B2; EP3839810B1; US11482042B2; US20210192187A1; EP3839810A1; KR102809042B1; US20230360410A1; US12131560B2; US20230009696A1

Abstract

提供了一种用户认证设备、用户认证方法和用于用户认证的训练方法。所述用户认证方法和所述用户认证设备获取包括正面化的用户的面部的输入图像；计算包括置信度值的置信度图，所述置信度值用于认证用户，所述置信度值与包括在输入图像中的像素之中的具有保持在正面化的用户的面部的深度图像中的值的像素对应；从基于输入图像和置信度图生成的第二图像提取第二特征向量；获取与注册图像对应的第一特征向量；和基于第一特征向量与第二特征向量之间的相关性来执行用户的认证。

Description

用户认证设备、用户认证方法和用于用户认证的训练方法

本申请要求于2019年12月18日在韩国知识产权局提交的第10-2019-0169581号韩国专利申请的权益，所述韩国专利申请的全部公开出于所有目的通过引用包含于此。

技术领域

下面的描述涉及用户认证设备、用户认证方法和用于用户认证的训练方法。

背景技术

为了提高三维(3D)面部的识别率，使用通过旋转用户的侧面面部而正面化的面部的正面化方法(frontalization method)可被使用。在正面化方法中，当没有准确地检测到面部的特征点时，不可将面部放置在3D模型的期望位置处。此外，图像可能由于正面化的面部的不包括深度信息的部分而失真，并且3D面部的识别率可能受到以上失真的影响。为了解决以上问题，利用包括深度信息的相对侧的面部部分来填充正面化的面部的该部分的软对称(soft symmetry)方法可被使用。然而，在软对称方法中，当未从侧面姿势图像准确地检测鼻子的端部的关键点(landmark)时，识别性能可能由于由对称引起的伪影(artifact)而降低。

发明内容

提供本发明内容以便以简化的形式介绍以下在具体实施方式中进一步描述的构思的选择。本发明内容不意在确定要求权利的主题的关键特征或必要特征，也不意在用于帮助确定要求权利的主题的范围。

在一个总体方面，一种方法包括：获取包括正面化的用户的面部的输入图像；计算包括置信度值的第二置信度图，所述置信度值用于认证用户，所述置信度值与包括在输入图像中的像素之中的具有保持在正面化的用户的面部的深度图像中的值的像素对应；从基于输入图像和第二置信度图生成的第二图像提取第二特征向量；获取与注册图像对应的第一特征向量；和基于第一特征向量与第二特征向量之间的相关性来执行用户的认证。

输入图像可包括具有保持在正面化的用户的面部的深度图像中的值的像素。

可从基于注册图像和与注册图像对应的第一置信度图生成的第一图像提取第一特征向量，并且可预先存储第一特征向量。

计算第二置信度图的步骤可包括：使用神经网络来计算与输入图像对应的第二置信度图，神经网络输出包括置信度值的置信度图，置信度值用于认证包括在训练图像中的用户，置信度值与包括在训练图像中的像素之中的具有保持在包括在训练图像中的正面化的用户的面部的深度图像中的值的像素对应。

提取第二特征向量的步骤可包括：通过在输入图像与第二置信度图之间执行的运算，生成表明每个像素的深度置信度和深度信息的第二图像；和从第二图像提取第二特征向量。

执行用户的认证的步骤可包括：将第一特征向量与第二特征向量之间的相似度值与预定阈值进行比较。

执行用户的认证的步骤可包括：计算第一特征向量与第二特征向量之间的相似度值。

所述方法还可包括：最初基于从注册图像提取的第一特征与从输入图像提取的第二特征之间的相关性来执行用户的认证。

基于第一特征向量与第二特征向量之间的相关性来执行用户的认证的步骤可包括：响应于最初执行的用户的认证失败，二次执行用户的认证。

可将第一特征和第一特征向量预先存储在注册数据库中。

在另一总体方面，一种方法包括：获取包括正面化的用户的面部的训练图像对；使用第一神经网络来计算包括置信度值的第一置信度图，所述置信度值用于认证包括在第一训练图像中的用户，所述置信度值与包括在第一训练图像中的像素之中的具有保持在正面化的用户的面部的深度图像中的值的像素对应；使用第二神经网络来计算包括置信度值的第二置信度图，所述置信度值用于认证包括在第二训练图像中的用户，所述置信度值与包括在第二训练图像中的像素之中的具有保持在正面化的用户的面部的深度图像中的值的像素对应；从基于第一训练图像和第一置信度图生成的第一图像提取第一特征向量；从基于第二训练图像和第二置信度图生成的第二图像提取第二特征向量；和基于第一特征向量与第二特征向量之间的相关性来更新第一神经网络和第二神经网络。

第一神经网络和第二神经网络可彼此共享参数。

更新第一神经网络和第二神经网络的步骤可包括：计算第一特征向量与第二特征向量之间的相似度值；和使用基于所述相似度值的损失函数来更新第一神经网络和第二神经网络的参数。

更新第一神经网络和第二神经网络的步骤可包括：响应于第一训练图像的用户和第二训练图像的用户相同，更新第一神经网络的参数和第二神经网络的参数以输出增大第一特征向量与第二特征向量之间的相似度值的置信度图；和响应于第一训练图像的用户和第二训练图像的用户彼此不同，更新第一神经网络的参数和第二神经网络的参数以输出减小第一特征向量与第二特征向量之间的相似度值的置信度图。

第一训练图像和第二训练图像中的至少一个可包括具有保持在正面化的用户的面部的深度图像中的值的像素。

提取第一特征向量的步骤可包括：通过在第一训练图像与第一置信度图之间执行的运算来生成第一图像；和从第一图像提取第一特征向量。

提取第二特征向量的步骤可包括：通过在第二训练图像与第二置信度图之间执行的运算来生成表明每个像素的深度置信度和深度信息的第二图像；和从第二图像提取第二特征向量。

在另一总体方面，一种用户认证设备包括：通信接口，被配置为获取包括正面化的用户的面部的输入图像和与注册图像对应的第一特征向量；和处理器，被配置为计算包括置信度值的第二置信度图，所述置信度值用于认证用户，所述置信度值与包括在输入图像中的像素之中的具有保持在正面化的用户的面部的深度图像中的值的像素对应；被配置为从基于输入图像和第二置信度图生成的第二图像提取第二特征向量；并且被配置为基于第一特征向量与第二特征向量之间的相关性来执行用户的认证。

第一特征向量可从基于注册图像和与注册图像对应的第一置信度图生成的第一图像被提取，并且可被预先存储在注册数据库中。

处理器可被配置为：使用神经网络来计算与输入图像对应的第二置信度图，神经网络输出包括置信度值的置信度图，置信度值用于认证包括在训练图像中的用户，置信度值与包括在训练图像中的像素之中的具有保持在包括在训练图像中的正面化的用户的面部的深度图像中的值的像素对应。

处理器可被配置为：通过在输入图像与第二置信度图之间执行的运算来生成表明每个像素的深度置信度和深度信息的第二图像，并且从第二图像提取第二特征向量。

处理器可被配置为通过将第一特征向量与第二特征向量之间的相似度值与预定阈值进行比较来执行用户的认证。

处理器可被配置为计算第一特征向量与第二特征向量之间的相似度值。

处理器可被配置为最初基于从注册图像提取的第一特征与从输入图像提取的第二特征之间的相关性来执行用户的认证。

处理器可被配置为：响应于最初执行的用户的认证失败，基于第一特征向量与第二特征向量之间的相关性来二次执行用户的认证。

在另一总体方面，一种方法包括：通过将预存储的第一人的图像应用于第一神经网络，计算与预存储的图像对应的第一置信度图；通过将新获取的第二人的图像应用于第二神经网络，计算与新获取的图像对应的第二置信度图；通过将预存储的图像应用于第一置信度图来生成第一图像；通过将新获取的图像应用于第二置信度图来生成第二图像；和通过将从第一图像提取的第一特征与从第二图像提取的第二特征进行比较，确定第一人是否与第二人相同。

预存储的图像可以是正面化的第一人的面部图像，并且新获取的图像可以是正面化的第二人的面部图像。

生成第一图像的步骤可包括：在预存储的图像与第一置信度图之间执行基于像素的逐元素运算。

生成第二图像的步骤可包括：在新获取的图像与第二置信度图之间执行基于像素的逐元素运算。

从下面的具体实施方式、附图以及权利要求，其它特征和方面将是清楚的。

附图说明

图1示出用户认证处理的示例。

图2是示出用户认证方法的示例的流程图。

图3示出获取输入图像的处理的示例。

图4示出输入图像的示例和注册图像的示例。

图5示出置信度图(confidence map)的示例。

图6示出第一图像的示例和第二图像的示例。

图7是示出用户认证方法的另一示例的流程图。

图8示出用于用户认证的训练方法的示例。

图9示出更新神经网络的示例。

图10是示出用于用户认证的训练方法的示例的流程图。

图11示出用户认证设备的示例。

贯穿附图和具体实施方式，除非另外描述或提供，否则相同的附图参考标号将被理解为表示相同的元件、特征和结构。附图可不按比例，并且为了清楚、说明和方便，附图中的元件的相对尺寸、比例和描绘可被夸大。

具体实施方式

提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而，在理解本申请的公开之后，在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如，在此描述的操作的顺序仅是示例，并且不限于在此阐述的那些顺序，而是除了必须以特定的顺序发生的操作之外，可如在理解本申请的公开之后将是清楚的那样被改变。此外，为了更加清楚和简明，可省略本领域已知的特征的描述。

在此描述的特征可以以不同的形式来实现，而不应被解释为限于在此描述的示例。相反，在此描述的示例已仅被提供，以示出在理解本申请的公开之后将是清楚的实现在此描述的方法、设备和/或系统的许多可行方式中的一些可行方式。

下面的本公开中公开的示例的结构性或功能性的描述仅意在用于描述示例的目的，并且示例可以以各种形式来实现。示例并不意味着受到限制，而是意在各种修改、等同物和替换物也被覆盖在权利要求的范围内。

尽管使用“第一”或“第二”的术语来解释各种组件，但是组件不被术语所限制。这些术语应仅被用于将一个组件与另一组件进行区分。例如，在根据本公开的构思的权利的范围内，“第一”组件可被称为“第二”组件，或者类似地，“第二”组件可被称为“第一”组件。

将理解，当组件被称为“连接到”另一组件时，该组件可直接连接或结合到所述另一组件，或者可存在中间组件。

如在此使用的，除非上下文另外清楚地指示，否则单数形式也意在包括复数形式。还应理解，术语“包含”和/或“包括”用在本说明书中时，说明存在阐述的特征、整体、步骤、操作、元件、组件或它们的组合，但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或它们的组。

除非在此另有定义，否则在此使用的所有术语(包括技术术语或科学术语)具有与通常理解的含义相同的含义。除非在此另有定义，否则通用词典中定义的术语应被解释为具有与相关领域中的上下文含义匹配的含义，并且将不被解释为理想化或过于形式化的含义。

在下文中，将参照附图详细描述示例，并且在附图中相同的参考标号始终表示相同的元件。

图1示出用户认证处理的示例。参照图1，用户认证设备使用神经网络来执行用户认证，该神经网络基于图像的深度信息来估计表示输入图像的像素置信度的置信度图(confidence map)。

神经网络是预先训练以输出置信度图的神经网络，该置信度图包括与包括在图像中的像素的部分对应的置信度值。像素的部分可包括具有保持在正面化的用户的面部的深度图像中的值(例如，深度值)的像素。“具有保持在正面化的用户的面部的深度图像中的值的像素”可对应于：例如与图3的图像350中的像素被保持的右面部部分对应并且排除图像350中的由于像素的丢失而以黑色标记的左面部部分的像素。此外，与像素的部分对应的置信度值可用于认证用户。

例如，用户认证设备通过将注册图像101应用于第一神经网络110，来计算与注册图像101对应的第一置信度图120。注册图像101对应于预先注册在用于用户认证的注册数据库(DB)中的图像。注册图像101可对应于例如正面化的用户的面部图像。用户认证设备基于注册图像101和第一置信度图120二者来生成第一图像130。例如，用户认证设备可通过在注册图像101与第一置信度图120之间执行的运算来生成第一图像130。在注册图像101与第一置信度图120之间执行的运算可包括但不限于例如基于像素的逐元素运算(诸如，逐元素相乘运算或逐元素加权和)。当由于安全性而难以将注册图像101本身存储在注册DB中时，从注册图像101提取的特征或从第一图像130提取的特征可被存储在注册DB中，这将在以下描述。

用户认证设备将用于用户认证输入的输入图像105应用于第二神经网络115，并且计算与输入图像105对应的第二置信度图125。第一神经网络110的参数和第二神经网络115的参数可彼此共享。例如，第一神经网络110和第二神经网络115可以是相同的神经网络模型的两个实例。

输入图像105对应于例如通过使由包括在用户认证设备中的相机或图像传感器拍摄的图像正面化而获得的图像。例如，通过拍摄用户的面部而获取的深度图像中的用户的面部可不是正面面部。在这个示例中，作为预处理操作，用户的面部区域可被检测，特征点可从检测的面部区域被提取，并且深度图像中的用户的面部可基于提取的特征点被旋转到正面面部。

输入图像105包括用户的面部的至少一部分。例如，由于即使用户的面部被正面化，与当深度图像被拍摄时隐藏的部分对应的像素也不具有深度值，因此输入图像105可包括与当深度图像被拍摄时可见的部分对应的像素的深度值。

用户认证设备基于输入图像105和第二置信度图125二者来生成第二图像135。例如，用户认证设备可通过在输入图像105与第二置信度图125之间执行的运算来生成表明每个像素的深度置信度和深度信息的第二图像135。在输入图像105与第二置信度图125之间执行的运算可包括但不限于例如基于像素的逐元素运算(诸如，逐元素相乘运算或逐元素加权和)。

用户认证设备通过反映与注册图像101和输入图像105中的每个对应的置信度图来选择性地增大每个图像中具有高置信度的部分的权重，以执行用户认证。因此，三维(3D)面部识别的准确性可被提高。

用户认证设备使用特征提取器140提取与第一图像130对应的第一特征和与第二图像135对应的第二特征。特征提取器140被预先训练以从图像中提取包括面部的特征的特征向量。第一特征和/或第二特征可具有例如一维(1D)向量值的形式或二维(2D)向量矩阵的形式。

用户认证设备通过第一特征与第二特征之间的特征匹配150来执行用户认证。用户认证设备可通过特征匹配(例如，第一特征与第二特征之间的特征距离的计算、或者第一特征与第二特征之间的相似度的计算)来执行与输入图像105对应的用户认证。

在一个示例中，图像的每个区域的置信度水平可通过置信度图来测量，并且用户认证可仅基于与图像的可靠区域对应的信息来执行。通过以上描述的处理，用户认证设备可防止当由于正面化而丢失的信息被人为地填充时的图像失真，并且可提高3D面部识别的准确性。

图2是示出用户认证方法的示例的流程图。参照图2，在操作210中，用户认证设备获取包括正面化的用户的面部的输入图像。输入图像是例如包括通过以下将参照图3描述的预处理过程而正面化的用户的面部的图像。输入图像包括具有保持在正面化的用户的面部的深度图像中的值的像素。以下将参照图3进一步描述获取输入图像的示例。以下将参照图4描述输入图像的示例。

在操作220中，用户认证设备计算包括置信度值的第二置信度图，该置信度值用于认证用户，该置信度值与包括在输入图像中的像素之中的具有保持在正面化的用户的面部的深度图像中的值的像素对应。例如，用户认证设备可使用预训练的神经网络来计算与输入图像对应的第二置信度图。在这个示例中，神经网络可以是被训练为输出包括置信度值的置信度图的神经网络，该置信度值用于认证包括在训练图像中的用户，该置信度值与包括在训练图像中的像素之中的具有保持在包括在训练图像中的正面化的用户的面部的深度图像中的值的像素对应。因为神经网络输出置信度图，所以神经网络可被称为“置信度网络”。以下将参照图5进一步描述置信度图的示例。

在操作230中，用户认证设备从基于输入图像和第二置信度图生成的第二图像提取第二特征向量。例如，用户认证设备可通过在输入图像与第二置信度图之间执行的运算来生成表明每个像素的深度置信度和深度信息的第二图像。在这个示例中，运算可包括例如基于像素的逐元素运算和各种其它运算。用户认证设备可从第二图像提取第二特征向量。作为第二图像的示例，可提供图6的第二图像630。

在操作240中，用户认证设备获取与注册图像对应的第一特征向量。第一特征向量从基于注册图像和与注册图像对应的第一置信度图生成的第一图像被提取，并且被预先存储在注册DB中。作为第一图像的示例，可提供图6的第一图像610。

在操作250中，用户认证设备基于第一特征向量与第二特征向量之间的相关性来执行用户认证。相关性包括第一特征向量与第二特征向量之间的相似度，并且可包括例如归一化余弦相关性(normalized cosine correlation，NCC)或欧几里得距离。

在操作250中，用户认证设备基于例如第一特征向量与第二特征向量之间的相关性的程度来确定包括在输入图像中的用户是否是预注册的用户。

例如，用户认证设备可计算第一特征向量与第二特征向量之间的NCC值。NCC是基于亮度和/或各种值来测量原始图像与输入图像之间的几何相似度的方法。在NCC值中，例如，当将原始图像和/或输入图像的所有像素亮度值乘以预定常数时，或者当将预定的常数值与原始图像和/或输入图像的所有像素亮度值相加时，针对线性亮度改变的相关性值的独立性可被保持。

图3示出获取输入图像的处理的示例。图3示出通过用户认证设备使用户的面部正面化的预处理过程。在用户认证设备在图2的操作210中获取输入图像之前，对输入图像执行预处理过程。在下面的描述中，为了便于描述，预处理过程由用户认证设备执行。然而，示例不限于此，并且预处理过程也可由单独的预处理器执行。

例如，假设包括用户的侧面面部的2D图像(例如，深度图像)被输入。在操作310中，用户认证设备从2D图像检测用户的面部区域，并且检测特征点(例如，关键点(landmark))。从例如用户的双眼的瞳孔、鼻子的端部或嘴的两端检测关键点。

在操作320中，用户认证设备调用3D通用参考模型。3D通用参考模型对应于例如普通人的平均面部的3D模型。

在操作330中，用户认证设备将在操作310中从2D图像检测的关键点投影到在操作320中调用的3D通用参考模型。通过操作330，用户认证设备将2D图像放置在3D通用参考模型的期望位置中。

在操作340中，用户认证设备检测背景与在操作330中关键点被投影到的3D通用参考模型之间的边界线(borderline)。

在操作350中，用户认证设备将在操作330中关键点被投影到的3D通用参考模型与在操作340中检测的边界线组合，旋转与边界线组合的3D通用参考模型，并且使面部图像正面化。在操作350中正面化的面部图像中的侧面面部上不可见的部分的边界可被粗糙地表示。由于与边界线对应的面部的边缘信息被用作提取面部的特征的重要因素，因此不均匀失真的表面可能降低面部识别性能。

因此，通过使包括像素的深度值的深度图像正面化而获得的输入图像通过置信度网络被转换为对3D面部识别更鲁棒的图像。用户认证设备通过对可靠区域加权而不是填充正面化的面部的空白部分来执行面部识别。

图4示出输入图像的示例和注册图像的示例。图4示出注册图像410和输入图像430。

注册图像410对应于预先注册在用于用户认证的注册DB中的图像。如上所述，当第一图像从注册图像410被生成时，出于安全原因第一特征从第一图像被提取，第一特征而不是注册图像410被存储在注册DB中。

注册图像410通常对应于通过用于用户认证设备中的初始用户认证的图像的注册处理获取的用户的正面面部图像。通常，当用户在注册期间直接注视相机时，注册图像410可被获得，而不需要通过单独的正面化处理，并且注册图像410可包括所有面部部分。注册图像410可以是例如由深度相机获取的深度图像。

输入图像430包括具有保持在正面化的用户的面部的深度图像中的值(例如，深度值)的像素。输入图像430可以是例如包括与用户的面部的至少一部分对应的像素的深度值的深度图像。例如，输入图像430可通过使侧面面部的深度图像正面化的预处理过程来生成。

图5示出置信度图的示例。图5示出置信度图510、530和550。

用户认证设备使用预训练的神经网络输出包括用于用户认证的置信度值的置信度图。

用户认证设备计算以矩阵的形式表示像素的置信度值的置信度图510。置信度图510可以是例如与输入图像的部分对应的置信度图。置信度图510的总大小可以是例如“输入图像的宽度×输入图像的高度”。置信度图510中的置信度值可在从“0”至“1”的范围内。“1”指示最高的置信度值，并且“0”指示最低的置信度值。

第一置信度图530和第二置信度图550是视觉地显示置信度值的示例。第一置信度图530是与注册图像对应的置信度图，并且包括与对应于整个面部区域的像素对应的置信度值。第二置信度图550是与输入图像对应的置信度图，并且包括与具有由于用户的面部的正面化而被保持的值的像素对应的置信度值。

例如，当与第一置信度图530和第二置信度图550中的像素对应的置信度值增大时，像素可以以接近白色的颜色来显示。当与该像素对应的置信度值减小时，像素可以以接近黑色的颜色来显示。此外，由于第一置信度图530和第二置信度图550中的遮挡或失真，不具有深度值的像素以与空或无关紧要对应的颜色来显示。

图6示出第一图像的示例和第二图像的示例。图6示出第一图像610和第二图像630。

第一图像610对应于通过将第一置信度图530与以上描述的注册图像410逐像素相乘而获得的图像，并且第二图像630对应于通过将第二置信度图550与以上描述的输入图像430逐像素相乘而获得的图像。例如，用户认证设备可从第一图像610和第二图像630的可靠信息提取特征，以防止识别率由于遮挡或失真而减小。

图7是示出用户认证方法的另一示例的流程图。参照图7，在操作710中，用户认证设备获取输入图像I。输入图像I包括正面化的用户的面部。

在操作720中，用户认证设备使用第一特征提取器从输入图像I提取第一特征f(I)。第一特征提取器是预先训练以从图像提取特征或特征向量的特征提取器。

在操作730中，用户认证设备从注册DB 705获取从注册图像提取并被预先存储的第二特征f(E)，并且基于第一特征f(I)与第二特征f(E)之间的相关性来计算第一相似度分数。例如，用户认证设备可计算第一特征f(I)与第二特征f(E)之间的NCC值(即，NCC(f(E),f(I)))，并且将NCC值确定为第一相似度分数。

用户认证设备最初基于第一相似度分数来执行用户认证。例如，在操作740中，用户认证设备确定第一相似度分数是否大于第一认证阈值(Th)。当在操作740中确定第一相似度分数大于第一认证阈值时，在操作780中，用户认证设备基于第一相似度分数来验证用户认证是否成功。在一个示例中，当第一相似度分数大于第二认证阈值时，用户认证设备输出指示用户的认证成功的结果。在另一示例中，当第一相似度分数小于或等于第二认证阈值时，用户认证设备输出指示用户的认证失败的结果。

当在操作740中确定第一相似度分数小于或等于第一认证阈值时，在操作750中，用户认证设备使用置信度网络C来估计与输入图像I对应的置信度图(例如，第二置信度图)。置信度图包括用于认证用户的置信度值，该置信度值与包括在输入图像I中的像素之中的具有在保持在正面化的用户的面部的深度图像中的值的像素对应。

当最初基于第一相似度分数执行的用户认证失败时，用户认证设备通过应用置信度图来二次执行用户认证。因此，认证效率和认证性能一起可被提高。

在操作760中，用户认证设备使用预训练的第二特征提取器从基于输入图像I和第二置信度图生成的第二图像提取第二特征向量。第二特征提取器可与第一特征提取器相同或不同。

在操作770中，用户认证设备基于从注册DB 705获取的第一特征向量与在操作760中提取的第二特征向量之间的相关性来计算第二相似度分数。第一特征向量从基于注册图像和与注册图像对应的第一置信度图生成的第一图像提取并被预先存储。第一特征向量可以是例如f(E*C(E))(这里，E表示注册图像，C(E)表示与注册图像对应的第一置信度图)，并且第二特征向量可以是例如f(I*C(I))(这里，C(I)表示与输入图像I对应的第二置信度图)。在操作770中，用户认证设备计算第一特征向量f(E*C(E))与第二特征向量f(I*C(I))之间的NCC值，并且将NCC值确定为第二相似度分数。

在操作780中，用户认证设备基于在操作770中计算的第二相似度分数来验证用户认证是否成功。在一个示例中，当第二相似度分数大于第二认证阈值时，用户认证设备输出指示用户的认证成功的结果。在另一示例中，当第二相似度分数小于或等于第二认证阈值时，用户认证设备输出指示用户的认证失败的结果。第二认证阈值可与第一认证阈值相同或不同。

图8示出用于用户认证的训练方法的示例。图8示出使用第一训练图像801和第二训练图像803的训练处理。

训练设备使用正被训练的第一神经网络810来估计包括置信度值的第一置信度图820，该置信度值用于认证包括在第一训练图像801中的用户，该置信度值与包括在第一训练图像801中的像素之中的具有保持在正面化的用户的面部的深度图像中的值的像素对应。

当包括正面化的用户的面部的第二训练图像803被获取时，训练设备使用正被训练的第二神经网络815来计算第二置信度图825。第二置信度图825包括置信度值，该置信度值用于认证包括在第二训练图像803中的用户，该置信度值与包括在第二训练图像803中的像素之中的具有保持在正面化的用户的面部的深度图像中的值的像素对应。第一神经网络810和第二神经网络815可以是相同的神经网络模型的实例，并且可被训练为彼此共享参数。

训练设备使用特征提取器840从基于第一训练图像801和第一置信度图820生成的第一图像830提取第一特征向量f(I_E*C(I_E))(这里，I_E表示第一训练图像，C(I_E)表示与第一训练图像对应的第一置信度图)850，并且使用特征提取器840从基于第二训练图像803和第二置信度图825生成的第二图像835提取第二特征向量f(I_P*C(I_P))(这里，I_P表示第二训练图像，C(I_P)表示与第二训练图像对应的第二置信度图)855。

训练设备通过基于第一特征向量850与第二特征向量855之间的相关性的损失860的反向传播来更新第一神经网络810和第二神经网络815。例如，基于第一特征向量850与第二特征向量855之间的相关性的损失860(即，Loss_conf)可通过如以下等式1中所示的二进制交叉熵模型来获得。

[等式1]

其中，

在等式1中，N表示训练图像对的总数。当第i对训练图像的两个用户是同一人时，yi可具有值“1”，并且当两个用户是不同的人时，yi可具有值“0”。

表示与形成第i对的训练图像之间的NCC值成比例的值。

训练设备基于损失860来调整第一神经网络810和第二神经网络815的参数。

图9示出更新神经网络的示例。训练设备根据第一训练图像的用户和第二训练图像的用户是同一人或不同的人，如以下等式2中所示计算用于最大化对比损失的损失。

[等式2]

在等式2中，Y表示指示第一训练图像和第二训练图像的对是同质对(homogeneouspair)还是异质对(heterogeneous pair)的值。D_W表示第一训练图像的特征向量与第二训练图像的特征向量之间的距离。此外，m表示裕度(margin)。裕度是被设计成使得超过裕度的异质对不造成损失的值。换句话说，当异质对中的第一训练图像的特征向量与第二训练图像的特征向量之间的距离足够长时，异质对可不被包括在损失值中。在异质对的一个示例中，值“0”和“m-D_W”中的最大值可被使用。在异质对的关系中，当特征向量之间的距离超过裕度m时，对应的对可不造成损失。

当第一训练图像和第二训练图像表示同一人时，训练设备可训练神经网络以输出增大第一特征向量与第二特征向量之间的相似度值的置信度图(例如，减小第一训练图像与第二训练图像之间的距离的置信度图)。当第一训练图像和第二训练图像表示不同的人时，训练设备可训练神经网络以输出减小第一特征向量与第二特征向量之间的相似度值的置信度图(例如，增大第一训练图与第二训练图像之间的距离的置信度图)。

图10是示出用于用户认证的训练方法的示例的流程图。参照图10，在操作1010中，训练设备获取包括正面化的用户的面部的训练图像对。训练图像对包括第一训练图像和第二训练图像。第一训练图像和第二训练图像中的至少一个包括例如具有保持在正面化的用户的面部的深度图像中的值的像素。

在操作1020中，训练设备使用正被训练的第一神经网络来计算包括置信度值的第一置信度图，该置信度值用于认证包括在第一训练图像中的用户，该置信度值与包括在第一训练图像中的像素之中的具有保持在正面化的用户的面部的深度图像中的值的像素对应。

在操作1030中，训练设备使用正被训练的第二神经网络来计算包括置信度值的第二置信度图，该置信度值用于认证包括在第二训练图像中的用户，该置信度值与包括在第二训练图像中的像素之中的具有保持在正面化的用户的面部的深度图像中的值的像素对应。

在操作1040中，训练设备从基于第一训练图像和第一置信度图生成的第一图像提取第一特征向量。训练设备可通过在第一训练图像与第一置信度图之间执行的运算来生成第一图像。训练设备可从第一图像提取第一特征向量。

在操作1050中，训练设备从基于第二训练图像和第二置信度图生成的第二图像提取第二特征向量。训练设备可通过在第二训练图像与第二置信度图之间执行的运算来生成表明每个像素的深度置信度和深度信息的第二图像。训练设备可从第二图像提取第二特征向量。

在操作1060中，训练设备基于第一特征向量与第二特征向量之间的相关性来更新第一神经网络和第二神经网络。第一神经网络和第二神经网络可彼此共享参数。

图11示出用户认证设备1100的示例。参照图11，用户认证设备1100包括通信接口1110和处理器1130。用户认证设备1100还包括存储器1150。通信接口1110、处理器1130和存储器1150经由通信总线1105彼此通信。

通信接口1110获取包括正面化的用户的面部的输入图像。此外，通信接口1110获取与注册图像对应的第一特征向量。

处理器1130计算包括置信度值的第二置信度图，该置信度值用于认证用户，该置信度值与包括在输入图像中的像素之中的具有保持在正面化的用户的面部的深度图像中的值的像素对应。处理器1130从基于输入图像和第二置信度图生成的第二图像提取第二特征向量。处理器1130基于第一特征向量与第二特征向量之间的相关性来执行用户认证。

存储器1150存储由通信接口1110获取并对应于注册图像的第一特征向量。此外，存储器1150存储输入图像和/或对应于输入图像并由处理器1130提取的第二特征向量。

此外，处理器1130执行参照图1至图7描述的方法中的至少一个方法或与方法中的至少一个方法对应的算法。处理器1130是硬件实现的数据处理装置，其具有物理地构造成执行期望的操作的电路。例如，期望的操作可包括被包括在程序中的代码或指令。硬件实现的数据处理装置可包括例如微处理器、中央处理器(CPU)、处理器核、多核处理器、多处理器、专用集成电路(ASIC)以及现场可编程门阵列(FPGA)。

处理器1130执行程序并控制用户认证设备1100。由处理器1130执行的程序的代码被存储在存储器1150中。

存储器1150存储在以上描述的处理器1130的处理过程中生成的各种信息。此外，存储器1150存储各种数据和程序。存储器1150包括例如易失性存储器或非易失性存储器。存储器1150包括高容量存储介质(诸如，硬盘)，以存储各种数据。

在此描述的设备、单元、模块、装置和其它组件由硬件组件来实现。可用于执行本申请中描述的操作的硬件组件的示例在适当的情况下包括：控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器以及被配置为执行在本申请中描述的操作的任何其它电子组件。在其它示例中，执行本申请中描述的操作的硬件组件中的一个或多个通过计算硬件(例如，通过一个或多个处理器或计算机)来实现。处理器或计算机可通过一个或多个处理元件(诸如，逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被配置为以限定的方式响应并执行指令以实现期望的结果的任何其它装置或装置的组合)来实现。在一个示例中，处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可执行指令或软件(诸如，操作系统(OS)和在OS上运行的一个或多个软件应用)，以执行本申请中描述的操作。硬件组件还可响应于指令或软件的执行来访问、操控、处理、创建和存储数据。为了简单起见，单数术语“处理器”或“计算机”可用于本申请中描述的示例的描述中，但是在其它示例中，多个处理器或计算机可被使用，或者处理器或计算机可包括多个处理元件或多种类型的处理元件或二者。例如，单个硬件组件或者两个或更多个硬件组件可通过单个处理器、或者两个或更多个处理器、或者处理器和控制器来实现。一个或多个硬件组件可通过一个或多个处理器、或者处理器和控制器来实现，并且一个或多个其它硬件组件可通过一个或多个其它处理器、或者另外的处理器和另外的控制器来实现。一个或多个处理器、或者处理器和控制器可实现单个硬件组件或者两个或更多个硬件组件。硬件组件可具有不同的处理配置中的任何一个或多个，不同的处理配置的示例包括：单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理以及多指令多数据(MIMD)多处理。

执行在本申请中描述的操作的方法通过计算硬件(例如，通过一个或多个处理器或计算机)来执行，该计算硬件被实现为如上所述地执行指令或软件，以执行本申请中描述的由所述方法执行的操作。例如，单个操作或者两个或更多个操作可通过单个处理器、或者两个或更多个处理器、或者处理器和控制器来执行。一个或多个操作可通过一个或多个处理器、或者处理器和控制器来执行，并且一个或多个其它操作可通过一个或多个其它处理器、或者另外的处理器和另外的控制器来执行。一个或多个处理器、或者处理器和控制器可执行单个操作或者两个或更多个操作。

用于控制处理器或计算机以实现硬件组件并执行如上所述的方法的指令或软件被编写为计算机程序、代码段、指令或它们的任意组合，以单独地或共同地指示或配置处理器或计算机如机器或专用计算机那样进行操作，以执行由如上所述的硬件组件和方法执行的操作。在一个示例中，指令或软件包括由处理器或计算机直接执行的机器代码(诸如，由编译器产生的机器代码)。在另一示例中，指令或软件包括由处理器或计算机使用解释器执行的高级代码。本领域普通技术的编程人员可基于附图中示出的框图和流程图以及说明书中的对应描述，容易地编写指令或软件，附图中示出的框图和流程图以及说明书中的对应描述公开了用于执行由如上所述的硬件组件和方法执行的操作的算法。

用于控制处理器或计算机以实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态驱动器(SSD)、卡式存储器(诸如，多媒体卡或者微型卡(例如，安全数字(SD)或者极速数字(XD)))、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘、以及任何其它装置，任何其它装置被配置为以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构并将指令或软件以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机，使得处理器和计算机能够执行指令。

虽然本公开包括特定的示例，但是对于本领域普通技术人员来说将清楚的是，在不脱离权利要求和它们的等同物的精神和范围的情况下，可在这些示例中进行形式和细节上的各种改变。在此描述的示例应仅被认为是描述性的，而不是出于限制的目的。每个示例中的特征或方面的描述应被认为可适用于其它示例中的类似特征或方面。如果描述的技术以不同的顺序被执行，和/或如果描述的系统、架构、装置或电路中的组件以不同的方式被组合，和/或由其它组件或它们的等同物替换或补充，则可实现合适的结果。因此，公开的范围不是由具体实施方式限定，而是由权利要求和它们的等同物限定，并且在权利要求和它们的等同物的范围内的所有变化应被解释为包括在公开中。

Claims

1.一种用户认证方法，包括：

获取包括正面化的用户的面部的输入图像；

计算包括置信度值的第二置信度图，所述置信度值用于认证用户，所述置信度值与包括在输入图像中的像素之中的具有保持在正面化的用户的面部的深度图像中的值的像素对应；

从基于输入图像和第二置信度图生成的第二图像提取第二特征向量；

获取与注册图像对应的第一特征向量；和

基于第一特征向量与第二特征向量之间的相关性来执行用户的认证。

2.根据权利要求1所述的用户认证方法，其中，输入图像包括具有保持在正面化的用户的面部的深度图像中的值的像素。

3.根据权利要求1所述的用户认证方法，其中，从基于注册图像和与注册图像对应的第一置信度图生成的第一图像提取第一特征向量，并且预先存储第一特征向量。

4.根据权利要求1所述的用户认证方法，其中，计算第二置信度图的步骤包括：使用神经网络来计算与输入图像对应的第二置信度图，神经网络输出包括置信度值的置信度图，置信度值用于认证包括在训练图像中的用户，置信度值与包括在训练图像中的像素之中的具有保持在包括在训练图像中的正面化的用户的面部的深度图像中的值的像素对应。

5.根据权利要求1所述的用户认证方法，其中，提取第二特征向量的步骤包括：

通过在输入图像与第二置信度图之间执行的运算，生成表明每个像素的深度置信度和深度信息的第二图像；和

从第二图像提取第二特征向量。

6.根据权利要求1所述的用户认证方法，其中，执行用户的认证的步骤包括：将第一特征向量与第二特征向量之间的相关性的程度与预定阈值进行比较。

7.根据权利要求1所述的用户认证方法，其中，执行用户的认证的步骤包括：计算第一特征向量与第二特征向量之间的相似度值。

8.根据权利要求1所述的用户认证方法，还包括：

最初基于从注册图像提取的第一特征与从输入图像提取的第二特征之间的相关性来执行用户的认证。

9.根据权利要求8所述的用户认证方法，其中，基于第一特征向量与第二特征向量之间的相关性来执行用户的认证的步骤包括：响应于最初执行的用户的认证失败，基于第一特征向量与第二特征向量之间的相关性来二次执行用户的认证。

10.根据权利要求9所述的用户认证方法，其中，将第一特征和第一特征向量预先存储在注册数据库中。

11.一种用于用户认证的训练方法，所述训练方法包括：

获取包括正面化的用户的面部的训练图像对；

使用第一神经网络来计算包括置信度值的第一置信度图，所述置信度值用于认证包括在第一训练图像中的用户，所述置信度值与包括在第一训练图像中的像素之中的具有保持在正面化的用户的面部的深度图像中的值的像素对应；

使用第二神经网络来计算包括置信度值的第二置信度图，所述置信度值用于认证包括在第二训练图像中的用户，所述置信度值与包括在第二训练图像中的像素之中的具有保持在正面化的用户的面部的深度图像中的值的像素对应；

从基于第一训练图像和第一置信度图生成的第一图像提取第一特征向量；

从基于第二训练图像和第二置信度图生成的第二图像提取第二特征向量；和

基于第一特征向量与第二特征向量之间的相关性来更新第一神经网络和第二神经网络。

12.根据权利要求11所述的训练方法，其中，第一神经网络和第二神经网络彼此共享参数。

13.根据权利要求11所述的训练方法，其中，更新第一神经网络和第二神经网络的步骤包括：

计算第一特征向量与第二特征向量之间的归一化余弦相关性NCC相似度值；和

用基于所述NCC相似度值的损失函数来更新第一神经网络的参数和第二神经网络的参数。

14.根据权利要求11所述的训练方法，其中，更新第一神经网络和第二神经网络的步骤包括：

响应于第一训练图像的用户和第二训练图像的用户相同，更新第一神经网络的参数和第二神经网络的参数以输出增大第一特征向量与第二特征向量之间的相似度值的置信度图；和

响应于第一训练图像的用户和第二训练图像的用户彼此不同，更新第一神经网络的参数和第二神经网络的参数以输出减小第一特征向量与第二特征向量之间的相似度值的置信度图。

15.根据权利要求11所述的训练方法，其中，第一训练图像和第二训练图像中的一个或两者包括具有保持在正面化的用户的面部的深度图像中的值的像素。

16.根据权利要求11所述的训练方法，其中，提取第一特征向量的步骤包括：

通过在第一训练图像与第一置信度图之间执行的运算来生成第一图像；和

从第一图像提取第一特征向量。

17.根据权利要求11所述的训练方法，其中，提取第二特征向量的步骤包括：

通过在第二训练图像与第二置信度图之间执行的运算来生成表明每个像素的深度置信度和深度信息的第二图像；和

从第二图像提取第二特征向量。

18.一种用户认证设备，包括：

通信接口，被配置为获取包括正面化的用户的面部的输入图像和与注册图像对应的第一特征向量；和

处理器，被配置为计算包括置信度值的第二置信度图，所述置信度值用于认证用户，所述置信度值与包括在输入图像中的像素之中的具有保持在正面化的用户的面部的深度图像中的值的像素对应；被配置为从基于输入图像和第二置信度图生成的第二图像提取第二特征向量；并且被配置为基于第一特征向量与第二特征向量之间的相关性来执行用户的认证。

19.根据权利要求18所述的用户认证设备，其中，输入图像包括具有保持在正面化的用户的面部的深度图像中的值的像素。

20.根据权利要求18所述的用户认证设备，其中，第一特征向量从基于注册图像和与注册图像对应的第一置信度图生成的第一图像被提取，并且被预先存储在注册数据库中。

21.根据权利要求18所述的用户认证设备，其中，处理器被配置为：使用神经网络来计算与输入图像对应的第二置信度图，神经网络输出包括置信度值的置信度图，置信度值用于认证包括在训练图像中的用户，置信度值与包括在训练图像中的像素之中的具有保持在包括在训练图像中的正面化的用户的面部的深度图像中的值的像素对应。

22.根据权利要求18所述的用户认证设备，其中，处理器被配置为：通过在输入图像与第二置信度图之间执行的运算来生成表明每个像素的深度置信度和深度信息的第二图像，并且从第二图像提取第二特征向量。

23.根据权利要求18所述的用户认证设备，其中，处理器被配置为：通过将第一特征向量与第二特征向量之间的相似度值与预定阈值进行比较来执行用户的认证。

24.根据权利要求18所述的用户认证设备，其中，处理器被配置为计算第一特征向量与第二特征向量之间的相似度值。

25.根据权利要求18所述的用户认证设备，其中，处理器被配置为最初基于从注册图像提取的第一特征与从输入图像提取的第二特征之间的相关性来执行用户的认证。

26.根据权利要求25所述的用户认证设备，其中，处理器被配置为：响应于最初执行的用户的认证失败，基于第一特征向量与第二特征向量之间的相关性来二次执行用户的认证。

27.一种用户认证方法，包括：

通过将预存储的第一人的图像应用于第一神经网络，计算与预存储的图像对应的第一置信度图；

通过将新获取的第二人的图像应用于第二神经网络，计算与新获取的图像对应的第二置信度图；

通过将预存储的图像应用于第一置信度图来生成第一图像；

通过将新获取的图像应用于第二置信度图来生成第二图像；和

通过将从第一图像提取的第一特征与从第二图像提取的第二特征进行比较，确定第一人是否与第二人相同。

28.根据权利要求27所述的用户认证方法，其中，预存储的图像是正面化的第一人的面部图像，并且新获取的图像是正面化的第二人的面部图像。

29.根据权利要求27所述的用户认证方法，其中，生成第一图像的步骤包括：在预存储的图像与第一置信度图之间执行基于像素的逐元素运算。

30.根据权利要求27所述的用户认证方法，其中，生成第二图像的步骤包括：在新获取的图像与第二置信度图之间执行基于像素的逐元素运算。

31.一种存储指令的非暂时性计算机可读存储介质，所述指令在被处理器执行时，使处理器执行权利要求1至17和27至30中任意一项所述的方法。