CN109564618B

CN109564618B - 用于面部图像分析的方法和系统

Info

Publication number: CN109564618B
Application number: CN201780042954.0A
Authority: CN
Inventors: 王小龙; 周茵; 李博; 乔纳森·J·柯里
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2016-06-06
Filing date: 2017-06-05
Publication date: 2023-11-24
Anticipated expiration: 2037-06-05
Also published as: EP3461290A4; US20170351905A1; US10579860B2; CN109564618A; WO2017213398A1; EP3461290A1

Abstract

一个实施例提供了一种方法，该方法包括：接收第一输入图像和第二输入图像。每个输入图像包括个体的面部图像。对于每个输入图像，基于“基于学习的模型”来区分面部图像的第一面部区域集合与面部图像的第二面部区域集合。第一面部区域集合包括年龄不变面部特征，以及第二面部区域集合包括年龄敏感面部特征。该方法还包括：通过基于每个输入图像的第一面部区域集合执行面部验证来确定第一输入图像和第二输入图像是否包括相同个体的面部图像。

Description

用于面部图像分析的方法和系统

技术领域

一个或多个实施例总体上涉及面部分析，且具体地涉及用于显著面部区域检测的学习模型。

背景技术

个体的面部图像传达了大量的人口统计面部信息，例如情绪、表情、身份、年龄、性别、种族等。因此，面部图像分析在多个领域的各种各样的应用中是重要的，例如安保、执法、娱乐、人机交互(HCI)系统和人工智能(AI)系统。

存在不同类型的面部图像分析任务，例如面部验证和年龄估计。与其他面部区域相比，一些面部区域对于一些面部图像分析任务可能更重要。例如，对于年龄估计，分析随年龄变化的面部区域。相比之下，对于面部验证，分析年龄不变面部区域(例如眼睛、鼻子、嘴等)。然而，随年龄变化的面部区域(例如，具有皱纹的前额等)对于面部验证是没有帮助的，因为在年龄和身份之间可能出现冲突的面部图案。在某些面部区域中表现出年龄变化的面部图像通常导致面部容貌的差异增加，由此增加了执行具有年龄变化的面部验证(即表现出较大年龄间隔的面部图像之间的面部匹配)的难度。用于改善跨年龄面部识别的一种传统解决方案是面部合成(即面部建模)。在面部合成中，输入的面部图像被合成到目标年龄。然而，如果衰老图案未知，则很难准确地合成和模拟不可预测的衰老进程。用于改善跨年龄面部识别的另一种传统解决方案是自动识别年龄不变面部区域。

发明内容

【技术问题】

传统上，由于某些面部区域的重要性对于不同的面部图像分析任务发生变化，所以利用不同的独特框架来执行不同的面部图像分析任务。不存在可以处理多个冲突的面部图像分析任务的现有框架。

附图说明

图1示出了一个或多个实施例中用于实现面部分析系统的示例计算架构；

图2A详细示出了一个或多个实施例中的初始化和训练系统；

图2B详细示出了一个或多个实施例中的面部分析系统；

图3示出了一个或多个实施例中的面部分析系统的示例深度神经网络；

图4示出了一个或多个实施例中的深度神经网络的示例配置；

图5示出了一个或多个实施例中的深度神经网络的另一示例配置；

图6示出了一个或多个实施例中的深度神经网络的另一示例配置；

图7示出了一个或多个实施例中的面部分析系统的另一示例框架；

图8是一个或多个实施例中用于执行冲突的面部图像分析任务的示例过程的流程图；以及

图9是示出了包括用于实现所公开的实施例的计算机系统在内的信息处理系统的高级框图。

具体实施方式

【最佳实施方式】

将参考下面的描述、所附权利要求和附图来理解一个或多个实施例的这些以及其他特征、方面和优点。

【具体实施方式】

下面的描述出于示出一个或多个实施例的一般原理的目的而做出，但不意味着限制本文中要求保护的发明构思。此外，本文中所描述的特定特征可以用各种可能的组合和排列中的每一种方式与其他描述的特征组合使用。除非本文中另外明确地定义，否则将给予所有术语它们最广泛的可能的解释，包括从说明书暗示的含义以及本领域技术人员理解和/或在字典、论文等中定义的含义。

在本说明书中，术语“年龄标签”用于一般地指代以下信息：基于从个体的面部图像的一个或多个年龄敏感面部区域中提取的一个或多个特征来指示个体的年龄的信息。可以将年龄标签分类为基于观察数据的实际/已知的年龄标签或基于信念数据的估计/预测的年龄标签。

在本说明书中，术语“面部验证”用于一般地指代比较个体的两个面部图像以确定面部图像是否捕捉相同个体的面部图像分析任务。

在本说明书中，术语“年龄估计”用于一般地指代确定在面部图像中捕捉的个体的估计/预测的年龄的面部图像分析任务。

在本说明书中，术语“跨面部年龄验证”用于一般地指代比较个体在不同年龄的两个面部图像以确定面部图像是否捕捉到相同个体的面部图像分析任务。

一个或多个实施例总体上涉及面部分析，且具体地涉及用于显著的面部区域检测的学习模型。一个实施例提供了一种方法，该方法包括：接收第一输入图像和第二输入图像。每个输入图像包括个体的面部图像。对于每个输入图像，基于“基于学习的模型”来区分面部图像的第一面部区域集合与面部图像的第二面部区域集合。第一面部区域集合包括年龄不变面部特征，以及第二面部区域集合包括年龄敏感面部特征。该方法还包括：通过基于每个输入图像的第一面部区域集合执行面部验证来确定第一输入图像和第二输入图像是否包括相同个体的面部图像。

由于某些面部区域的重要性对于不同的面部图像分析任务发生变化，所以一个实施例提供了一种可以用于冲突的面部图像分析任务的单个框架。该框架增强了不同面部图像分析任务(例如，面部验证、年龄估计、面部合成等)的性能。该框架提供端到端网络，用于从与给定的面部图像分析任务有关的一个或多个面部区域中提取具体的人口统计面部信息，并排除与该任务无关的一个或多个其他面部区域。端到端网络是被配置为执行不同的面部图像分析任务的自动流水线。例如，为了合成男性的面部图像，端到端网络专注于从男性的性别敏感面部区域中而不是从整个面部中提取面部信息。

在一个示例实现方式中，端到端网络利用学习面部特征的联合深度神经网络。对联合深度神经网络进行训练以同时学习相关学习任务集合。在训练之后，可以使用联合深度神经网络来解决冲突的面部图像分析任务，因为从某个学习任务中学习到的特征也可能与另一个学习任务有关。例如，可以将面部验证设置为主要任务，并且可以将年龄估计设置为辅助任务。在一个实施例中，端到端网络包括连体(Siamese)深度神经网络，连体深度神经网络包括共享相同的参数(例如权重)的两个耦合的深度卷积神经网络(CNN)。可以将对比损失用于面部验证，并且可以将soft-max函数用于年龄估计。

一个实施例提供了一种基于学习的模型，用于自动的显著面部区域检测。该基于学习的模型可以用于冲突的面部图像分析任务。基于学习的模型可以用于定位与具体的面部图像分析任务有关的显著的面部区域，由此增加人口统计面部信息感知的准确性。例如，对于面部验证，可以使用基于学习的模型从年龄不变面部区域中提取面部信息。相比之下，对于年龄估计，可以使用相同的基于学习的模型从年龄敏感面部区域(即，具有年龄变化的面部区域)中提取面部信息。

一个实施例提供了一种用于年龄估计和身份估计这二者的多任务框架。该框架可以对不同的面部衰老基准数据集(例如MORPH和FG-NET)来应用。考虑年龄变化的面部验证(即，在表现出大年龄间隔的面部图像之间进行面部匹配)可以具有广泛的应用，例如(但不限于)寻找失踪人员(例如，在很长一段时间之后识别被拐卖的儿童)和其他司法领域。

图1示出了一个或多个实施例中用于实现面部分析系统100的示例计算架构10。计算架构10包括初始化和训练系统40，该初始化和训练系统40包括计算硬件，例如(但不限于)一个或多个处理器设备41和一个或多个存储设备42。计算架构10还包括面部分析系统100，面部分析系统100包括计算硬件，例如(但不限于)一个或多个处理器设备110和一个或多个存储设备120。如稍后在本文中详细描述的，一个或多个应用可以在一个或多个处理器设备41上执行/操作，以创建、初始化和迭代地训练由面部分析系统100维护的基于学习的模型130(图2B)。基于学习的模型130提供可以用于冲突的面部图像分析任务的单个框架。

面部分析系统100被配置为接收输入图像50(例如，个体的面部图像、对象的图像等)，并提供包括与输入图像50有关的信息在内的输出55(例如，在输入图像50中捕捉的个体的估计/预测的年龄等)。

在一个实施例中，计算架构10是集中式计算架构。在另一实施例中，计算架构10是分布式计算架构

在一个实施例中，在移动电子设备(例如平板电脑、智能电话、膝上型电脑等)上实现面部分析系统100。移动电子设备可以包括用于捕捉输入图像50的一个或多个传感器(例如相机等)。

图2A详细示出了一个或多个实施例中的初始化和训练系统40。如上所述，一个或多个应用可以在初始化和训练系统40的一个或多个处理器设备41(图1)上执行/操作。在一个实施例中，应用包括(但不限于)以下各项：(1)初始化单元45，被配置为利用面部分析系统100的计算硬件(例如，图1中所示出的一个或多个处理器设备110和/或一个或多个存储设备120)来创建和初始化面部分析系统100的基于学习的模型130(图2B)，以及(2)训练单元46，被配置为迭代地训练基于学习的模型130。在一个实施例中，初始化和训练系统40的存储设备42维护一个或多个数据库。该数据库包括(但不限于)数据库集合47，其维护用于创建、初始化和训练基于学习的模型130的参数。

图2B详细示出了一个或多个实施例中的面部分析系统100。如上所述，面部分析系统100包括基于学习的模型130，其提供可以用于冲突的面部图像分析任务的单个框架。

在一个实施例中，基于学习的模型130包括端到端深度神经网络250(图3)。如稍后在本文中详细描述的，深度神经网络250包括一个或多个卷积神经网络(CNN)，其中，每个CNN包括多个加权层，并且每个层包括经由多个突触连接来互连的多个神经元。每个层接受一个输入，并将输入变换为输出，输出被转发到后续层(如果有后续层的话)。该数据库集合47(图2A)维护用于创建、初始化和训练深度神经网络250的每个层的网络参数(例如权重等)。

在另一实施例中，基于学习的模型130包括一个或多个支持向量机(SVM)(图7)。

以下提供的表1包括识别本说明书中引用的不同参数的列表。

【表1】

图3示出了一个或多个实施例中的面部分析系统的示例深度神经网络250。在一个实施例中，深度神经网络250是包括两个耦合的深度CNN的连体深度神经网络。具体地，深度神经网络250包括第一CNN260A和第二CNN 260B。

在训练阶段中，训练深度神经网络250以同时学习任务集合T(例如回归、分类等)。为了利用集合T的任务之间的相关性来改善所有任务的推广性能，深度神经网络250实现了联合学习过程，以强制使对集合T中的一个任务的学习发生偏置，并强制通过对集合T中的一个或多个其他任务的学习来使其偏置，由此允许在任务之间传送有用的预测知识。在训练阶段之后，可以将深度神经网络250用于解决冲突的任务(例如，冲突的面部图像分析任务)，因为在训练阶段期间从一个任务中学习到的特征也可能与另一任务有关。例如，如果集合T包括面部验证和年龄估计，则针对年龄估计所学习的指示年龄的人口统计面部信息可以对面部的感知有用，并且可以与面部验证有关。

在一个实施例中，根据以下提供的等式(1)来联合优化集合T的所有任务的损失函数：

其中，耦合项强制执行知识传送。不同的耦合项可以传达关于任务如何彼此有关的不同假设。如果针对集合T的每个任务对耦合项/>进行解耦，则对任务的学习也解耦，导致没有有效的知识传送。

以上所提供的等式(1)表示由深度神经网络250实现的多任务学习目标。

在训练阶段中，学习关注于集合T中被指定为主要任务的子集上；集合T的剩余子集被指定为辅助任务。可以基于若干因素(例如(但不限于)任务的数据的可用性、任务的描述符的可用性等)来确定关于将集合T的哪个任务指定为主要任务。例如，如果集合T包括面部验证，则可以将面部验证指定为主要任务，因为存在可用于面部验证的大量面部图像。相比之下，如果集合T包括跨年龄面部识别，则跨年龄面部识别不太可能被指定为主要任务，因为可用于跨年龄面部识别的数据是有限的，并且获得实际/已知的年龄标签是具有挑战性的。

每个CNN 260A、260B对应于集合T中的至少一个任务。例如，可以训练每个CNN260A、260B以学习主要任务(例如面部验证)和辅助任务(例如年龄估计)。

在部署阶段中，深度神经网络250被配置为：(1)接收一个或多个输入图像50和对应的元数据，(2)对接收到的一个或多个输入图像50执行集合T的一个或多个任务，以及(3)基于所执行的一个或多个任务，提供与接收到的一个或多个输入图像50有关的一个或多个输出55。如果集合T包括面部图像分析任务，则一个或多个输入图像50可以包括相同个体的不同面部图像(例如，捕捉相同个体在不同年龄的面部图像以表现年龄间隔)或不同个体的不同面部图像。对于每个面部图像，面部图像的对应元数据可以包括对应的真实信息，对应的真实信息包括指示面部图像中的个体的实际年龄的实际年龄标签。

所执行的任务的数量和所提供的输出55的数量各自基于接收到的输入图像50的数量。例如，如果仅将一个输入图像50馈送到深度神经网络250用于在部署阶段中处理，则深度神经网络250对输入图像50执行至少一个任务，并基于所执行的至少一个任务来提供与输入图像50有关的至少一个输出55。在一个示例实现方式中，深度神经网络250对输入图像50执行年龄估计，并提供包括在输入图像50中捕捉的个体的估计/预测的年龄在内的单个输出55。在另一示例实现方式中，深度神经网络250对输入图像50执行面部验证和年龄估计这二者，并提供两个不同的输出—指示输入图像50和预存储/缺省的图像是否捕捉相同个体的第一输出55和包括在输入图像50中捕捉的个体的估计/预测的年龄在内的第二输出55。

作为另一示例，如果将多个输入图像50馈送到深度神经网络250用于在部署阶段中处理，则深度神经网络250对输入图像50执行多个任务，并提供与输入图像50有关的多个不同的输出55。在一个示例实现方式中，如果输入图像50包括第一输入图像50和第二输入图像50，则深度神经网络250对第一输入图像50和第二输入图像50执行面部验证和年龄估计这二者，并提供三个不同的输出55—指示第一输入图像50和第二输入图像50是否捕捉相同个体的第一输出55、包括第一输入图像50中捕捉的个体的估计/预测的年龄在内的第二输出55和包括第二输入图像50中捕捉的个体的估计/预测的年龄在内的第三输出55。

即使可用于任务的数据是有限的，深度神经网络250也被配置为生成足够的训练数据，因为深度神经网络250是连体(Siamese)深度神经网络。例如，对于在输入图像中捕捉的个体/对象，深度神经网络250可以生成相应的正样本对集合和相应的负样本对集合。对于面部验证，正样本对可以包括相同个体/对象的一对面部图像，且负样本对可以包括不同的个体/对象的一对面部图像。

例如，如果集合T包括面部图像分析任务并且存在个体可用的n个不同面部图像，则深度神经网络250可以生成Cn²正样本对，其中，C是正整数。

在一个实施例中，可以最小化对比(即判别)损失函数以减小相同的个体/对象的图像之间的差异并增加不同的个体/对象的图像之间的差异。在一个实施例中，对于一对输入图像(i,j)，可以根据以下提供的等式(2)来定义用于估计面部验证的损失的对比损失函数LF：

其中，m是正数，其中，Dij表示根据以下提供的等式(2.1)来定义的特征距离：

其中，根据以下提供的等式(2.2)来定义：

其中，对于不同的个体/对象，Z_ij＝1(即，i和j是负样本对)，以及对于相同的个体/对象，Z_ij＝0(即，i和j是正样本对)。正数m用作余量(margin)以确保负样本对的能量函数比正样本对的能量函数大至少m。对比损失函数LF包括两个惩罚：(1)对相距太远的正样本对进行惩罚的第一惩罚Z_ijD_ij，以及(2)对比余量m近的负样本对进行惩罚的第二惩罚max(m-D_ij,0)。如果负样本对已经分开了余量m，则针对该对没有惩罚。

在一个实施例中，每个CNN 260A、260B包括用于学习对于集合T来说共有的中级特征的公共中间层集合265。例如，在训练阶段中，训练每个CNN 260A、260B的每个公共中间层集合265以学习与主要任务和辅助任务均有关的中级特征。

在一个实施例中，每个CNN 260A、260B的每个公共中间层集合265共享网络参数(例如，第一公共中间层集合265的权重参数与第二公共中间层集合265的权重参数相同)。

在一个实施例中，每个CNN 260A、260B还包括不同的独立层集合266。每个独立层266对应于集合T的任务，并被训练以学习与对应的任务有关的特征。不同的独立层266不在集合T的不同任务之间共享。例如，在训练阶段，训练每个CNN 260A、260B的一个独立层266A以学习与主要任务(例如面部验证)有关的特征。此外，训练每个CNN 260A、260B的不同的独立层266B以学习与辅助任务(例如年龄估计)有关的特征。如图3所示，每个CNN 260A、260B的每个公共中间层集合265连接CNN 260A、260B的每个独立层266。

在部署阶段中，每个CNN 260A、260B的不同的独立层266提供不同的输出。具体地，每个CNN 260A、260B的每个独立层266提供与对应的任务有关的输出。例如，每个CNN 260A、260B的每个独立层266A提供与主要任务(例如面部验证)有关的输出55。每个CNN 260A、260B的每个独立层266B提供与辅助任务(例如年龄估计)有关的输出55。

在一个实施例中，每个CNN 260A、260B的独立层266A和266B具有不同的网络参数(例如，独立层266A的权重参数与独立层266B的权重参数不同)。在一个实施例中，每个CNN260A、260B的每个独立层266A共享网络参数(例如，CNN 260A的独立层266A的权重参数与CNN 260B的独立层266A的权重参数相同)。在一个实施例中，每个CNN 260A、260B的每个独立层266B共享网络参数(例如，CNN 260A的独立层266B的权重参数与CNN 260B的独立层266B的权重参数相同)。

除了不同的独立层266之外，第一CNN 260A和第二CNN 260B具有相同的网络架构并且彼此共享网络参数，以便于在集合T的任务之间传送有用的预测知识。

图4示出了一个或多个实施例中的深度神经网络250的示例配置270。假设集合T包括面部验证和年龄估计。在示例配置270中，面部验证被指定为主要任务，且年龄估计被指定为辅助任务。在一个实施例中，用于训练深度神经网络250的多任务学习目标可以根据以下提供的等式(3)来表示：

其中，α表示指示辅助任务的重要性的可调/可配置的参数，且α∈(0,1)。

每个CNN 260A、260B的每个公共中间层集合265包括一个或多个卷积层265A(例如，每个卷积层C1、C2)和一个或多个全连接层265B(例如，每个全连接层fc6、fc7)。如图4所示，每个CNN 260A、260B的每个公共中间层集合265共享网络参数(例如，每个卷积层C1的权重参数w₁、每个卷积层C2的权重参数w₂、每个全连接层fc6的权重参数w₆、每个全连接层fc7的权重参数w₇、每个全连接层fc8的权重参数w₈、每个全连接层fc9的权重参数w₉等)。

在训练阶段中，训练每个CNN 260A、260B的每个公共中间层集合265以学习对于学习任务的集合来说共有的中级特征。例如，在训练阶段中，训练每个CNN 260A、260B的每个公共中间层集合265以学习与面部验证和年龄估计均有关的中级特征。

在训练阶段中，训练每个CNN 260A、260B的每个独立层268(例如，每个全连接层fc8)以学习从与面部验证有关的年龄不变面部区域(例如眼睛、鼻子、嘴等)中提取的特征。此外，训练每个CNN 260A、260B的每个独立层269(例如，每个全连接层fc9)以学习从与年龄估计有关的年龄敏感面部区域(例如具有皱纹的前额等)中提取的特征。

对于特定的年龄范围(例如，20至29岁)，一些面部区域可能不改变很大(例如，该年龄范围中的个体的前额可能没有皱纹)。在一个实施例中，对于该特定的年龄范围，针对面部验证来训练深度神经网络250以学习从这些面部区域中提取的特征。然而，对于不同的较老的年龄范围(例如，30至39岁)，这些相同的面部区域可能改变很多(例如，在该不同的较老的年龄范围中的个体的前额可能有皱纹)。因此，对于这个不同的较老的年龄范围，不针对面部验证来训练深度神经网络250以学习从这些相同的面部区域中提取的特征。

在一个实施例中，深度神经网络250可以利用附加因素(例如人种、性别和环境因素(例如照明等))以改善性能。

在一个实施例中，对于集合T中的每个任务，深度神经网络250包括用于确定与任务有关的损失的相应独立层266。例如，如图4所示，利用每个独立层268来确定与面部验证有关的损失(例如对比损失)，并利用每个独立层269来确定与年龄估计有关的损失(例如softmax函数)。

深度神经网络250的独立层268和269提供不同的输出。具体地，每个独立层268提供与面部验证有关的输出268A(验证损失)。每个独立层269提供与年龄估计有关的输出269A(年龄损失)。例如，响应于接收到用于在部署阶段中处理的第一输入图像50(图像1)和第二输入图像50(图像2)，深度神经网络250提供三个不同的输出—指示第一输入图像50和第二输入图像50是否捕捉相同个体的第一输出268A、包括第一输入图像50(图像1)中捕捉的个体的估计/预测的年龄信息在内的第二输出269A、以及包括第二输入图像50(图像2)中捕捉的个体的估计/预测的年龄信息在内的第三输出269A。

在一个实施例中，对于由深度神经网络250处理的至少一个面部图像，由深度神经网络250提供的估计/预测的年龄信息可以包括面部图像中捕捉的个体的对应的估计/预测的年龄。例如，估计/预测的年龄信息可以包括以下至少一项：第一输入图像50(图像1)中捕捉的个体的第一估计/预测的年龄和第二输入图像50(图像2)中捕捉的个体的第二估计/预测的年龄。

在一个实施例中，如果一个输入图像50的真实信息(即实际年龄标签)被提供给/可用于深度神经网络250，则对于不同的输入图像50，由深度神经网络250提供的估计/预测的年龄信息可以包括不同的输入图像50中捕捉的个体的相应的估计/预测的年龄。例如，如果第一输入图像50的真实信息(即实际年龄标签)被提供给/可用于深度神经网络250，则对于第二输入图像50，估计/预测的年龄信息可以包括第二输入图像50中捕捉的个体的对应的估计/预测的年龄。

在一个实施例中，年龄估计被实现为分类问题。具体地，独立层269被配置为：(1)将每个实际/已知的年龄标签编码为表示年龄的排他性指示符的多维向量(例如，78维向量)，(2)应用sigmoid函数以避免发生梯度溢出问题，以及(3)使用与年龄估计有关的损失(例如softmax损失)来测量估计/预测的年龄标签和真实信息(即实际年龄标签)之间的差异。

在一个实施例中，应用交叉熵函数来确定年龄分类的年龄损失。令i表示包括个体的面部图像在内的样本，且令yi表示个体的实际年龄。在一个实施例中，独立层269根据以下提供的等式(4)来确定指示个体的估计的年龄的估计/预测的年龄标签：

独立层269根据以下提供的等式(5)来确定用于年龄估计的损失函数LA：

针对多个年龄类别中的每个年龄类别，独立层269应用soft-max函数以向年龄类别分配概率。独立层269通过选择具有跨所有年龄类别的最高的分配概率的年龄类别来提供估计/预测的年龄标签作为输出。

除了独立层268和269之外，第一CNN 260A和第二CNN 260B具有相同的网络架构并彼此共享网络参数，以便于在面部验证和年龄估计之间传送有用的预测知识。将独立网络参数应用于独立层268。将独立网络参数/>应用于CNN 260B的独立层269。耦合项R({θ_F，θ_v})鼓励相应网络参数的相似值。在一个实施例中，耦合项R({θ_F，θ_v})可以根据以下提供的等式(6)来表达：

其中，β表示可配置的参数，其指示从年龄估计向面部验证传送的有用的预测信息的量。参数β还提供有效的正则化，以防止由CNN 260A和CNN 260B之间的自由度降低而导致的过度拟合问题。

基于以上提供的等式(3)和(6)，深度神经网络250的多任务学习目标可以表达为以下提供的等式(7)：

如果参数β→∞，则CNN 260A的第一公共中间层集合265与CNN 260B的第二公共中间层集合265相同(即，CNN 260A和CNN 260B的共享部分是相同的)。如果参数β→∞，则可以将等式(7)重写为以下提供的等式(8)：

其中，θ^s表示用于年龄估计和面部验证这二者的共享网络参数(即，)。

一个实施例通过联合学习跨面部年龄验证和年龄估计来促进学习跨年龄面部验证。联合学习跨面部年龄验证和年龄估计可以有效地排除对可能无关的某些细粒度特征的学习。此外，联合学习跨面部年龄验证和年龄估计强调使用低级特征(例如一般面部特征)来获得每个任务在更高级的特征信息，由此在维护用于年龄估计的判别衰老的线索的同时成功地保留了用于面部验证的信息。

深度神经网络250可以被配置用于不同的应用用途。一些应用需要更稳健的面部验证系统，例如在执法时。例如，可能有必要在很长一段时间内跟踪罪犯。由于衰老，在该长时间段期间，罪犯的面部容貌可能会改变很多。对于这种以及其他类似的应用，深度神经网络250应用严格的面部验证来识别年龄不变面部区域。

一些应用是多媒体中更加一般的应用，例如电话中的面部验证。例如，由于特定电话的寿命通常少于五年，所以在电话的寿命期间，面部外观可能不改变很多。对于这种以及其他类似的应用，深度神经网络250代之以应用宽松的面部验证。

图5示出了一个或多个实施例中的深度神经网络250的另一示例配置280。假设集合T包括面部验证和表情识别。在示例配置280中，面部验证被指定为主要任务，且表情识别被指定为辅助任务。如图5所示，深度神经网络250的不同的独立层266包括用于对输入图像50中捕捉的面部表情进行分类的至少一个独立层281。每个独立层281提供与表情识别有关的输出281A(表情)。例如，响应于接收到用于在部署阶段中处理的第一输入图像50(图像1)和第二输入图像50(图像2)，深度神经网络250提供三个不同的输出—指示第一输入图像50和第二输入图像50是否捕捉相同个体的第一输出268A、包括第一输入图像50(图像1)中捕捉的个体的估计/预测的面部表情分类的第二输出281A、以及包括第二输入图像50(图像2)中捕捉的个体的估计/预测的面部表情分类的第三输出281A。

图6示出了一个或多个实施例中的深度神经网络250的另一示例配置290。假设集合T包括对象识别和模糊检测。在示例配置290中，对象识别被指定为主要任务，且模糊检测被指定为辅助任务。如图6所示，深度神经网络250的不同的独立层266包括用于确定输入图像50是假阳性(FP)还是模糊的至少一个独立层291。每个独立层291提供与模糊检测有关的输出291A(FP/模糊)。例如，响应于接收到用于在部署阶段中处理的第一输入图像50(图像1)和第二输入图像50(图像2)，深度神经网络250提供三个不同的输出—指示第一输入图像50和第二输入图像50是否捕捉相同的对象的第一输出268A、指示第一输入图像50(图像1)是FP还是模糊的第二输出291A、以及指示第二输入图像50(图像2)是FP还是模糊的第三输出291A。

在另一个实施例中，代替深度神经网络，基于学习的模型130(图2B)利用基于面部区块的分类器(facial patch based classifier)来提取显著的面部区域。图7示出了一个或多个实施例中用于面部分析系统100的另一示例框架300。基于学习的模型130包括一个或多个支持向量机(SVM)分类器310。在训练阶段中，训练SVM分类器310以从捕捉面部的输入图像中提取不同的面部区块。针对不同的面部区块来训练不同的SVM分类器310。每个面部区块具有被训练以学习面部区块的对应的SVM分类器310。

面部分析系统100的确定单元320被配置为针对每个面部区块应用交叉验证，以评估用于面部区块的对应的SVM分类器310的识别性能。基于由SVM分类器310导致的输出，面部分析系统100的置信度测量单元330被配置为评估不同的面部区块的重要性。例如，具体的面部区域可能与具体的任务有关，且基于具体任务的识别性能来对这些面部区域进行排名。面部分析系统100的输出单元340被配置为：基于被确定为与具体任务有关的排名最高的面部区域的组合，提供包括与具体任务有关的信息(例如身份、性别、人种、种族等)在内的最终输出。

图8是一个或多个实施例中用于执行冲突的面部图像分析任务的示例过程800的流程图。在处理框801中，接收第一输入图像和第二输入图像。在处理框802中，针对每个输入图像，基于“基于学习的模型”和输入图像的面部图像来区分面部图像的第一面部区域集合与面部图像的第二面部区域集合，其中，第一面部区域集合包括一个或多个年龄不变面部特征，且第二面部区域集合包括一个或多个年龄敏感面部特征。在处理框803中，基于至少一个面部区域集合来并发执行冲突的面部图像分析任务。例如，可以基于包括一个或多个年龄不变面部特征在内的每个面部区域集合和包括一个或多个年龄敏感面部特征在内的每个面部区域集合来并发执行面部验证和年龄估计。

在一个实施例中，过程框801～803可以由面部分析系统100来执行。

图9是示出了包括用于实现所公开的实施例的计算机系统600在内的信息处理系统的高级框图。可以在显示设备300或服务器设备210中并入每个系统40、100。计算机系统600包括一个或多个处理器601，并且还可以包括电子显示设备602(用于显示视频、图形、文本和其他数据)、主存储器603(例如，随机存取存储器(RAM))、存储设备604(例如，硬盘驱动器)、可移除存储设备605(例如可移除存储驱动器、可移除存储器模块、磁带驱动器、光盘驱动器、其中存储有计算机软件和/或数据的计算机可读介质)、查看器接口设备606(例如键盘、触摸屏、键区、指示设备)和通信接口607(例如调制解调器、网络接口(例如以太网卡)、通信端口或PCMCIA插槽和卡)。通信接口607允许在计算机系统和外部设备之间传送软件和数据。系统600还包括通信基础设施608(例如，通信总线、交叉棒(cross-over bar)或网络)，前述设备/模块601至607连接到该通信基础设施608。

经由通信接口607传送的信息可以具有信号的形式，例如电信号、电磁信号、光学信号或能够经由通信链路通过通信接口607来接收的其他信号，该通信链路承载信号并且可以使用电线或电缆、光纤、电话线路、蜂窝电话链路、射频(RF)链路和/或其他通信信道来实现。表示本文中的框图和/或流程图的计算机程序指令可以被加载到计算机、可编程数据处理装置或处理设备上，以使得在其上执行一系列操作，以生成计算机实现的过程。

已经参考方法、装置(系统)和计算机程序产品的流程图图示和/或框图来描述实施例。这些图示/图中的每个框或其组合可以通过计算机程序指令来实现。当将其提供给处理器时，计算机程序指令产生机器，使得经由处理器执行的指令创建用于实现流程图和/或框图中规定的功能/操作的装置。流程图/框图中的每个框可以表示硬件和/或软件模块或逻辑。在备选的实现方式中，框中记录的功能可以不以图中所示的顺序发生、可以并发地发生等。

术语“计算机程序介质”、“计算机可用介质”、“计算机可读介质”和“计算机程序产品”一般用于指代诸如主存储器、辅存储器、可移除存储驱动器、安装在硬盘驱动器中的硬盘之类的介质和信号。这些计算机程序产品是用于向计算机系统提供软件的装置。计算机可读介质允许计算机系统从计算机可读介质读取数据、指令、消息或消息分组以及其他计算机可读信息。计算机可读介质例如可以包括非易失性存储器，例如软盘、ROM、闪存、磁盘驱动器存储器、CD-ROM和其他永久性存储。其例如用于在计算机系统之间传输诸如数据和计算机指令之类的信息。计算机程序指令可被存储在计算机可读介质中，计算机可读介质可以指导计算机、其他可编程数据处理装置或其他设备按照特定的方式作用，使得计算机可读介质中存储的指令产生制造物品，该制造物品包括实现流程图和/或一个或多个框图框中规定的功能/动作的指令。

本领域技术人员应认识到：实施例的各方面可以体现为系统、方法或计算机程序产品。因此，实施例的各方面可以采取全硬件实施例、全软件实施例(包括固件、驻留软件、微代码等)或组合了软件和硬件方面的实施例的形式，它们在本文中可以统称为“电路”、“模块”或“系统”。此外，实施例的各方面可以采取在一个或多个计算机可读介质中体现的计算机程序产品的形式，一个或多个计算机可读介质具有其上体现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读存储介质。计算机可读存储介质可以是例如(但不限于)电、磁、光、电磁、红外或半导体系统、装置或设备、或者前述各项的任何合适的组合。计算机可读存储介质的更具体的示例(非穷尽性列表)将包括以下各项：具有一个或多个电线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式高密度盘只读存储器(CD-ROM)、光学存储设备、磁存储设备、或前述各项的任何合适的组合。在本文档的上下文中，计算机可读存储介质可以是任何有形介质，该任何有形介质可以包含或存储由指令执行系统、装置或设备使用或与指令执行系统、装置或设备相关的程序。

可以用一种或多种编程语言的任何组合来编写用于执行一个或多个实施例的各方面的操作的计算机程序代码，该一种或多种编程语言包括面向对象的编程语言(例如Java、Smalltalk、C++等)以及传统的程序化编程语言(例如”C”编程语言或类似的编程语言)。程序代码可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立软件包来执行，部分在用户计算机上且部分在远程计算机上执行，或完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或者可以与外部计算机(例如，通过使用互联网服务提供商的互联网)进行连接。

以上已经参考方法、装置(系统)和计算机程序产品的流程图图示和/或框图描述了一个或多个实施例的各方面。应当理解：流程图图示和/或框图中的每一个框、以及流程图图示和/或框图中的多个框的组合可以通过计算机程序指令来实现。可以将这些计算机程序指令提供给专用计算机或用来产生机器的其他可编程数据处理装置，使得该指令(经由计算机的处理器或其他可编程数据处理装置执行)创建用于实现流程图和/或一个或多个框图框中规定的功能/动作的装置。

也可以将这些计算机程序指令存储在计算机可读介质中，该计算机可读介质可以指导计算机、其他可编程数据处理装置或其他设备以按照特定的方式作用，使得在计算机可读介质中存储的指令来产生制造物品，该制造物品包括实现在流程图和/或一个或多个框图框中规定的功能/动作的指令。

也可以将计算机程序指令加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机或其他可编程装置上执行的指令提供用于实现流程图和/或一个或多个框图框中规定的功能/动作的过程。

附图中的各流程图和框图示出了根据各种实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。关于这一点，流程图或框图中的每个框可以表示模块、段或指令的一部分，其包括用于实现规定的逻辑功能的一个或多个可执行指令。在一些备选实现方式中，框中记录的功能可以不以图中所示的顺序发生。例如，连续示出的两个框事实上可以是基本同时执行的，或者各框在某些时候会以相反的顺序执行，这取决于所涉及到的功能。还将注意到：框图和/或流程图图示中的每个框以及框图和/或流程图图示中框的组合可以由基于专用硬件的系统来实现，该系统执行指定的功能或动作，或执行专用硬件和计算机指令的组合。

除非明确地阐述，否则权利要求中对单数形式的元素的引用不旨在意指“一个且仅一个”，而是“一个或多个”。本领域普通技术人员目前已知的或者以后知晓的上述示例性实施例的元素的所有结构和功能等同物旨在被本权利要求所涵盖。除非使用短语“用于…的装置”或“用于…的步骤”来明确陈述元素，否则不应按照35U.S.C.第112条第六款的规定来解释本文中的权利要求元素。

本文中所使用的术语仅仅是出于描述特定实施例的目的，而不是旨在限制本发明。如本文中使用的，单数形式“一”，“一个”和“所述”旨在还包括复数形式，除非上下文明确地给出相反的指示。还应理解，术语“包括”和/或“包含”当在本说明书中使用时表明存在所声明的特征、整数、步骤、操作、元素和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、组件和/或其组合。

以下权利要求中的所有手段或步骤加功能元素的对应的结构、材料、动作和等同物旨在包括与具体要求保护的其它要求保护的元素相组合地执行该功能的任何结构、材料或动作。已经出于图示和描述的目的而呈现了对实施例的描述，但不旨在以所公开的形式穷举或限制本实施例。在不脱离本发明的范围和精神的情况下，许多修改和变化对于本领域普通技术人员是显而易见的。

尽管已经参考实施例的某些版本描述了实施例；但其它版本是可能的。因此，所附权利要求的精神和范围不应受限于本文中所包含的对优选版本的描述。

Claims

1.一种用于面部图像分析的方法，包括：

接收第一输入图像和第二输入图像，其中，每个输入图像包括个体的面部图像；

对于每个输入图像：

根据基于学习的模型来确定所述面部图像的第一面部区域集合与所述面部图像的第二面部区域集合，其中所述基于学习的模型包括联合的第一卷积神经网络CNN和第二卷积神经网络CNN，并且所述基于学习的模型被训练为学习与不同面部图像分析任务相关的不同面部特征，并且其中，所述第一面部区域集合包括包含一个或多个年龄不变面部特征在内的至少一个面部区域，以及

所述第二面部区域集合包括包含一个或多个年龄敏感面部特征在内的至少一个其他面部区域；

针对面部验证，使用所述第一卷积神经网络CNN和所述包含一个或多个年龄不变面部特征在内的至少一个面部区域来执行第一面部图像分析任务；以及

针对年龄估计，使用所述第二卷积神经网络CNN和所述包含一个或多个年龄敏感面部特征在内的至少一个其他面部区域来执行第二面部图像分析任务，

其中所述第一卷积神经网络CNN和所述第二卷积神经网络CNN中的每个包括第一独立层和第二独立层，

其中所述第一独立层被训练为学习从所述面部图像的第一面部区域集合提取的特征，并且

其中所述第二独立层被训练为学习从所述面部图像的第二面部区域集合提取的特征。

2.根据权利要求1所述的方法，其中，

执行所述第一面部图像分析任务包括：通过基于从与每个输入图像相对应的每个第一面部区域集合提取的至少一个年龄不变面部特征执行面部验证，确定所述第一输入图像和所述第二输入图像是否包括相同个体的面部图像，并且

执行所述第二面部图像分析任务包括：对于每个输入图像，通过基于从与每个输入图像相对应的每个第二面部区域集合提取的至少一个年龄敏感面部特征执行年龄估计，估计在所述输入图像中捕捉的个体的年龄。

3.根据权利要求2所述的方法，其中，并发执行所述年龄估计和所述面部验证。

4.根据权利要求1所述的方法，其中，基于包括相同个体在不同年龄的面部图像在内的一对训练图像，同时训练所述基于学习的模型以区分所述包含一个或多个年龄敏感面部特征在内的至少一个面部区域和所述包含一个或多个年龄不变面部特征在内的至少一个其他面部区域。

5.根据权利要求1所述的方法，其中，包括一个或多个年龄不变面部特征在内的面部区域包括面部的包括眼睛、鼻子或嘴之一在内的区域。

6.根据权利要求1所述的方法，其中，包括一个或多个年龄敏感面部特征在内的面部区域包括面部的包括前额在内的区域。

7.一种用于面部图像分析的系统，包括：

至少一个处理器；以及

存储指令的非暂时性处理器可读存储器设备，所述指令在由所述至少一个处理器执行时使所述至少一个处理器执行包括以下各项在内的操作：

接收第一输入图像和第二输入图像，其中

每个输入图像包括个体的面部图像；

对于每个输入图像：

根据基于学习的模型，确定所述面部图像的第一面部区域集合与所述面部图像的第二面部区域集合，其中所述基于学习的模型包括联合的第一卷积神经网络CNN和第二卷积神经网络CNN，并且所述基于学习的模型被训练为学习与不同面部图像分析任务相关的不同面部特征，并且其中，所述第一面部区域集合包括包含一个或多个年龄不变面部特征在内的至少一个面部区域，以及

8.根据权利要求7所述的系统，其中：

9.根据权利要求8所述的系统，其中，并发执行所述年龄估计和所述面部验证。

10.根据权利要求7所述的系统，其中，基于包括相同个体在不同年龄的面部图像在内的一对训练图像，同时训练所述基于学习的模型以区分所述包含一个或多个年龄敏感面部特征在内的至少一个面部区域和所述包含一个或多个年龄不变面部特征在内的至少一个其他面部区域。

11.一种非暂时性计算机可读存储介质，包括用于执行方法的指令，所述方法包括：

对于每个输入图像：

12.根据权利要求11所述的计算机可读存储介质，其中，

13.根据权利要求12所述的计算机可读存储介质，其中，并发执行所述年龄估计和所述面部验证。

14.根据权利要求11所述的计算机可读存储介质，其中，基于包括相同个体在不同年龄的面部图像在内的一对训练图像，同时训练所述基于学习的模型以区分所述包含一个或多个年龄敏感面部特征在内的至少一个面部区域和所述包含一个或多个年龄不变面部特征在内的至少一个其他面部区域。