CN113994341A

CN113994341A - 面部行为分析

Info

Publication number: CN113994341A
Application number: CN202080044948.0A
Authority: CN
Inventors: 斯特凡诺斯·扎菲里乌; 迪米特里奥斯·科利亚斯
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-06-28
Filing date: 2020-06-22
Publication date: 2022-01-28
Also published as: GB2588747A; GB201909300D0; GB2588747B; WO2020260862A1

Abstract

本说明书涉及使用神经网络分析面部图像中的面部行为的多种方法。根据本发明的第一方面，描述了一种训练神经网络进行面部行为分析的方法，所述方法包括：向所述神经网络输入多个面部图像，其中，所述多个面部图像包括：第一数据集中的一个或多个第一面部图像，其中，所述第一训练数据集包括分别具有已知情感标签的多个面部图像；第二数据集的一个或多个第二面部图像，其中，所述第二训练数据集包括分别具有已知动作单元激活的多个面部图像；使用所述神经网络为所述多个面部图像分别生成预测情感标签和预测动作单元激活；根据以下比较更新所述神经网络的参数：所述一个或多个第一面部图像的预测情感标签与所述一个或多个第一面部图像的已知情感标签的比较，所述一个或多个第二面部图像的预测动作单元激活与所述一个或多个第二面部图像的已知动作单元激活的比较。

Description

面部行为分析

发明领域

本发明涉及使用神经网络分析面部图像中的面部行为的多种方法，以及通过处理面部图像训练神经网络进行面部行为分析的多种方法。

背景技术

自动面部行为分析涉及从面部视觉数据中确定人类情感状态(例如情感)。面部行为分析具有广泛的应用，例如，改善人机(计算机)/人机(机器人)交互。此外，面部行为分析系统可用于自动标注数据(例如，视觉/音频数据)，例如通过确定人类对数据的反应而不需要手动标注。因此，改进面部行为分析的系统和方法可以改进针对这些和其它应用的系统。

开发在不受约束条件(例如“野外”)下记录的面部图像的面部行为分析的方法和系统是一项艰巨的任务。标注野外数据集所需的标签可能需要高成本，因为它们可能需要熟练的标注者来提供这些手动标注，因此，具有这些标签的数据集可能比开发具有预期性能水平的面部行为分析系统所需的示例更少。此外，面部行为分析包括各种不同的任务，这些任务反映了不同但相互关联的各方面人类情感状态。

发明内容

根据本发明的第一方面，描述了一种训练神经网络进行面部行为分析的方法，所述方法包括：向所述神经网络输入多个面部图像，其中，所述多个面部图像包括：第一数据集中的一个或多个第一面部图像，其中，所述第一训练数据集包括分别具有已知情感标签的多个面部图像；第二数据集的一个或多个第二面部图像，其中，所述第二训练数据集包括分别具有已知动作单元激活的多个面部图像；使用所述神经网络为所述多个面部图像分别生成预测情感标签和预测动作单元激活；根据以下比较更新所述神经网络的参数：所述一个或多个第一面部图像的预测情感标签与所述一个或多个第一面部图像的已知情感标签的比较，所述一个或多个第二面部图像的预测动作单元激活与所述一个或多个第二面部图像的已知动作单元激活的比较。

所述比较可以由多任务目标函数执行，所述多任务目标函数包括：将预测情感标签与已知情感标签进行比较的情感损失；将预测动作单元激活与已知动作单元激活进行比较的激活损失。所述情感损失和/或激活损失包括交叉熵损失。

所述多个面部图像还可以包括第三数据集中的一个或多个第三面部图像，其中，所述第三训练数据集包括分别具有已知效价值和/或唤起度值的多个面部图像。更新所述神经网络的所述参数还可以根据所述一个或多个第三面部图像的预测效价值和/或唤起度值与所述一个或多个第三面部图像的已知效价值和/或唤起度值的比较来进行。所述比较可以是通过多任务目标函数执行的，所述多任务目标函数包括将预测效价值和/或唤起度值与已知效价值和/或唤起度值进行比较的连续损失。所述连续损失可以包括所述预测效价值和/或唤起度值与所述已知效价值和/或唤起度值之间的一致性相关系数的度量。

所述第一数据集中的所述面部图像可以分别与导出的动作单元激活相关联，所述导出的动作单元激活是根据所述面部图像的所述已知情感标签确定的。所述神经网络的所述参数可以根据所述一个或多个第一面部图像的所述预测动作单元激活与所述一个或多个第一面部图像的所述导出动作单元激活的比较来更新。所述第二数据集中的一个或多个面部图像可以分别与导出的情感标签相关联，其中，每个导出的情感标签是根据所述面部图像的所述已知动作单元激活确定的。所述神经网络的所述参数可以根据所述一个或多个第二面部图像的所述预测情感标签与所述一个或多个第二面部图像的对应的导出的情感标签的比较来更新。所述导出的动作单元激活和所述导出的情感标签可以根据每个情感标签的原型动作单元激活集和每个情感标签的加权动作单元激活集来确定。所述导出的情感标签可以是可能的情感标签集的分布。所述预测情感标签可以包括所述可能情感集之间的概率度量。所述神经网络的所述参数可以根据所述导出的情感标签与所述预测情感标签的比较来更新。

所述神经网络的所述参数可以根据所述预测动作单元激活的分布与动作单元激活的预期分布的比较来更新，所述动作单元激活的预期分布是根据多个面部图像的所述预测情感标签确定的。所述动作单元激活的预期分布还可以根据情感标签和动作单元激活之间的建模关系来确定。

所述方法可以是迭代的，直到满足阈值条件。

根据本发明的另一方面，描述了一种面部行为分析方法，所述方法包括：向神经网络输入面部图像；使用所述神经网络对所述面部图像进行处理；从所述神经网络输出所述面部图像的预测情感标签、所述面部图像的预测动作单元激活和/或所述面部图像的预测效价值和/或唤起度值，其中，所述神经网络包括使用本文所描述的训练方法确定的多个参数。

根据本发明的另一方面，描述了一种系统，包括：一个或多个处理器；存储器，其中，所述存储器包括计算机可读指令，当由一个或多个处理器执行所述计算机可读指令时，使所述系统执行本文描述的方法中的一个或多个。

根据本发明的另一方面，描述了一种计算机程序产品，所述计算机程序产品包括计算机可读指令，当由计算设备执行所述计算机可读指令时，使所述计算设备执行本文所述的方法中的一个或多个。

附图简要说明

现在参考附图通过非限制性示例来描述实施例，其中：

图la和图1b示出了使用训练后的神经网络对面部图像进行面部行为分析的示例性方法的概述；

图2示出了训练神经网络对面部图像进行面部行为分析的示例性方法的概述；

图3示出了对面部图像进行面部行为分析的神经网络的示例性结构的概述；

图4示出了训练神经网络对面部图像进行面部行为分析的示例性方法的流程图；

图5示出了使用训练后的神经网络对面部图像进行面部行为分析的示例性方法的流程图；

图6示出了用于执行本文描述的任何方法的系统/装置的示意性示例。

具体实施方式

示例性实现方式提供了对面部图像进行面部行为分析的一种或多种系统及多种方法。

改进的面部行为分析可以通过包括使用神经网络的面部行为分析方法的各种示例性实现方式来实现，神经网络是通过多任务目标函数训练的。与其它面部定位方法相比，在训练神经网络中使用这种多任务损失函数可以提高通过神经网络进行面部行为分析的性能。例如，神经网络在识别面部情感/行为方面可以具有比较低的错误率。

本文公开的多种方法和系统能够植入单个多任务、多域和多标签网络，该网络可以在与面部行为分析相关的各种任务上统一进行端到端训练。本文公开的进行面部行为分析的端到端统一训练神经网络的方法可以不需要使用预先训练的神经网络，这样可能需要微调才能在一个或多个新任务和/或一个或多个域上很好地执行。因此，与之前的方法相比，训练后的神经网络可以更好地概括在野外捕获的看不见的面部图像。训练后的神经网络同时预测不同方面的面部行为分析，并且可能由于具有增强的情感识别能力而优于单任务神经网络。此外，增强的情感识别能力可以允许神经网络生成输入面部图像的有用特征表示，因此神经网络可以成功地用于执行训练所述神经网络所针对的任务之外的任务。

例如，多个任务可以包括自动识别表情、估计连续情感(例如效价和/或唤起度)和检测面部单元激活(例如上/内眉、皱鼻纹的激活，面部单元激活在这里也称为动作单元激活)。用于训练神经网络的面部图像可以来自多个域。例如，面部图像可以是通过用户操作移动设备的相机捕获的，面部图像可以从视频帧中提取，并且可以在受控的、基于实验室的记录环境中捕获(同时仍然允许受试者的自然表达)。用于训练神经网络的一个面部图像可以具有多个标签；这些标签中的一个或多个可以从已知标签导出，如下文将结合图2所述。

图1a和图1b示出了使用训练后的神经网络对面部图像进行面部行为分析的示例性方法的概述。所述方法也将面部图像102作为输入，并使用训练后的神经网络104输出预测情感标签106、预测动作单元(action unit，AU)激活108，以及可选地输出预测效价值和/或唤起度值110。

面部图像102(x)是包括一个或多个面部的图像。例如，在彩色图像中，

其中，H是图像的高度(以像素为单位)，W是图像的高度(以像素为单位)，图像具有三个颜色通道(例如RGB或CIELAB)。在一些实施例中，面部图像102、108可以是黑白/灰度的。此外或可替换地，与面部有关的任何视觉数据可以输入到本文描述的系统和方法中，例如，3D面部扫描和3D面部视觉数据的UV表示。

预测情感标签106是描述面部图像102中存在的面部的预测情感/表情的标签。情感标签可以是一个离散变量，可以取可能的值集中的一个值。例如，可能的情感集可以包括：愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中立。预测情感标签106可以由尺寸等于可能情感数量的one-hot向量表示，具有除了对应于预测情感的索引值之外的非零条目。此外或可替换地，预测情感标签106可以取多个值，该值可以表示复杂情感。此外或可替换地，预测情感标签106可以表示可能情感集的概率分布，这种概率分布表示训练后的神经网络104在其情感预测中的置信度。例如，对于所使用的情感集中的每个情感，预测情感标签106可以包括所述情感存在于输入图像102(x)中的概率，即对于每个情感标签y_emo，概率为p(y_emo|x)。

预测动作单元激活108表示面部图像102中面部的面部肌肉的预测激活。每个动作单元激活表示面部表情的一部分。例如，当一个人皱鼻子时，一个动作单元会被激活，当唇角被拉起时，另一个动作单元会被激活。动作单位(action unit，AU)编码系统是一种参照面部肌肉对面部运动进行编码的方法，作为系统分类复杂面部表情的物理表现的共同标准。获取动作单元激活的标签的成本可能很高，因为可能需要具有AU编码系统专业知识的熟练标注者手动标记带有动作单元激活的面部图像。每个动作单元的激活可以建模为二进制变量。

预测效价值和/或唤起度值110是对面部图像102中描绘的连续情感的预测。一般来说，效价值可以衡量一个人的消极/积极程度，唤起度值可以衡量一个人的主动/被动程度。这些值可以设置在标准化范围内，例如，可以在–1到1的连续范围内。

训练后的神经网络104是用于对输入面部图像102进行处理以输出预测情感标签106、预测动作单元(action unit，AU)激活108和可选地输出预测效价值和/或唤起度值110的神经网络。训练后的神经网络可以用于输出与面部行为分析相关的任何标签/目标输出。下面结合图3描述神经网络架构的各个示例。

训练后的神经网络104包括多个节点层，每个节点与一个或多个参数相关联。神经网络的每个节点的参数可以包括一个或多个权重和/或偏差。节点取上一层节点的一个或多个输出作为输入。上一层中节点的一个或多个输出由节点用来通过激活函数和神经网络的参数生成激活值。训练后的生成器神经网络106的一个或多个层可以是卷积层。

图2示出了训练神经网络(例如，图1a和图1b中的神经网络)对面部图像进行面部行为分析的示例性方法的概述。方法200包括统一训练神经网络212以执行多个面部行为分析任务；神经网络可以使用多个数据集来训练，这些数据集可以来自不同的域并具有不同的标签/目标输出。

神经网络的目标是生成与训练数据集中的标签/目标输出相似的面部视觉数据的预测值，同时很好地概括(例如，通过准确捕获各个方面的情感识别)面部视觉数据的看不见的图像。

神经网络212是以下方式训练的：处理面部图像训练批210、生成训练批210的预测值以及根据包括以下比较的多任务目标函数220更新神经网络212的参数：(i)生成的预测值与(ii)训练批210中示例的对应标签/目标输出的比较。下面结合图4描述神经网络212的示例性结构。

面部图像训练批210包括多批带有标签的训练数据。所述多批带有标签的训练数据包括第一批202-1面部图像、第二批202-2面部图像，以及可选地包括第三批202-3面部图像。每批面部图像都与不同类型的面部情感标签相关联，但是面部图像可以有多种类型的标签，并存在于其中多批面部图像中。这些批面部图像可能来自多个不同的数据集。每批的大小可能不同。例如，第一批202-1包括的面部图像可以比第二批202-2的多。第二批202-2包括的面部图像可以比第三批202-3的多。

第一批202-1包括一个或多个具有对应已知情感标签y_emo204的面部图像。第一批202-1可以包括多个面部图像。通常，情感标签可以是一个离散变量，可以取可能的值集中的一个值。例如，可能的情感集可以包括：愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中立，所以对于这7中情感，y_emo∈{1,2,…,7}。可以理解的是，可能的情感集中可以包括多于7种或少于7种情感：其中一些情感可能被省略，其它情感可以包括在可能的情感集中。

第二批202-2包括一个或多个具有对应已知动作单元激活y_au206的面部图像。第二批202-2可以包括多个面部图像。动作单元激活表示不同面部肌肉的激活，表示一种用于参照面部肌肉对面部运动进行编码的译码系统。动作单元激活可以表示为y_au∈{0,1}¹⁷，其中，17个动作单元的激活被建模为二进制变量。可以理解的是，第二批202-2中可以包括更多或更少的动作单元激活。

第三批202-3可以可选地包括在训练批210中，包括具有对应已知效价值和/或唤起度值208的一个或多个面部图像。第三批202-3可以包括多个面部图像。效价值和唤起度值是连续的情感。一般来说，效价值y_v可以衡量一个人的消极/积极程度，唤起度值y_a可以衡量一个人的主动/被动程度。这些值可以设置在标准化范围内，例如，可以在–1到1的连续范围内。如果效价值和唤起度值都包括在内，可以表示为y_va∈{-1,1}²。此外或可替换地，其它连续情感值可以包括在第三批202-3中。

在每批202中使用的训练图像210可以从多个图像集中提取，这些图像集包括具有一个或多个已知标签的面部。ResNet可用于提取面部图像和面部特征的边界框。面部特征可用于对齐提取的面部图像。提取的面部图像可以调整到固定的图像大小(例如，对于彩色图像，n乘以n乘以3，其中n是图像的宽度/高度)。在一些实施例中，提取的面部图像的强度可以归一化到范围[–1,1]。

在训练期间，在每次迭代中，多批被级联并输入到神经网络212中(或依次输入到神经网络212中)。获得多个输出数据集，并与训练批210中的面部图像的对应已知标签进行比较。根据该比较更新所述神经网络的参数。

通过输入包括多批202-1、202-2、202-3中每批的面部图像的训练批210，网络处理每一类标签的图像，因此，神经网络212的参数是根据训练数据中存在的所有类型的标签来更新的。在每批202-1、202-2、202-3包括多个面部图像的示例中，避免了参数更新中的“噪声梯度”问题，产生更好的收敛行为。此外，某些类型的成本/目标函数(如下面描述的CCC成本函数)使用一系列预测值来执行预测标签和地面真值标签的比较。

神经网络212的参数可以使用多任务目标函数220来更新，所述多任务目标函数220包括将预测情感标签214与已知情感标签204进行比较的情感损失222和将预测动作单元激活216与已知动作单元激活206进行比较的动作单元激活损失224。可选地，多任务目标函数220还可以包括将预测效价值和/或唤起度值218与已知效价值和/或唤起度值208进行比较的连续损失226。此外或可替换地，多任务目标函数220可以将预测值与从已知标签导出的标签进行比较，以便更新神经网络212的参数，下面将更详细地描述。

在一些实施例中，多任务目标函数220可以包括情感损失222。情感损失222将情感214的预测值p(y_emo|x)与已知情感标签204进行比较。此外或可替换地，情感损失222可以将预测情感标签214与导出的情感标签进行比较，如下所述。情感损失222可以包括交叉熵损失。在神经网络的输出是可能情感集的概率分布的实施例中，情感损失222可以由输入面部图像中存在的情感集上的期望值给出：

然而，可以理解的是，任何类型的分类损失都可以被替代地使用，例如，合页损失、平方损失或指数损失。

在一些实施例中，多任务目标函数220可以包括动作单元激活损失224。动作单元激活损失224将动作单元激活216的预测值p(y_au|x)与已知动作单元激活206进行比较。此外或可替换地，动作单元激活损失222可以将预测动作单元激活216与导出的动作单元激活进行比较，如下所述。动作单元激活损失224可以包括二进制交叉熵损失。在一些实施例中，动作单元激活损失224可以由以下等式给出：

其中负对数可能性可由以下等式给出：

上面等式中的δ_i∈{0,1}表示图像x是否包括i^th第个动作单元AU_i的标注。然而，可以理解的是，任何类型的分类损失都可以被使用，例如，合页损失、平方损失或指数损失。

在一些实施例中，可以用于训练神经网络的多任务目标函数220可以由以下等式给出：

实数λ₁通常是非负的，并控制激活单元损失224对情感损失222的相对贡献。

在一些实施例中，多任务目标函数220还可以包括连续损失226。连续损失226将预测效价值/唤起度值与已知效价值/唤起度值进行比较。连续损失226可以测量预测效价值/唤起度值与基本真效价值/唤起度值之间的一致性。这可以通过一致性相关系数来测量。例如，连续损失226可以由以下等式给出：

其中，i∈{v,a}。

可以在存在效价标签和唤起度标签时用于训练神经网络的多任务目标函数220的一个示例可以由以下等式给出：

多任务目标函数220的一个或多个元素可以省略。

实数λ₁,λ₂通常是非负的，并控制单个损失函数对多任务目标函数220的相对贡献。多任务目标函数中可以包括其它损失，例如分布匹配损失，下文将进一步详细讨论。

训练神经网络212以执行的不同任务可以与面部行为分析相关联。例如，描绘某一表情的面部图像也可能导致某些动作单元在描绘该表情的面部图像的基本上所有示例中被激活。这些动作单元可以称为原型动作单元。在描绘某个表情的面部图像的相当一部分示例中激活的动作单元可以被称为观察性动作单元。原型和观察性动作单位可以从经验模型中导出。例如，具有已知情感标签的图像集可以用动作单元激活来标注。观察性动作单元激活和相关权重可以从一小部分标注者观察的动作单元激活中确定。下表1示出了情感及其对应的原型动作单元和观察性动作单元的示例。

表1：情感及其原型和观察动作单位(action unit，AU)的示例权重是观察到AU激活的示例的小数部分

情感	原型AU	观察性AU(权重)
			快乐	12、25	6(0.51)
悲伤	4、15	1(0.6)、6(0.5)、11(0.26)、17(0.67)
			恐惧	1、4、20、25	2(0.57)、5(0.63)、26(0.33)
愤怒	4、7、24	10(0.26)、17(0.52)、23(0.29)
			惊讶	1、2、25、26	5(0.66)
厌恶	9、10、17	4(0.31)、24(0.26)

由于不同的任务相互关联，将其中的两个或多个任务联系在一起可能是有益的。由于生成面部图像的特征表示，可能会产生具有增强的情感识别能力的训练神经网络，从而更好地捕捉不同方面的面部行为分析。使用具有从已知标签导出的标签的一起标注的图像来训练神经网络212是将不同任务联系在一起的一种方法。将任务联系在一起的另一种方法是使用分布匹配损失，该损失在训练期间使情感和动作单元任务的预测值保持对齐。

对于具有已知情感标签204的第一批202-1中的面部图像，其它动作单元激活可以使用情感标签和动作单元之间的关联关系导出。给定一个带有情感y_emo的地面真值标注的图像x，这种情感的原型AU和观察AU可以作为其它标签。面部图像可以与仅包括原型AU和观察性AU的导出的动作单元激活y_au一起标注。观察性动作单元的激活可以使用经验导出的权重进行加权平均，例如，通过使用表1中的权重。权重与给定特定情感标签情况下激活单元存在的概率有关。此外或可选地，观察性动作单元可以具有与原型动作单元的激活相等的权重。一起标注的面部图像可以出现在训练批210中两次，一次具有情感标签，一次具有导出的动作单元激活。

类似地，对于具有已知动作单元激活206的第二批202-2中的面部图像，其它情感标签可以使用情感标签和动作单元之间的关联关系导出。对于具有动作单元y_au,的地面真值标注的图像x，可以确定它是否可以与情感标签一起标注。例如，当所有相关联的原型AU和观察性AU都存在于动作单元的地面真值标注中时，情感可能会存在。在可能存在不止一种情感的情况下，导出的情感标签y_emo可以分配给具有原型AU和观察性AU最大要求的情感。一起标注的面部图像可以出现在训练批210中两次，一次具有已知动作单元激活，一次具有导出的情感标签。

此外或可替换地，导出的情感标签可以是软标签，形成可能的情感标签集的分布。更具体地说，对于每种情感，可以通过该种情感存在的原型AU和观察性AU计算得到分数，例如，对于每个情感标签，可以根据存在的激活单元标签与原型激活单元和/或观察性激活单元的比较来确定情感标签的分布。例如，对于情感快乐，可以计算得到分数(y_au(AU12)+y_au(AU25)+0.51y_au(AU6))/(l+1+0.51)。此外或替代地，如果不重新进行加权，所有权重都可以等于1。情感类别的分数可以归一化，以形成情感标签的概率分布。例如，归一化化可以通过对每个情感标签的分数进行softmax运算来执行。

在各种实施例中，分布匹配损失也可以包括在多任务目标函数220中。分布匹配损失使训练期间情感和动作单元任务的预测值保持对齐。这可以通过预测值的概率分布和预期概率分布之间的比较来执行。动作单元激活的预期分布可以根据多个面部图像的预测情感标签来确定。例如在表1中，可以基于情感标签和动作单元激活之间的建模关系来确定。

例如，动作单元激活可以被建模为情感类别上的混合。预期动作单元激活分布可给出为：

条件概率

可以从经验模型中确定性地定义，例如表1中提供的模型。例如，对于原型动作单元和观察性动作单元，

否则为零。例如，对于情感惊讶，AU2是原型AU，对于情感恐惧，AU2是观察性AU，则

此外或可替换地，观察性动作单元的条件概率可以被加权，使得

其中，权重w可能来自表1。

动作单元的分布匹配损失可给出为：

类似地，情感类别的分布匹配损失可以使用导出的软情感标签，如上所述，给出为q(y_emo|x)。

当使用分布匹配时，示例性多任务目标函数220可以给出为：

可以省略

和

中的一个或多个。

神经网络212的参数可以使用优化过程更新，以便确定基本上优化(例如最小化)多任务目标函数220的参数的设置。例如，优化过程可以是随机梯度下降。

用于填充各批202-1、202-2、202-3的一个或多个数据集可以是可选的，并且在训练神经网络212时，与面部行为分析任务相关的其它数据集可以包括在训练批210中。在一些实施例中，训练批210可以包括具有足够变化的标签/输出目标类型的多个训练示例，使得多任务目标函数220的所有元素都有助于构成目标函数。这样，神经网络212的权重更新可以基于不嘈杂的梯度，从而允许神经网络212在训练期间更好和/或更快地收敛。

例如，如果训练数据集存储在远程数据存储服务器上，神经网络212的更快收敛可以减少将神经网络212训练到适当的性能水平所需的计算/网络资源，例如，通过减少由处理器执行的计算量，或通过减少通过网络传输的数据量。

图3示出了对面部图像进行面部行为分析的神经网络的示例性结构的概述。

在本示例中，神经网络104为卷积神经网络的形式，包括多个卷积层302和多个子采样层304。

每个卷积层302可用于将一个或多个卷积滤波器应用到所述卷积层302的输入。例如，卷积层302中的一个或多个可以应用内核大小为3、步长为1和填充大小为1的二维卷积块。但是，可以选择或替代地使用其它内核大小、步长和填充大小。在所示的示例中，神经网络104中总共有13个卷积层302。也可以使用其它数量的卷积层302。

与卷积层302交错的是多个子采样层304(在此也称为下采样层)。一个或多个卷积层302可以位于各个子采样层304之间。在所示的示例中，各子采样层304之间放置两个或三个卷积层302。每个子采样层304可用于减小到该子采样层的输入的尺寸。例如，一个或多个子采样层可以应用内核大小和步长大小为2的平均二维池化。可以选择或替代地使用其它子采样方法和/或子采样参数。

一个或多个全连接层306也可以存在于神经网络中，例如图3中示出了三个全连接层。全连接层306可以直接放在最后一个子采样层304之后，如图3所示。每个全连接层的尺寸可以为4096，其它尺寸也是可能的。最后一个全连接层可以是没有激活功能的层。由神经网络104生成的所有预测值都可以从该输出层生成。通过这种方式，所有任务的预测值都从相同的特征空间中池化。

分类层310可以放在最后一个全连接层之后，以便生成预测情感标签312。分类层310可以是一个softmax层。

多个sigmoid单元可以应用到最后一个全连接层，以便生成动作单元激活的预测值。在此示例中，有17个sigmoid单元，以便生成17个动作单元的预测值。

最后一个全连接层的直接输出可用于生成效价值/唤起度值的预测值，这些值是连续变量。

一个或多个激活函数用于神经网络106的各层中。例如，可以使用ReLU激活函数。此外或替代地，ELU激活函数可以用于一个或多个层中。此外或替代地，可以使用其它激活功能。

图4示出了训练神经网络对面部图像进行面部行为分析的示例性方法的流程图。流程图对应于上述结合图2描述的方法。

在操作4.1中，将多个面部图像输入到神经网络中。神经网络由神经网络参数(例如神经网络各层的权重和偏差)集描述。

所述多个面部图像包括：第一数据集中的一个或多个第一面部图像，其中，所述第一训练数据集包括分别具有已知情感标签的多个面部图像；第二数据集中的一个或多个第二面部图像，其中，所述第二训练数据集包括分别具有已知动作单元激活的多个面部图像。第一数据集中的多个面部图像可以分别与导出的动作单元激活相关联。导出的动作单元激活可以根据所述面部图像的已知情感标签来确定。第二数据集中的一个或多个面部图像可以分别与导出的情感标签相关联。每个导出的情感标签可以根据所述面部图像的已知动作单元激活来确定。所述导出的动作单元激活和所述导出的情感标签可以根据每个情感标签的原型动作单元激活集和每个情感标签的加权动作单元激活集来确定。所述导出的情感标签可以是可能的情感标签集的分布。

所述多个面部图像还可以包括第三数据集中的一个或多个第三面部图像，其中，所述第三训练数据集包括分别具有已知效价值和/或唤起度值的多个面部图像。

在操作4.2，使用神经网络为多个面部图像中的每个面部图像生成预测情感标签和预测动作单元激活。所述预测情感标签可以包括所述可能情感集之间的概率度量。在一些实施例中，还生成预测效价值和/或唤起度值。

神经网络通过多个神经网络层处理输入面部图像，以输出预测情感标签和预测动作单元激活(以及可选地输出预测效价值和觉醒值)。

在操作4.3中，更新神经网络的参数。根据以下比较进行更新：一个或多个第一面部图像的预测情感标签与所述一个或多个第一面部图像的已知情感标签的比较；一个或多个第二面部图像的预测动作单元激活与所述一个或多个第二面部图像的已知动作单元激活的比较。还可以根据所述一个或多个第三面部图像的预测效价值和/或唤起度值与所述一个或多个第三面部图像的所述已知效价值和/或唤起度值的比较来更新所述神经网络的所述参数。

在一些实施例中，所述神经网络的所述参数可以根据所述一个或多个第一面部图像的所述预测动作单元激活与所述一个或多个第一面部图像的所述导出动作单元激活的比较来更新，如上文结合图2所述。所述神经网络的所述参数可以根据所述一个或多个第二面部图像的所述预测情感标签与所述一个或多个第二面部图像的对应的导出的情感标签的比较来更新，如上文结合图2所述。神经网络的参数可以根据导出的情感标签与预测情感标签的比较来更新。神经网络的参数可以根据预测动作单元激活的分布与动作单元激活的预期分布的比较来更新，如上文结合图2所述。动作单元激活的预期分布可以根据多个面部图像的预测情感标签确定。所述动作单元激活的预期分布还可以根据情感标签和动作单元激活之间的建模关系来确定。

上述比较可以由多任务目标函数执行。多任务目标函数可以包括：将预测情感标签与已知情感标签进行比较的情感损失；将预测动作单元激活与已知动作单元激活进行比较的激活损失。情感损失和/或激活损失分别可以包括交叉熵损失。多任务目标函数还可以包括将预测效价值和/或唤起度值与已知效价值和/或唤起度值进行比较的连续损失。所述连续损失可以包括所述预测效价值和/或唤起度值与所述已知效价值和/或唤起度值之间的一致性相关系数的度量。

优化过程可以用来更新神经网络的参数。这种优化过程的一个示例是梯度下降算法，但是也可以使用其它方法。

操作4.1至4.3可以是迭代的，直到满足阈值条件。阈值条件可以是预定次数的迭代或预定数量的训练时段。或者，阈值条件可以是迭代之间的多任务损失函数的值的变化小于预定阈值。也可以使用用于终止训练过程的阈值条件的其它示例。

图5示出了使用训练后的神经网络对面部图像进行面部行为分析的示例性方法的流程图。流程图对应于上述结合图la和1b描述的方法。神经网络的参数可以使用本文描述的任何训练方法来确定(即，神经网络使用本文描述的任何训练方法来训练)。

在操作5.1中，将面部图像输入到神经网络中。

在操作5.2中，使用神经网络处理图像。面部图像通过多个神经网络层进行处理。

在操作5.3中，从神经网络输出面部图像的预测情感标签、面部图像的预测动作单元激活和/或面部图像的预测效价值和/或唤起度值。

图6示出了用于执行本文描述的任何方法的系统/装置的示意性示例。所示的系统/装置是计算设备的示例。本领域技术人员将理解，其它类型的计算设备/系统可替代地用于实现本文所述的方法，例如分布式计算系统。

装置(或系统)600包括一个或多个处理器602。一个或多个处理器控制系统/装置600的其它组件的操作。例如，一个或多个处理器602可以包括通用处理器。一个或多个处理器602可以是单核设备或多核设备。一个或多个处理器602可以包括中央处理单元(centralprocessing unit，CPU)或图形处理单元(graphical processing unit，GPU)。或者，一个或多个处理器602可以包括专用处理硬件，例如，RISC处理器或具有嵌入式固件的可编程硬件。可以包括多个处理器。

系统/装置包括工作或易失性存储器604。一个或多个处理器可以访问易失性存储器604以便处理数据，并且可以控制数据在存储器中的存储。易失性存储器604可以包括任何类型的RAM，例如静态RAM(Static RAM，SRAM)、动态RAM(Dynamic RAM，DRAM)，或者可以包括闪存，例如SD卡。

系统/装置包括非易失性存储器606。非易失性存储器606存储一组操作指令608，用于以计算机可读指令的形式控制处理器602的操作。非易失性存储器606可以是任何类型的存储器，例如只读存储器(Read Only Memory，ROM)、闪存或磁驱动存储器。

一个或多个处理器602用于执行操作指令608以使系统/装置执行本文描述的任何方法。操作指令608可以包括与系统/装置600的硬件组件有关的代码(即驱动程序)，以及与系统/装置600的基本操作有关的代码。一般来说，一个或多个处理器602执行永久或半永久存储在非易失性存储器606中的操作指令608中的一个或多个指令，使用易失性存储器604临时存储在执行所述操作指令608期间生成的数据。

本文描述的方法的实现可以在数字电子电路、集成电路、专门设计的专用集成电路(application specific integrated circuit，ASIC)、计算机硬件、固件、软件和/或其组合中实现，可以包括计算机程序产品(例如存储在例如磁盘、光盘、存储器、可编程逻辑器件上的软件)，包括计算机可读指令，当由计算机执行时，例如结合图6描述的指令，使得计算机执行本文描述的一个或多个方法。

本文描述的任何系统特征也可以作为方法特征提供，反之亦然。如本文所使用，装置加功能特征可以根据它们的相应结构来表示。具体地，方法方面可以应用于系统方面，反之亦然。

此外，一个方面中的任何、一些和/或所有特征可以以任何适当的组合应用于任何其它方面中的任何、一些和/或所有特征。还应理解，在本发明的任何方面中描述和定义的各种特征的特定组合可以独立地实现和/或提供和/或使用。

虽然已经示出和描述了几个实施例，但本领域技术人员将理解，在不背离本公开的原理的情况下，可以在这些实施例中进行改变，其范围在权利要求中定义。

Claims

1.一种计算机实现的训练神经网络进行面部行为分析的方法，其特征在于，所述方法包括：

向所述神经网络输入多个面部图像，其中，所述多个面部图像包括：

第一数据集中的一个或多个第一面部图像，其中，所述第一训练数据集包括分别具有已知情感标签的多个面部图像；

第二数据集中的一个或多个第二面部图像，其中，所述第二训练数据集包括分别具有已知动作单元激活的多个面部图像，

使用所述神经网络为所述多个面部图像分别生成预测情感标签和预测动作单元激活；

根据以下比较更新所述神经网络的参数：

所述一个或多个第一面部图像的预测情感标签与所述一个或多个第一面部图像的已知情感标签的比较；

所述一个或多个第二面部图像的预测动作单元激活与所述一个或多个第二面部图像的已知动作单元激活的比较。

2.根据权利要求1所述的方法，其特征在于，所述比较是通过多任务目标函数执行的，所述多任务目标函数包括：

将预测情感标签与已知情感标签进行比较的情感损失；

将预测动作单元激活与已知动作单元激活进行比较的激活损失。

3.根据权利要求2所述的方法，其特征在于，所述情感损失和/或激活损失包括交叉熵损失。

4.根据上述权利要求中任一项所述的方法，其特征在于，所述多个面部图像还包括第三数据集中的一个或多个第三面部图像，其中，所述第三训练数据集包括分别具有已知效价值和/或唤起度值的多个面部图像，所述方法还包括生成预测效价值和/或唤起度值，并且所述更新所述神经网络的参数还根据所述一个或多个第三面部图像的预测效价值和/或唤起度值与所述一个或多个第三面部图像的已知效价值和/或唤起度值的比较来进行。

5.根据权利要求4所述的方法，其特征在于，所述比较是通过多任务目标函数执行的，所述多任务目标函数包括将预测效价值和/或唤起度值与已知效价值和/或唤起度值进行比较的连续损失。

6.根据权利要求6中任一项所述的方法，其特征在于，所述连续损失包括所述预测效价值和/或唤起度值与所述已知效价值和/或唤起度值之间的一致性相关系数的度量。

7.根据上述权利要求中任一项所述的方法，其特征在于，

所述第一数据集中的所述多个面部图像分别与导出的动作单元激活相关联，所述导出的动作单元激活是根据所述面部图像的已知情感标签确定的；

所述神经网络的所述参数是根据所述一个或多个第一面部图像的所述预测动作单元激活与所述一个或多个第一面部图像的导出的动作单元激活的比较来更新的。

8.根据权利要求7所述的方法，其特征在于，

所述第二数据集中的一个或多个面部图像分别与导出的情感标签相关联，其中，每个导出的情感标签是根据所述面部图像的已知动作单元激活确定的；

所述神经网络的所述参数是根据所述一个或多个第二面部图像的所述预测情感标签与所述一个或多个第二面部图像的对应导出的情感标签的比较来更新的。

9.根据权利要求8所述的方法，其特征在于，所述导出的动作单元激活和所述导出的情感标签是根据每个情感标签的原型动作单元激活集和每个情感标签的加权动作单元激活集来确定的。

10.根据权利要求8或9所述的方法，其特征在于，所述导出的情感标签是可能的情感标签集的分布。

11.根据权利要求10所述的方法，其特征在于，

所述预测情感标签包括所述可能情感集之间的概率度量；

所述神经网络的所述参数是根据所述导出的情感标签与所述预测情感标签的比较来更新的。

12.根据上述权利要求中任一项所述的方法，其特征在于，所述神经网络的所述参数是根据所述预测动作单元激活的分布与动作单元激活的预期分布的比较来更新的，所述动作单元激活的预期分布是根据所述多个面部图像的所述预测情感标签确定的。

13.根据权利要求12所述的方法，其特征在于，所述动作单元激活的预期分布还是根据情感标签和动作单元激活之间的建模关系确定的。

14.根据上述权利要求中任一项所述的方法，其特征在于，

所述第一数据集中的一个或多个第一面部图像包括所述第一数据集中的多个图像；

所述第二数据集中的一个或多个第二面部图像包括所述第二数据集中的多个图像。

15.根据上述权利要求中任一项所述的方法，其特征在于，所述方法是迭代的，直到满足阈值条件。

16.一种计算机实现的面部行为分析方法，其特征在于，所述方法包括：

向神经网络输入面部图像；

使用所述神经网络对所述面部图像进行处理；

从所述神经网络输出所述面部图像的预测情感标签、所述面部图像的预测动作单元激活和/或所述面部图像的预测效价值和/或唤起度值，

其中，所述神经网络包括使用根据上述权利要求中任一项所述的训练方法确定的多个参数。

17.一种系统，其特征在于，包括：

一个或多个处理器；

存储器，其中，所述存储器包括计算机可读指令，当由所述一个或多个处理器执行时，所述计算机可读指令使得所述系统执行根据上述权利要求中任一项所述的方法。

18.一种计算机程序产品，其特征在于，包括计算机可读指令，当由计算设备执行时，所述计算机可读指令使得所述计算设备执行根据权利要求1至16中任一项所述的方法。