CN116508076A

CN116508076A - 利用自动编码器的人物特性归一化

Info

Publication number: CN116508076A
Application number: CN202180073390.3A
Authority: CN
Inventors: J·埃尔南德斯·里维拉; D·麦克达夫; M·P·切尔文斯基
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2020-10-30
Filing date: 2021-10-01
Publication date: 2023-07-28
Also published as: WO2022093475A1; EP4238073A1; US20220138583A1

Abstract

本文一般讨论的是设备、系统和方法。一种方法可以包括获得归一化自动编码器，该归一化自动编码器基于模板人物的第一数据样本和各种人物的第二数据样本被训练，由归一化自动编码器通过将输入数据样本中人物的动态特性与第一数据样本中的静态特性进行组合来归一化输入数据样本，以生成归一化的数据，以及将归一化的数据作为输入提供给分类器模型，以基于输入数据样本的动态特性和第一数据样本的静态特性来对输入数据进行分类。

Description

利用自动编码器的人物特性归一化

背景技术

在以人为中心的人工智能的各种应用中，面部表情识别技术已经成功地用于各种各样的上下文中，诸如提高人机互动、抑郁症监测、估计患者疼痛、测量电视(TV)观众的参与度以及促进驾驶员安全。即使考虑到不同面部表情的含义可能根据上下文而不同，所有这些都是可能的。为了帮助量化面部表情，研究人员通常依赖于面部动作单元编码系统(FAC)，该系统将面部动作分解为不同的肌肉激活(例如，用于唇角拉力的AU12，在微笑时经常看到)。与其他计算机视觉域一样，该领域在过去十年中取得了重大进展，至少部分原因是深度神经网络(DNN)和图形处理单元(GPU)硬件的进步使得能够训练复杂模型和分析大型数据集。

发明内容

提供该发明内容部分以简化形式介绍实施例的方面，在详细描述中对实施例进行进一步解释。本发明内容部分不旨在标识所要求保护的主题的基本或所需特征，并且本发明内容部分中列出的元素的组合和次序不旨在对所要求保护主题的元素提供限制。

系统、方法、设备和计算机或其他机器可读介质可以提供优于现有面部归一化技术的改进。这些改进可以包括跨越各种差异的人物的数据的改进性能。通常，面部归一化在具有与训练数据中所表示的人物相同或相似特征的人物的输入数据上表现良好。可以使用以特定的方式被训练和被操作的自动编码器来实现这些改进，本文其他地方将对此进行更详细的讨论。

本发明提供了一种方法、设备、计算机可读介质、部件和系统。一种设备可以包括处理电路和存储器，该存储器包括指令，该指令当由处理电路执行时使处理电路执行用于数据归一化的操作。操作可以包括由基于模板人物的第一数据样本和各种人物的第二数据样本被训练的归一化自动编码器，通过将输入数据样本中人物的动态特性与第一数据样本的静态特性进行组合来归一化输入数据样本，以生成归一化的数据。静态特性包括在第一数据样本中的相同的特性。可以将归一化的数据作为输入提供给分类器模型，以基于输入数据样本的动态特性和第一数据样本的静态特性对输入数据样本进行分类。

归一化自动编码器可以使用单个编码器和多个解码器被训练，解码器中的第一解码器专用于重构第一数据样本并且解码器中的第二解码器专用于重构第二数据样本。编码器可以基于第一解码器和第二解码器两者的重构损失被训练。第一解码器可以仅基于第一解码器的重构损失被训练。第二解码器可以仅基于第二解码器的重构损失被训练。在运行时期间，归一化自动编码器可以操作使用编码器来压缩输入数据样本的表示并且基于压缩的表示使用第一解码器来构建归一化的数据。训练可以包括可以在一批第二数据样本上执行的训练编码器和第二解码器，随后在一批第一数据样本上训练编码器和第一解码器，或者反之亦然。

第一数据样本可以是模板面部的图像。第二数据样本可以是各种面部的图像。输入数据可以是要被归一化的面部的图像。分类器模型可以提供存在于输入图像中的面部动作单元(FAU)的分类。操作还可以包括，在归一化输入数据之前，将第一数据样本和第二数据样本中的面部的角度和姿势调整为一致，并且其中归一化基于针对角度和姿势被调整的输入数据被执行。静态特性可以包括面部结构，并且动态特性可以包括嘴部形成和眼睑形成。

附图说明

图1通过示例的方式示出了用于面部归一化的自动编码器系统的实施例的图。

图2通过示例的方式示出了用于面部归一化的系统的实施例的图。

图3通过示例的方式示出了FAU分类系统的实施例的图。

图4通过示例的方式示出了使用自动编码器用于面部图像归一化的方法的实施例的图。

图5通过示例的方式示出了包括用于神经网络训练的系统的环境的示例的框图。

图6通过示例的方式示出了用于实现一个或多个实施例的机器(例如，计算机系统)的实施例的框图。

具体实施方式

在下面的描述中，参考形成其一部分的附图，并且其中通过说明的方式示出了可以实践的具体实施例。这些实施例被充分详细地描述以使本领域技术人员能够实践这些实施例。应当理解，可以使用其他实施例，并且可以在不脱离实施例的范围的情况下进行结构、逻辑和/或电气改变。因此，实施例的以下描述不应被理解为有限的意义，并且实施例的范围由所附权利要求限定。

在一些实施例中，本文描述的操作、功能或技术可以在软件中实现。该软件可以包括存储在计算机或其他机器可读介质或存储设备上的计算机可执行指令，诸如一个或多个非暂时性存储器(例如，非暂时性机器可读介质)或其他类型的基于硬件的存储设备(本地或网络)。此外，这样的功能可以对应于子系统，子系统可以是软件、硬件、固件或其组合。根据需要，可以在一个或多个子系统中执行多个功能，所描述的实施例仅仅是示例。该软件可以在数字信号处理器、专用集成电路(ASIC)、微处理器、中央处理单元(CPU)、图形处理单元(GPU)、现场可编程门阵列(FPGA)或在计算机系统(诸如，个人计算机、服务器或将这样的计算机系统变成专门编程的机器的其他计算机系统)上操作的其他类型的处理器上执行。可以使用处理电路来实现功能、操作或方法，诸如，可以包括电子和/或电气的组件(例如，一个或多个晶体管、电阻器、电容器、电感器、放大器、调制器、解调器、天线、无线电、调节器、二极管、振荡器、多路复用器、逻辑门(例如，与、或、异或、非等)、缓冲器、高速缓存、存储器、GPU、CPU、FPGA、ASIC等)。实施例考虑模型问题(例如，机器学习(ML)模型，例如神经网络(NN)，其可以包括深度NN(DNN)、卷积NN(CNN)、自动编码器等)跨不同组(组是具有不同、共同特性的人的集合)的泛化。例如，组可以包括来自一个或多个人的图像、音频或其他数据，而另一组可以包括来自其他一个或多个人的数据。在另一个示例中，一个组可以包括在特定记录设置(例如，位置，诸如，办公室、家庭等)下来自一个或多个人的数据，并且另一个组可包括在不同记录设置(例如，办公室、家庭等)下来自相同一个或多个人的数据。

实施例可以提高模型性能，并且还可以帮助防止潜在的模型偏差。尽管实施例在考虑不同群组时显示了性能改进，但跨不同数据分割之间仍存在一些差距(例如，利用女性对象的测试产生了更好的性能)。进一步改进可以帮助减少这些偏差。进行了模型分析，并显示了对当前技术的改进。

部署ML模型系统时的挑战是解释和理解模型所做的事情的能力。与经常考虑使用直观方法(例如，范围校正、相对变化)对特征进行归一化的现有工作相比，实施例可以将学习过程分成两个阶段：一个阶段专用于减少跨个体的差异，并且另一个阶段专于学习FAU识别。这种分离提供了在归一化过程之后检查每个ML模型的输出的机会。该检查可以被用于隔离概括过程中的潜在故障。共享面部外观的使用可以提供熟悉的模型内省(面部)通道，方便直观地检测ML模型的局限性。通常，分离学习过程可以帮助隔离和调试潜在的故障。

以人为中心的人工智能针对各种应用部署了ML模型，诸如，面部表情识别、行人计数、语音识别、生命体征监测、情绪识别等，在市场研究、心理治疗、图像字幕、娱乐、交通控制、城市规划、虚拟助理、促进驾驶员安全等各种应用域是期望的。然而，较大的差异源，诸如，与个体面部外观、声音、生物过程等相关联的差异源可以限制训练模型的潜在泛化。为了帮助解决这个问题，实施例使用DNN(例如，CNN自动编码器)归一化方法，该方法在保留一个或多个可变特性(例如，面部表情识别示例中的面部表情)的同时减少共同特性(例如，面部表情识别示例中的面部外观)的差异。

实施例可以使用自监督去噪自动编码器来将不同人物的面部表情转移到共同的、学习的面部模板上。自动编码器的输出可用于训练和评估其他人类特性识别模型。使用第一基准数据集作为参考，确定了实施例在个体内部和跨个体、性别(男性和女性)以及肤色类型(浅色和深色)训练和测试时的表现。实施例可以在归一化的数据时提供一致的性能增益。此外，实施例可用于利用在人口统计和数据收集设置两方面与第一基准数据集不同的第二基准数据集来改进跨数据集的泛化。

对以人为中心的ML模型应用的挑战涉及开发工具，这些工具可以跨不同的数据群组很好地执行，尽管数据中存在差异(例如，数据中表示的不同的人物、不同的人物的人口统计数据、不同的数据收集设置等)。在面部表情识别的上下文中，一些主要差异与面部外观相关联，例如头部形状和面部特征(例如，皮肤类型、面部毛发、鼻子、嘴部或耳朵形状等)。因此，使用来自同一个人的数据训练和测试的机器学习(ML)模型(有时称为“依赖于人person-dependent”(PD)模型)通常比使用来自不同人的数据训练和测试的模型(有时也称为“不依赖于人person-independent”(PI)模型)表现更好。在考虑影响特定面部特征的人口统计学方面的内部和跨群组比较时，可以观察到类似的差异。从ML的角度来看，这些性能差异部分是由用于训练的人的特征的独立且相同分布(independent and identicallydistributed，IID)假设来解释的。这一假设要求跨训练和测试集保持尽可能多的一致性，以确保适当的泛化性能。这些表现差异可以被视为类似于群组外同质性偏见和跨种族效应，这表明人可以更好地标识群组内成员与群组外成员之间的差异，并且人更善于识别具有相似人口统计特征的人的面部。

为了帮助合并群组内和群组外设置之间的差距，实施例探索通过跨训练和测试群组将面部表情转移到共同的单个面部表示(有时称为模板面部图像)来减少跨人的差异。实施例可以利用自动编码器去噪方法，该方法允许以自我监督的方式传送外观并且没有使用任何明确的FAU或面部标志。实施例可以利用面部表情转移来最小化面部动作单元识别的上下文中的个体差异。

图1通过示例的方式示出了用于数据归一化的自动编码器系统100的实施例的图。如图所示的自动编码器系统100包括模板人物数据102和可变人物数据104作为自动编码器101的输入。自动编码器101被训练为分别将可变人物数据104和模板人物数据102重构为经重构的可变数据114和经重构的模板数据112。仅仅为了帮助说明归一化是如何操作的，图1示出了图像形式的数据的示例。其他示例形式的数据包括音频文件、视频数据、与人物相关联的传感器数据、或其组合等。

模板人物数据102是用于训练自动编码器101的相同人物的多个数据样本之一。多个数据样本可以包括具有不同特性(有时称为动态特性)和静态特性的相同人物。示例数据样本包括生理信号、音频文件、图像等。在模板数据样本是图像的示例中，不同特性可以包括面部表情，并且静态特性可以包括模板人物的面部结构。

可变人物数据104是用于训练自动编码器101的一个或多个人物的多个数据样本之一。可变人物数据104不包括用作模板人物数据102的数据。多个数据样本可以包括具有不同特性和静态特性的一个或多个人物。

自动编码器(诸如自动编码器101)学习去噪输入，并将经去噪的输入复制到其输出。自动编码器具有内部层(隐藏层)，该层描述用于被表示输入的“代码code”(本文中有时称为“隐藏特征向量”或“隐藏特征表示”)。自动编码器101包括编码器106，其将模板人物数据102和可变人物数据104映射成相应隐藏特征向量。自动编码器101包括解码器108、110，其将相应隐藏特征向量映射到以下项的重构：(i)模板人物数据102作为重构模板人物数据112和(ii)可变人物数据104作为重构可变人物数据114。

可以使用重构损失项来训练编码器106，该重构损失项说明(i)模板人物数据102和经重构的模板数据112之间的差异以及(ii)可变人物数据104和经重构的可变数据114之间的差异。解码器108可以使用考虑了模板人物数据102和经重构的模板数据112之间的差异的重构损失项被训练。可以使用重构损失项来训练解码器110，该重构损失项说明了可变人物数据104和重构可变数据114之间的差异。

最近已经研究了面部表情转移和表情合成，这是实施例的一个示例应用。一些最流行的方法从检测面部标志或FAU开始，以帮助指导转移过程。由于实施例可用于改进FAU识别的任务，因此实施例不需要面部标志或FAU的任何明确指示。自动编码器101可以是自我监督的。如所讨论的，自动编码器101包括编码器106(E)，其将模板人物数据102和可变人物数据104的维度降低到较低维度的隐藏空间中。解码器108Dy尝试恢复模板人物数据102，该模板人物数据包括针对归一化目标选择的参考人物。解码器110Dx试图恢复包括要被归一化的个体的数据的可变人物数据104。

在训练阶段期间，数据102和数据104利用编码器106迭代地被压缩。此外，在训练期间，解码器108、110分别被训练以分别减少数据102、104和重构数据112、114之间的误差。误差可以是均方根误差(RMSE)、L2重构损失、均方误差(MSE)、平均绝对误差(MAE)、R平方(例如，1-MSE(模型)/MSE(基线))或经调整的R平方、均方百分比误差(MSPE)、均方绝对百分比误差(MAPE)、平均均方对数误差(RMSLE)。

训练过程可以基于以下损失函数来改变自动编码器101的神经元的权重：

其中x_i表示将被归一化的实体的i数据104，y_j表示参考模板的j数据102，并且x_i′和y_j′分别表示数据104、102的相应的、预处理版本。训练可以基于每个将被归一化的实体的数据104被重复。

由于使用相同的编码器106来生成用于恢复模板数据112和可变数据114两者的隐藏特征向量，因此学习的隐藏特征向量被配置为捕获由数据102、104共享的方差的源(例如，头部姿势、面部表情等)。解码器108、110学习添加变量较小的信息(面部外观)。作为数据102、104包括图像的一些实施例中的预处理步骤，可以将输入图像转换为灰度。在一些实施例中，可以使用直方图均衡技术来校正灰度像素值，以便促进像素值跨个体的更一致的分布。此外，可以使用图像增强技术来增加数据102、104中的变化量。图像增强技术可以包括随机仿射变换、高斯扭曲等

在运行时期间，要被归一化的个体的数据104可以由编码器106压缩(例如，不增多)，并由模板解码器108(Dy)恢复，该模板解码器108被训练为根据公式3解码模板人物数据102：

X^y＝D^y(E(X)) 等式3

其中X^y表示人物的归一化的图像。

针对训练，自动编码器101可以基于数据102、104的多个数据样本(例如，数据102、106的每一个的数百或数千个样本)来学习。在训练中，可以输入一批模板人物数据102，然后输入来自要被归一化的人物的一批数据104，反之亦然。每批中的模板人物数据102和可变人物数据104的数据样本的数目可以相同或不同。当输入模板人物数据102时确定的损失可用于调整编码器106和解码器108的权重，诸如通过使用反向传播。基于作为输入的可变人物数据104确定的损失可用于调整编码器106和解码器110的权重。

表1和表2分别示出了编码器106和解码器108、110的具体架构实现。注意，这些架构实现仅仅是示例，并且许多变化是可能的，例如内核的大小、滤波器的数目、步幅的数目、层的类型等。

层	滤波器，内核大小，步幅	输出
			输入	-	128,128,1
CONV2D/LEAKYRELU	128,5,2	64,64,128
			CONV2D/LEAKYRELU	256,5,2	32,32,256
CONV2D/LEAKYRELU	512,5,2	16,16,512
			CONV2D/LEAKYRELU	1024,5,2	8,8,1024
FLATTEN	-	65536
			DENSE	-	1024
DENSE	-	16384
			RESHAPE	-	4,4,1024
CONV2D/LEAKYRELU	2048,3,-	4,4,2048
			PIXELSHUFFLER	-	8,8,512

表1：用于压缩面部信息的示例编码器106网络架构

表2：用于恢复面部信息的示例解码器108、110网络架构

再次，关于面部表情识别的具体应用，为了便于将尽可能多的面部表情转换成单个面部外观，图像数据集的最具表现力的对象可以用作模板人物数据102的模板面部。与另一个表现力较弱的对象相比，这个表现力最强的对象更有可能捕捉到更广泛的面部变化。最具表现力的对象可以包括实体，其跨所有动作单元的标记FAU的中值在数据集中最高。除了FAU分类之外，图像归一化的另一个应用可以包括归一化在线会议程序(诸如，Zoom、Teams、FaceTime、GoToMeeting、BlueJeans等)中的人物的视图。面部归一化可以在提供表情的同时提供匿名性。另一应用包括创建合成参考模型，诸如面部表情由另一实体(诸如，在可变面部图像104中描绘的实体)控制的化身。

图2通过示例的方式示出了用于以人为中心的数据归一化的系统200的实施例的图。类似于图1，图2将输入和输出数据图示为图像，但其他类型的数据也是可能的。图示的系统200包括人物数据220，例如可以包括与用于训练编码器106和解码器110(参见图1)的人物相关联的数据。人物数据220被输入到编码器106中。编码器106基于模板人物数据102和可变人物数据104被训练。解码器108可以基于由编码器106执行的压缩来重构人物数据220，以生成归一化人物数据224。归一化人物数据224包括来自模板人物数据102的非可变组分(有时称为“静态特性”)和人物数据220的可变组分(有时称为“动态特性”)(例如，嘴部形成、眼睛位置、头部倾斜、音调变化、口音等)。可以针对人物数据220的各种样本收集归一化的人物数据224。归一化的人物数据224可以用作以人为中心的AI模型(参见图3)的输入，例如通过基于对应归一化的面部图像224确定分类来确定人物数据220的分类。

由图2执行的人物数据规范化的应用包括用户匿名性，例如用于在线会议应用、视频呼叫应用、人物计数、驾驶员安全等。由图2执行的面部归一化的另一应用是改进的分类。

图3通过示例的方式示出了分类系统300的实施例的图。如图所示的系统300包括归一化的人物数据224作为对以人为中心的ML模型330的输入。以人为中心的ML模型330基于归一化的人数据224确定分类332。

在可变人物数据104的可变特性被转移到公共模板人物数据102的静态特性之后(根据图1-图2)，它们可以被馈送到ML分类器(以人为中心的ML模型330)。以人为中心的ML模型330可以针对单个数据样本操作并确定分类332。示例性的以人为中心的ML模型330是LeNet-5卷积神经网络(CNN)架构。其他分类器可以由以人为中心的ML模型330实现。

在面部归一化的示例中，示例分类332是FAU。FAU定义了面部上的动作单元(AU)。AU对应于肌肉的放松或收缩。FAU中的肌肉是面部的一部分。示例FAU包括内侧眉毛提升、外侧眉毛提升、眉毛降低、面颊提升、眼睑收紧、上唇提升、唇角拉力、酒窝、唇角压力、下巴提升、嘴唇收紧和嘴唇按压等。

实施例提供了对FAU模型跨不同人群的泛化的改进。为了帮助评估，跨不同的分组进行了多个群组内和跨群组评估。然后操作实施例以评估它们是否改进了ML模型性能。

考虑了以下分组：

人物。第一群组分割在个人级别，这是最常被认为是人类差异的来源。群组内评估包括利用来自相同人物的数据训练和测试的模型(有时称为PD模型)。跨群组评估包括利用来自不同人物的数据训练和测试的模型(有时称为PI模型)。在这种情况下，依赖于人物的模型捕获最佳执行场景，其中人物的标签和数据可用，并且因此可以更容易地实现更好的模型泛化。

性别。第二群组在性别级别(男性和女性)，由于生理和荷尔蒙的差异，这已经表明会影响面部外观、声音和其他人类差异。在面部图像方面，与性别相关的面部特征方面的面部差异包括头发的数量或下巴的形状。群组内评估包括仅由男性参与者训练和测试的模型，以及仅由女性参与者训练和测试的其他模型。跨群组评估包括只利用男性参与者训练、只利用女性参与者测试的模型，反之亦然。为了方便起见，这些模型分别称为“性别依赖”(gender-dependent，GD)和“性别独立”(gender-independent，GI)模型。然而，这两种模型都属于独立于人的模型，因为用于训练和验证的对象与用于测试的对象不同。

皮肤类型。第三群组分割在皮肤类型级别(较浅和较深)，由于类型分布的差异，这会影响面部分析。群组内评估包括仅具有浅色皮肤类型参与者被训练和测试的模型，以及仅具有深色皮肤类型参与者(有时称为“皮肤依赖”(skin-dependent，SD)模型)被训练和测试的模型。跨群组评估包括具有浅色皮肤类型的参与者被训练并且具有深色皮肤类型的参与者被测试的模型，反之亦然(有时称为“皮肤独立”(skin-independent，SI)模型)。一种针对注释皮肤类型的技术是Fitzpatrik原型比例，它将皮肤类型分为六个主要类别。

数据集。第四群组以及最后群组在数据集级别，包括由于许多因素(诸如参与者人口统计和数据收集设置)造成的差异。群组内评估包括来自相同数据集的参与者被培训和测试的模型(有时称为“数据库依赖”(database-dependent，DD)模型)。跨群组评估包括具有来自一个数据集的数据样本被训练并且具有来自另一数据集的数据样本被测试的模型(有时称为“数据库独立”(database independent，DI)模型)。

实施例的性能在不同的群组分割下被评估，并且利用第一基准数据集(1BD)数据集。为了研究跨数据集的泛化，还使用了第二基准数据集(2BD)。

表3示出了一些结果的概要。

当评估具有归一化图像的模型(图2的输出)时，PI模型精度增加到59.6％，这高于其非归一化的PI对应对象(p＜0.001)，并且非常类似于非归一化的PD结果(p＝0.375)。这一发现表明，实施例可以有效地减少与外观相关联的个体差异。具有归一化的图像的PD模型保持了61.4％的性能，这类似于其非归一化的对应对象(p＝0.388)，这表明实施例的面部转移过程不会损失相关的面部表情信息。

为了捕获针对每个模型的总体性能、针对每个动作单元的F1得分和准确度之间的平均值(阈值为0.5)，然后针对每个参与者汇总它们。针对每个条件，计算跨所有参与者的平均值和标准差。为了比较跨不同条件的表现，当p<0.05时，使用了具有显著性得分的两样本t测试。

表3：分析结果概要

当使用原始数据(非归一化的数据)时，GI模型的平均得分为52.6％，并且GD模型的平均得分为55％，这两个数据显著不同(p＝0.009)。这一差异表明，在该数据集中，不同性别跨训练和测试集的影响约为2.4％。当使用归一化图像时，GI模型增加到57.7％，高于非归一化对应的对象(p<0.001)，并且GS模型增加到60.2％，也高于非归一化的对应对象(p<0.001)。在归一化图像上运行的GI模型产生的结果高于没有归一化图像的GD模型，这表明归一化有助于解决性别之外的个体差异并且实施例使个体级别处的差异归一化。图像归一化的使用跨不同条件产生了5.2％的一致平均改善。

当使用非归一化的图像时，SI模型的平均得分为49.9％，SD模型的平均分数为55.2％，两者有显著差异(p＝0.025)。这一差异表明，具有不同皮肤类型的跨训练和测试集的影响约为5.3％，这比与性别相关联的泛化差距(2.4％)稍大。这一发现似乎表明，在模型泛化的上下文中，皮肤类型可能比性别具有更大的影响。然而，处于皮肤类型状态的对象的数目少于处于性别条件的对象。

当使用归一化的图像时，SI模型增加到57.4％，高于其非归一化对应对象(p<0:001)，并且SD模型增加到58.7％，类似于其非归一化的对应对象(p＝0.110)。在这种情况下，相比于具有非归一化的图像(p＝0.290)的SD模型，具有归一化的图像的SI模型产生更高的而非可比较的结果，表明归一化方法解决了这种条件下数据方差的主要来源。

图像归一化跨不同条件产生了5.7％的一致平均改善。当训练和测试肤色较深的人时，这种差异是最小的，其中的表现已经达到PD模型的级别(约60)。

当使用非归一化图像时，DI模型的平均得分为44.6％，并且DD模型的平均得分为54％，这是不同的(p<0.001)。这一差异表明，跨训练和测试集使用不同数据集的影响约为9.4％。这一差异是跨所有群组条件的最大观察差距，表明跨数据集泛化是最难应对的挑战之一。

当使用归一化图像时，DI模型增加到51.1％，高于其非归一化对应对象(p<0.001)，并且DD模型增加到61.5％，也高于其非归一化对应对象(p<0:001)。

关于FAU分类，实施例为所考虑的AU提供了大约4.6％(STD:2.9)的平均改善，针对AU04的增益最大(11.4％)，并且针对AU14的增益最小(0.8％)。

图4通过示例的方式示出了使用自动编码器用于图像归一化的方法400的实施例的图。如图所示的方法400包括(可选地)在操作402处改变第一数据样本和第二数据样本中的面部的角度和姿势以使其彼此一致；在操作404处，获得归一化自动编码器，归一化自动编码器基于模板人物的第一数据样本和各种人物的第二数据样本被训练；在操作406处，由归一化自动编码器通过将输入数据样本中的人物的动态特性与第一数据样本的静态特性组合来归一化输入数据样本，以生成归一化的数据；以及在操作408处，将归一化的数据作为输入提供给分类器模型，以基于输入数据的动态特性和第一数据样本的静态特性来对输入数据进行分类。

方法400还可以包括，其中归一化自动编码器使用单个编码器和多个解码器，解码器中的第一解码器专用于重构第一数据样本的并且解码器中的第二解码器专用于重构第二数据样本。方法400还可以包括，其中编码器基于第一解码器和第二解码器两者的重构损失被训练。方法400还可以包括，其中第一解码器仅基于第一解码器的重构损失被训练，并且第二解码器仅基于第二解码器的重构损失被训练。方法400还可以包括，其中在运行时期间，归一化自动编码器使用编码器和第二解码器对输入数据进行操作。方法400还可以包括在可变人物的一批第二数据上训练编码器和第一解码器，随后在模板人物的一批第一数据上训练解码器和第二解码器，或者反之亦然。

方法400还可以包括，其中第一数据样本是模板面部的图像，第二数据样本是各种面部的图像，输入数据是要被归一化的面部的图像，并且分类器模型提供存在于输入图像中的面部动作单元(FAU)的分类。可以在第一数据样本和第二数据样本是面部图像的情况下执行操作402。方法400还可以包括，其中静态特性包括面部结构，并且动态特性包括嘴部形成和眼睑形成。

操作402可以以各种方式执行。当前存在许多用于确定和改变图像的面部姿势和角度的技术。这些技术中的任何一种都可以在操作402处使用。操作402可以将面部的角度和姿势调整为正面视图。

人工智能(AI)是一个涉及开发决策系统以执行认知任务的领域，传统上，认知任务需要一个有生命的行动者，诸如，人物。神经网络(NN)是一种基于生物神经元松散建模的计算结构。通常，NN经由节点(例如，神经元)之间的加权的连接(例如，突触)编码信息(例如，数据或决策)。现代NN是许多AI应用的基础，诸如，语音识别。

许多NN表示为对应于建模连接的权重矩阵。NN通过接受输入神经元集合的数据来操作，这些输入神经元通常与其他神经元有许多输出连接。在神经元之间的每次遍历中，对应权重修改输入，并且在目的地神经元处对照阈值测试。如果加权值超过阈值，则再次对该值加权，或通过非线性函数变换，并传输给NN图下的另一个神经元，并且如果未超过阈值，则通常不会将该值传输到下图神经元，并且突触连接保持不活动。加权和测试过程继续进行，直到达到输出神经元；输出神经元的模式和值构成ANN处理的结果。

大多数NN的正确操作依赖于准确的权重。然而，NN设计者通常不知道哪些权重适用于给定的应用。NN设计者通常选择多个神经元层或层之间的特定连接，包括圆形连接。训练过程可用于通过选择初始权重来确定适当的权重。在一些示例中，可以随机选择初始权重。训练数据被输入NN，并且结果被与提供错误指示的目标函数比较。错误指示是NN的结果与预期结果相比有多么错误的度量。然后使用该误差来校正权重。经过多次迭代，权重将集体收敛以将操作数据编码到NN中。该过程可以称为目标函数的优化(例如，成本或损失函数)，从而使成本或损失最小化。

梯度下降技术通常用于执行目标函数优化。相对于层参数(例如，权重的方面)计算梯度(例如，偏导数)，以提供校正的方向和可能的程度，但不会导致将权重设置为“正确”值的单一校正。也就是说，经由多次迭代，权重将朝着“正确”或操作上有用的值移动。在一些实现中，移动量或步长是固定的(例如，从迭代到迭代相同)。小的步长往往需要很长时间才能收敛，而大的步长可能会在正确值附近振荡或表现出其他不期望的行为。可以在没有大步长的缺点的情况下尝试可变步长以提供更快的收敛。

反向传播是一种通过NN将训练数据正向反馈的技术，这里的“正向”是指数据从输入神经元开始，遵循神经元连接的有向图，直到到达输出神经元，并且目标函数通过NN反向应用以校正突触权重。在反向传播过程的每个步骤处，使用先前步骤的结果来校正权重。因此，输出神经元校正的结果被应用于连接到输出神经元的神经元，依此类推，直到到达输入神经元。反向传播已成为训练各种NN的流行技术。可以使用任何已知的用于反向传播的优化算法，例如随机梯度下降(SGD)、Adam等。

图5是根据实施例的包括用于神经网络训练的系统的环境的示例的框图。该系统包括使用处理节点510训练的人工NN(ANN)505。处理节点510可以是中央处理单元(CPU)、图形处理单元(GPU)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、专用集成电路(ASIC)或其他处理电路。在示例中，可以采用多个处理节点来训练ANN 505的不同层，或者甚至训练层内的不同节点507。因此，处理节点集合510被布置成执行ANN 505的训练。

该处理节点集合510被布置为接收ANN 505的训练集和515。ANN 505包括分层布置的节点集合507(被示为节点507的行)和节点集合中的节点之间的结点间权重集合508(例如，参数)。在示例中，训练集合515是完整训练集合的子集。这里，该子集可以使得具有有限存储资源的处理节点能够参与训练ANN 505。

训练数据可以包括表示域的多个数值，诸如针对图像的红色、绿色和蓝色像素值和强度值，针对语音识别的离散时间的音调和音量值，和/或针对生命体征(例如心脏活动、呼吸波等)的振幅、频率、幅度等。一旦ANN 505被训练，将被分类的训练或输入517的每个值被提供给ANN 505的第一层或输入层中的对应节点507。这些值通过层传播，并由目标函数改变。

如上所述，该处理节点集合被布置成训练神经网络以创建训练的神经网络。一旦被训练，输入到ANN的数据将产生有效分类520(例如，输入数据517将被分配到类别中)。由处理节点集合507执行的训练是迭代的。在示例中，训练神经网络的每个迭代在ANN 505的层之间独立地执行。因此，两个不同的层可以由处理节点集合的不同成员并行处理。在示例中，ANN 505的不同层在不同的硬件上被训练。处理节点集合的不同成员的成员可以位于不同的包、外壳、计算机、基于云的资源等中。在示例中，在节点集合中的节点之间独立地执行训练的每个迭代。该示例是单个节点507(例如，神经元)被独立地训练的附加并行化。在示例中，节点在不同的硬件上被训练。

图6通过示例的方式示出了用于实现一个或多个实施例的机器600(例如，计算机系统)的实施例的框图。机器600可以使用自动编码器实现用于图像归一化的技术。自动编码器101、222、FAU模型330或其组件可以包括机器600的一个或多个组件。自动编码器101、222、FAU模型330或其组件中的一个或多个可以至少部分地使用机器600的组件被实现。一个示例性机器600(以计算机的形式)可以包括处理单元602、存储器603、可移动存储设备610和不可移动存储设备612。尽管示例计算设备被示出和描述为机器600，但是在不同的实施例中，计算设备可以是不同的形式。例如，计算设备可以替代地是智能手机、平板电脑、智能手表或包括与图6所示和描述的相同或类似元件的其他计算设备。诸如智能手机、平板电脑和智能手表等设备通常统称为移动设备。此外，尽管各种数据存储元件被示出为机器600的一部分，但是该存储设备还可以或备选地包括经由网络(诸如，因特网)可访问的基于云的存储。

存储器603可以包括易失存储器614和非易失性存储器608。机器600可以包括或者可以访问包括各种计算机可读介质(诸如，易失性存储器614和非易失性存储设备608、可移动存储设备610和不可移动存储设备612)的计算环境，。计算机存储设备包括随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)和电可擦除可编程只读存储器(EEPROM)、闪存或其他存储技术、光盘只读存储器(CD ROM)、数字多功能盘(DVD)或其他光盘存储、盒式磁带、磁带、磁盘存储设备或能够存储计算机可读指令以执行本文描述的功能的其他磁存储设备。

机器600可以包括或可以访问包括输入606、输出604和通信连接616的计算环境。输出604可以包括也可以用作输入设备的显示设备，例如触摸屏。输入606可以包括以下一项或多项：触摸屏、触摸板、鼠标、键盘、相机、一个或多个设备专用按钮、集成在机器600内或经由有线或无线数据连接耦合到机器600的一个或多个传感器以及其他输入设备。计算机可以使用通信连接在联网环境中操作，以连接到一个或多个远程计算机，例如数据库服务器，包括基于云的服务器和存储。远程计算机可以包括个人计算机(PC)、服务器、路由器、网络PC、对等设备或其他公共网络节点等。通信连接可以包括局域网(LAN)、广域网(WAN)、蜂窝、电气和电子工程师协会(IEEE)802.11(Wi-Fi)、蓝牙或其他网络。

存储在计算机可读存储设备上的计算机可读指令由机器600的处理单元602(有时称为处理电路)可执行。硬盘驱动器、CD-ROM和RAM是包括诸如存储设备的非暂时性计算机可读介质的条目的一些示例。例如，计算机程序818可用于使处理单元602执行本文描述的一个或多个方法或算法。

其他注释和示例：

示例1包括一种设备，该设备包括处理电路；存储器，包括指令，当由处理电路执行时该指令使处理系统执行操作，操作包括：由基于模板人物的第一数据样本和各种人物的第二数据样本训练的归一化自动编码器通过将输入数据样本中人物的动态特性与第一数据样本的静态特性进行组合来归一化输入数据样本，以生成归一化的数据，静态特性包括在第一数据样本中相同的特性；以及将归一化的数据作为输入提供给分类器模型，以基于输入数据样本的动态特性和第一数据样本的静态特性对输入数据样本进行分来。

在示例2中，示例1还可以包括，其中归一化自动编码器使用单个编码器和多个解码器，解码器中的第一解码器专用于重构第一数据样本并且解码器中的第二解码器专用于重构第二数据样本。

在示例3中，示例2还可以包括，其中编码器基于第一解码器和第二解码器两者的重构损失被训练。

在示例4中，示例3还可以包括，其中第一解码器仅基于第一译码器的重构损失被训练，并且第二解码器仅基于第二译码器的重构损失被训练。

在示例5中，示例4还可以包括，其中在运行时期间，归一化自动编码器操作使用编码器来压缩输入数据样本的表示并且使用第一解码器来构建归一化的数据。

在实施例6中，示例5还可以包括，其中操作还包括在一批第二数据样本上训练编码器和第二解码器，随后在一批第一数据样本上训练编码器和第一解码器，或者反之亦然。

在示例7中，示例1-6中的至少一个还可以包括，其中第一数据样本是模板面部的图像，第二数据样本是各种面部的图像，输入数据是将被归一化的面部的图像，并且分类器模型提供存在于输入图像中的面部动作单元(FAU)的分类。

在示例8中，示例7还可以包括，其中操作还包括在归一化输入数据之前，将第一数据样本和第二数据样本中的面部的角度和姿势调整为一致，并且其中归一化基于针对角度和姿势被调整的输入数据被执行。

在示例9中，示例7-8中的至少一个还可以包括，其中静态特性包括面部结构并且动态特性包括嘴部形成和眼睑形成。

示例10可以包括计算机实现的方法，该方法包括获得归一化自动编码器，归一化自动编码器基于模板人物的第一数据样本和各种人物的第二数据样本被训练；由归一化自动编码器通过将输入数据样本中的人的动态特性与第一数据样本中的静态特性进行组合来归一化输入数据样本，以生成归一化的数据；以及将归一化的数据作为输入提供给分类器模型，以基于输入数据的动态特性和第一数据样本的静态特性对输入数据进行分类。

在示例11中，示例10还可以包括，其中归一化自动编码器使用单个编码器和多个解码器，解码器中的第一解码器专用于重构第一数据样本并且解码器中的第二解码器专用于重构第二数据样本。

在示例12中，示例11还可以包括，其中编码器基于第一解码器和第二解码器两者的重构损失被训练。

在示例13中，示例12还可以包括，其中第一解码器仅基于第一解码器的重构损失被训练，并且第二解码器仅基于第二解码器的重构损失被训练。

在示例14中，示例13还可以包括，其中在运行时期间，归一化自动编码器使用编码器和第二解码器对输入数据进行操作。

在示例15中，示例14还可以包括在可变人物的一批第二数据上训练编码器和第一解码器，随后在模板人物的一批第一数据上训练编码器和第二解码器，或者反之亦然。

在示例16中，示例10-15中的至少一个还可以包括，其中第一数据样本是模板面部的图像，第二数据样本是各种面部的图像，输入数据是将被归一化的面部的图像，并且分类器模型提供存在于输入图像中的面部动作单元(FAU)的分类。

在示例17中，示例16还可以包括，在归一化输入数据之前，将第一数据样本和第二数据样本中的面部的角度和姿势调整为一致，并且其中归一化基于针对角度和姿势被调整的输入数据被执行。

在示例18中，示例16-17中的至少一个还可以包括，其中静态特性包括面部结构并且动态特性包括嘴部形成和眼睑形成。

示例19可以包括非暂时性机器可读介质，包括指令，该指令当由机器执行时，使机器执行操作，该操作包括：由基于模板人物的第一数据样本和各种人物的第二数据样本训练的归一化自动编码器通过将输入数据样本中人物的动态特性与第一数据样本的静态特性进行组合来归一化输入数据样本，以生成归一化的数据，静态特性包括在第一数据样本中相同的特性；以及将归一化的数据作为输入提供给分类器模型，以基于输入数据样本的动态特性和第一数据样本的静态特性对输入数据样本进行分类。

在示例20中，示例19还可以包括，其中归一化自动编码器使用单个编码器和多个解码器，解码器中的第一解码器专用于重构第一数据样本并且解码器中的第二解码器专用于重构第二数据样本。

在示例21中，示例20还可以包括，其中编码器基于第一解码器和第二解码器两者的重构损失被训练。

在示例22中，示例21还可以包括，其中第一解码器仅基于第一解码器的重构损失被训练，并且第二解码器仅基于第二解码器的重构损失被训练。

在示例23中，示例22还可以包括，其中在运行时期间，归一化自动编码器操作使用编码器来压缩输入数据样本的表示并且使用第一解码器来构建归一化的数据。

在示例24中，示例23还可以包括，其中操作还包括在一批第二数据样本上训练编码器和第二解码器，随后在一批第一数据样本上训练编码器和第一解码器，或者反之亦然。

在示例25中，示例19-24中的至少一个还可以包括，其中第一数据样本是模板面部的图像，第二数据样本是各种面部的图像，输入数据是将被归一化的面部的图像，并且分类器模型提供存在于输入图像中的面部动作单元(FAU)的分类。

在示例26中，示例25还可以包括，其中操作还包括在归一化输入数据之前，将第一数据样本和第二数据样本中的面部的角度和姿势调整为一致，并且其中归一化基于针对角度和姿势被调整的输入数据被执行。

在示例27中，示例26还可以包括，其中静态特性包括面部结构并且动态特性包括嘴部形成和眼睑形成。

尽管上面已经详细描述了一些实施例，但是其他修改也是可能的。例如，图中所示的逻辑流程不需要所示的次序或顺序来实现期望的结果。可以从所描述的流程中提供其他步骤，或者可以消除步骤，并且可以向所描述的系统添加或从所描述系统中去除其他组件。其他实施例可以在以下权利要求的范围内。

Claims

1.一种设备，包括：

处理电路；

存储器，包括指令，所述指令当由所述处理电路执行时使所述处理电路执行操作，所述操作包括：

由基于模板人物的第一数据样本和各种人物的第二数据样本训练的归一化自动编码器，通过将输入数据样本中人物的动态特性与所述第一数据样本的静态特性进行组合来归一化所述输入数据样本，以生成归一化的数据，所述静态特性包括在所述第一数据样本中相同的特性；以及

将所述归一化的数据作为输入提供给分类器模型，以基于所述输入数据样本的所述动态特性和所述第一数据样本的所述静态特性来对所述输入数据样本进行分类。

2.根据权利要求1所述的设备，其中所述归一化自动编码器使用单个编码器和多个解码器被训练，所述解码器中的第一解码器专用于重构所述第一数据样本并且所述解码器中的第二解码器专用于重构所述第二数据样本。

3.根据权利要求2所述的设备，其中所述编码器基于所述第一解码器和所述第二解码器两者的重构损失被训练。

4.根据权利要求3所述的设备，其中所述第一解码器仅基于所述第一解码器的重构损失被训练，并且所述第二解码器仅基于所述第二解码器的重构损失被训练。

5.根据权利要求4所述的设备，其中在运行时期间，所述归一化自动编码器操作使用所述编码器来压缩所述输入数据样本的所述表示并且使用所述第一解码器来构建所述归一化的数据。

6.根据权利要求5所述的设备，其中所述操作还包括：在一批所述第二数据样本上训练所述编码器和所述第二解码器，随后在一批所述第一数据样本上训练所述编码器和所述第一解码器，或者反之亦然。

7.根据权利要求1所述的设备，其中所述第一数据样本是模板面部的图像，所述第二数据样本是各种面部的图像，所述输入数据是要被归一化的面部的图像，并且所述分类器模型提供存在于所述输入图像中的面部动作单元(FAU)的分类。

8.根据权利要求7所述的设备，其中所述操作还包括：在归一化所述输入数据之前，将所述第一数据样本和所述第二数据样本中的所述面部的角度和姿势调整为一致，并且其中归一化基于针对角度和姿势被调整的输入数据被执行。

9.根据权利要求7所述的设备，其中所述静态特性包括面部结构并且所述动态特性包括嘴部形成和眼睑形成。

10.一种计算机实现的方法，包括：

获得归一化自动编码器，所述归一化自动编码器基于模板人物的第一数据样本和各种人物的第二数据样本被训练；

由所述归一化自动编码器，通过将所述输入数据样本中的人物的动态特性与所述第一数据样本中的静态特性进行组合来归一化输入数据样本，以生成归一化的数据；以及

将所述归一化的数据作为输入提供给分类器模型，以基于所述输入数据的动态特性和所述第一数据样本的静态特性来对所述输入数据进行分类。

11.根据权利要求10所述的方法，其中所述归一化自动编码器使用单个编码器和多个解码器被训练，所述解码器中的第一解码器专用于重构所述第一数据样本并且所述解码器中的第二解码器专用于重构所述第二数据样本，其中所述编码器基于所述第一解码器和所述第二解码器两者的重构损失被训练，并且其中所述第一解码器仅基于所述第一解码器的重构损失被训练，并且所述第二解码器仅基于所述第二解码器的重构损失被训练。

12.根据权利要求11所述的方法，其中在运行时期间，所述归一化自动编码器使用所述编码器和所述第二解码器对所述输入数据进行操作。

13.根据权利要求10所述的方法，其中所述第一数据样本是模板面部的图像，所述第二数据样本是各种面部的图像，所述输入数据是要被归一化的面部的图像，并且所述分类器模型提供存在于所述输入图像中的面部动作单元(FAU)的分类。

14.根据权利要求13所述的方法，还包括在归一化所述输入数据之前，将所述第一数据样本和所述第二数据样本中的所述面部的角度和姿势调整为一致，并且其中归一化基于针对角度和姿势被调整的输入数据被执行，其中所述静态特性包括面部结构并且所述动态特性包括嘴部形成和眼睑形成。

15.一种机器可读介质，包括指令，所述指令当由机器执行时使所述机器执行根据权利要求10-14中的一项权利要求所述的方法。