CN110135497B

CN110135497B - 模型训练的方法、面部动作单元强度估计的方法及装置

Info

Publication number: CN110135497B
Application number: CN201910409882.XA
Authority: CN
Inventors: 张勇; 吴保元; 董未名; 李志锋; 刘威; 胡包钢; 纪强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2022-12-16
Anticipated expiration: 2039-05-16
Also published as: CN110135497A

Abstract

本申请公开了一种模型训练的方法，包括：获取待训练视频，待训练视频中包括至少一个视频段，每个视频段的AU强度为单调递增、单调递减或保持不变；从待训练视频中获取标注视频帧集合，标注视频帧集合至少包括待训练视频中的AU强度峰值帧或者AU强度谷值帧；根据标注视频帧集合获取图像特征集合，图像特征与标注图像具有对应关系；根据图像特征集合生成目标损失函数，其中，目标损失函数包括多个约束条件；采用目标损失函数对待训练AU强度预测模型进行训练，得到AU强度预测模型。本申请还公开了一种AU强度估计的方法、装置和设备。本申请能够在降低AU强度标注成本的同时，还可以训练得到较好的模型。

Description

模型训练的方法、面部动作单元强度估计的方法及装置

技术领域

本申请涉及人工智能领域，尤其涉及一种面部动作单元强度估计的方法、模型训练的方法及装置。

背景技术

人脸表情识别是人机交互、机器学习、智能控制和图像处理等领域涉及的重要研究方向，现已成为国内外研究的热点。基于人脸面部动作单元(Facial Action Unit，AU)的表情识别方法基于心理学上的面部活动编码系统，通过建立人脸视觉特征与AU，以及AU与表情之间的关系进行表情识别。

目前，现有的AU强度估计方法大多为监督学习方法，需要专家对视频中每一帧图像进行AU标注，然后通过概率图模型建立多个AU强度之间的关系。

然而，监督学习方法需要标注视频中每一帧的AU强度，而AU强度的标注需要较高的人力成本。尤其对于深度学习而言，训练含有百万参数的深度神经网络，如果标注样本较少，训练得到的模型在实际应用中效果就会较差。

发明内容

本申请实施例提供了一种模型训练的方法、面部动作单元强度估计的方法及装置，仅对待训练视频中的AU强度峰值帧以及AU强度谷值帧进行标注即可，结合多个约束条件进行学习，从而在降低AU强度标注成本的同时，还可以训练得到较好的模型。

有鉴于此，本申请第一方面提供一种模型训练的方法，包括：

获取待训练视频，其中，所述待训练视频中包括至少一个视频段，每个视频段的面部动作单元AU强度为单调递增、单调递减或保持不变；

从所述待训练视频中获取标注视频帧集合，其中，所述标注视频帧集合中包括多个标注视频帧，且所述标注视频帧集合至少包括所述待训练视频中的AU强度峰值帧或者AU强度谷值帧；

根据所述标注视频帧集合获取图像特征集合，其中，所述图像特征集合包括多个图像特征，所述图像特征与所述标注图像具有对应关系；

根据所述图像特征集合生成目标损失函数，其中，所述目标损失函数包括多个约束条件；

采用所述目标损失函数对待训练AU强度预测模型进行训练，得到AU强度预测模型。

本申请第二方面提供一种面部动作单元强度估计的方法，包括：

获取待预测图像；

从所述待预测图像中提取第一图像特征；

通过面部动作单元AU强度预测模型获取所述第一图像特征所对应的AU强度预测结果，其中，所述AU强度预测模型包括基向量以及模型参数，所述基向量用于将所述第一图像特征转换为第二图像特征，所述第一图像特征与所述第二图像特征具有不同的特征空间，所述模型参数用于根据所述第二图像特征确定所述AU强度预测结果。

本申请第三方面提供一种模型训练装置，包括：

获取模块，用于获取待训练视频，其中，所述待训练视频中包括至少一个视频段，每个视频段的面部动作单元AU强度为单调递增、单调递减或保持不变；

所述获取模块，还用于从所述待训练视频中获取标注视频帧集合，其中，所述标注视频帧集合中包括多个标注视频帧，且所述标注视频帧集合至少包括所述待训练视频中的AU强度峰值帧或者AU强度谷值帧；

所述获取模块，还用于根据所述标注视频帧集合获取图像特征集合，其中，所述图像特征集合包括多个图像特征，所述图像特征与所述标注图像具有对应关系；

生成模块，用于根据所述获取模块获取的所述图像特征集合生成目标损失函数，其中，所述目标损失函数包括多个约束条件；

训练模块，用于采用所述生成模块生成的所述目标损失函数对待训练AU强度预测模型进行训练，得到AU强度预测模型。

在一种可能的设计中，在本申请实施例的第三方面的第一种实现方式中，

所述获取模块，具体用于根据所述待训练视频获取AU强度变化信息；

根据所述AU强度变化信息确定峰值帧以及谷值帧，其中，所述峰值帧表示在视频段中AU强度最大值所对应的视频帧，所述谷值帧表示在视频段中AU强度最小值所对应的视频帧；

从所述待训练视频随机选择待标注视频帧；

对所述待标注视频帧、所述峰值帧以及所述谷值进行标注，得到所述标注视频帧集合。

在一种可能的设计中，在本申请实施例的第三方面的第二种实现方式中，

所述获取模块，具体用于从标注视频帧中获取N个关键点，其中，所述N个关键点用于表示面部特征，所述N为大于或等于1的整数；

根据所述N个关键点以及N个平均关键点，确定第一维度特征，其中，所述N个平均关键点为根据所述标注视频帧集合所确定的；

根据所述N个关键点中的M个关键点，确定第二维度特征，其中，所述M为大于或等于1，且小于或等于所述N的整数；

根据所述N个关键点中每个关键点到所述标注视频帧的中心点的距离，确定第三维度特征；

根据所述第一维度特征、所述第二维度特征以及所述第三维度特征，确定所述标注视频帧所对应的图像特征。

在一种可能的设计中，在本申请实施例的第三方面的第三种实现方式中，

所述生成模块，具体用于根据所述图像特征集合以及模型参数确定硬约束条件；

根据所述图像特征集合以及所述待训练视频确定软约束条件；

根据所述硬约束条件以及所述软约束条件生成所述目标损失函数。

在一种可能的设计中，在本申请实施例的第三方面的第四种实现方式中，

所述生成模块，具体用于根据所述标注视频帧集合确定AU强度向量，其中，所述AU强度向量中的元素与所述标注视频帧集合中的标注视频帧具有对应关系；

获取所述标注视频帧集合在隐空间的第一系数，其中，所述隐空间所对应的特征空间小于所述图像特征所对应的特征空间；

根据所述AU强度向量、所述第一系数与所述模型参数，生成第一约束条件，其中，所述第一约束条件属于所述硬约束条件。

在一种可能的设计中，在本申请实施例的第三方面的第五种实现方式中，

所述生成模块，具体用于获取所述待训练视频中视频段的帧数；

根据所述视频段的帧数生成矩阵；

获取所述待训练视频在隐空间的第二系数，其中，所述隐空间所对应的特征空间小于所述图像特征所对应的特征空间；

根据所述视频段的帧数生成矩阵、所述第二系数与所述模型参数，生成第二约束条件，其中，所述第二约束条件属于所述硬约束条件。

在一种可能的设计中，在本申请实施例的第三方面的第六种实现方式中，

所述生成模块，具体用于获取所述标注视频帧集合在隐空间的第一系数，其中，所述隐空间所对应的特征空间小于所述图像特征所对应的特征空间；

根据所述第一系数、所述第二系数以及所述模型参数，生成第三约束条件，其中，所述第三约束条件属于所述硬约束条件。

在一种可能的设计中，在本申请实施例的第三方面的第七种实现方式中，

所述生成模块，具体用于获取所述待训练视频在隐空间的第二系数，其中，所述隐空间所对应的特征空间小于所述图像特征所对应的特征空间；

根据所述待训练视频中相邻两帧视频帧确定邻接矩阵；

根据所述邻接矩阵确定所述相邻两帧视频帧的对角矩阵；

根据所述邻接矩阵、所述对角矩阵、所述第二系数以及所述模型参数，生成第四约束条件，其中，所述第四约束条件属于所述软约束条件。

在一种可能的设计中，在本申请实施例的第三方面的第八种实现方式中，

根据所述待训练视频中相邻两帧视频帧确定邻接矩阵；

根据所述邻接矩阵确定所述相邻两帧视频帧的对角矩阵；

根据所述邻接矩阵、所述对角矩阵以及所述第二系数，生成第五约束条件，其中，所述第五约束条件属于所述软约束条件。

在一种可能的设计中，在本申请实施例的第三方面的第九种实现方式中，

所述生成模块，具体用于采用如下方式确定所述目标损失函数

s.t.ΓΦ_uw≤0,Φ_lw≥0,Φ_uw≥0；

其中，所述B表示基向量，所述β表示所述B的值域，所述w表示所述模型参数，所述Φ_l表示第一系数，所述Φ_u表示第二系数，所述D_f表示所述标注视频帧集合，所述D_s表示所述待训练视频，所述λ₂表示第一超参数，所述λ₃表示第二超参数，所述s.t.表示受限于，所述Γ表示矩阵，所述L_u(Φ_l,Φ_u,B,D_f,D_s)表示重建损失函数，所述L_l(w,Φ_l,D_f)表示第一约束条件，所述ΓΦ_uw≤0表示第二约束条件，所述Φ_lw≥0,Φ_uw≥0表示第三约束条件，所述R_I(w,Φ_u,D_s)表示第四约束条件，所述R_F(w,Φ_u,D_s)表示第五约束条件。

在一种可能的设计中，在本申请实施例的第三方面的第十种实现方式中，

所述训练模块，具体用于根据所述目标损失函数确定基向量以及模型参数；

根据所述基向量以及所述模型参数对所述待训练AU强度预测模型进行训练，得到所述AU强度预测模型。

本申请第四方面提供一种面部动作单元强度估计装置，包括：

获取模块，用于获取待预测图像；

提取模块，用于从所述获取模块获取的所述待预测图像中提取第一图像特征；

所述获取模块，还用于通过面部动作单元AU强度预测模型获取所述提取模块提取的所述第一图像特征所对应的AU强度预测结果，其中，所述AU强度预测模型包括基向量以及模型参数，所述基向量用于将所述第一图像特征转换为第二图像特征，所述第一图像特征与所述第二图像特征具有不同的特征空间，所述模型参数用于根据所述第二图像特征确定所述AU强度预测结果。

本申请第五方面提供一种服务器，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

采用所述目标损失函数对待训练AU强度预测模型进行训练，得到AU强度预测模型；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本申请第六方面提供一种终端设备，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

获取待预测图像；

从所述待预测图像中提取第一图像特征；

通过面部动作单元AU强度预测模型获取所述第一图像特征所对应的AU强度预测结果，其中，所述AU强度预测模型包括基向量以及模型参数，所述基向量用于将所述第一图像特征转换为第二图像特征，所述第一图像特征与所述第二图像特征具有不同的特征空间，所述模型参数用于根据所述第二图像特征确定所述AU强度预测结果；

本申请的第七方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种模型训练的方法，首先，获取待训练视频，其中，待训练视频中包括至少一个视频段，每个视频段的面部动作单元AU强度为单调递增、单调递减或保持不变，然后可以从待训练视频中获取标注视频帧集合，其中，标注视频帧集合中包括多个标注视频帧，且标注视频帧集合至少包括待训练视频中的AU强度峰值帧或者AU强度谷值帧，再根据标注视频帧集合获取图像特征集合，其中，图像特征集合包括多个图像特征，图像特征与标注图像具有对应关系，接下来，根据图像特征集合生成目标损失函数，其中，目标损失函数包括多个约束条件，最后采用目标损失函数对待训练AU强度预测模型进行训练，得到AU强度预测模型。通过上述方式，无需对待训练视频中的每个视频帧进行标注，而是对待训练视频中少量的AU强度峰值帧以及AU强度谷值帧进行标注即可，结合多个约束条件进行学习，从而在降低AU强度标注成本的同时，还可以训练得到较好的模型。

附图说明

图1为本申请实施例中面部动作单元强度估计系统的一个架构示意图；

图2为本申请实施例中模型训练阶段和模型测试阶段的一个流程示意图；

图3为本申请实施例中模型训练的方法一个总体流程示意图；

图4为本申请实施例中模型训练的方法一个实施例示意图；

图5为本申请实施例中AU表现的一个实施例示意图；

图6为本申请实施例中待训练视频中峰值帧和谷值帧的一个示意图；

图7为本申请实施例中生成标注视频帧集合的一个流程示意图；

图8为本申请实施例中提取图像特征的一个流程示意图；

图9为本申请实施例中面部动作单元强度估计的方法一个实施例示意图；

图10a为本申请实验场景中在6％的训练样本被注释的情况下的学习曲线示意图；

图10b为本申请实验场景中不同迭代次数所对应的AU强度预测一个对比示意图；

图11为本申请实验场景中不同数据集的AU标注分布一个对比示意图；

图12为本申请实验场景中基于人脸表情识别与分析2015竞赛数据集的一个皮尔森相关系数一个对比示意图；

图13为本申请实验场景中基于人脸表情识别与分析2015竞赛数据集的一个组内相关系数一个对比示意图；

图14为本申请实验场景中基于人脸表情识别与分析2015竞赛数据集的一个平均绝对误差一个对比示意图；

图15为本申请实验场景中基于丹佛面部自发活动强度数据集的一个皮尔森相关系数一个对比示意图；

图16为本申请实验场景中基于丹佛面部自发活动强度数据集的一个组内相关系数一个对比示意图；

图17为本申请实验场景中基于丹佛面部自发活动强度数据集的一个平均绝对误差一个对比示意图；

图18为本申请实施例中模型训练装置的一个实施例示意图；

图19为本申请实施例中面部动作单元强度估计装置的一个实施例示意图；

图20为本申请实施例中服务器的一个结构示意图；

图21为本申请实施例中终端设备的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

伴随着人工智能的发展和普及，人机交互在我们的生活中也扮演着越来越重要的作用。人们总是觉得机器冷冰冰的，不食人间烟火，而情绪情感识别则真正为人们搭建起了与他人沟通的桥梁。如果机器能识别面对对象当下的情绪，就能更好地做出反应。应理解，本申请所提供的AU强度估计方法不但可以应用于人机交互，让机器人能够读懂人的情绪，还可以应用于社交平台上用户情绪分析，即当两个人进行视频通话的时候，通过面部行为分析，可以判断视频中人物的情绪状态，可以辅助社交活动。

为了便于理解，本申请提出了一种唤醒词检测的方法，该方法应用于图1所示的AU强度估计系统，请参阅图1，图1为本申请实施例中面部动作单元强度估计系统的一个架构示意图，如图所示，服务器预先训练得到AU强度预测模型，在离线状态下，服务器可以将训练好的AU强度预测模型发送至客户端，由客户端根据待预测图像进行AU强度的预测。在在线状态下，客户端将待预测的图像发送至服务器，由服务器进行AU强度的预测，得到预测结果之后反馈至客户端。具体地，输入AU强度预测模型的输入信息为待预测图像，待预测图像中包括面部图像，通过AU强度预测模型对采集到的面部图像进行识别判断，确认用户的情感，客户端根据用户情感作出相应的反馈，比如展示表情或者执行动作等。需要说明的是，客户端部署于终端设备上，其中，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、机器人以及个人电脑(personal computer，PC)，此处不做限定。

请参阅图2，图2为本申请实施例中模型训练阶段和模型测试阶段的一个流程示意图，如图所示，模型处理主要包括两个过程，第一个过程是训练阶段，第二个过程是测试阶段。在训练阶段中，首先获取弱标注数据，弱标注包括两个部分，第一个部分是找到关键帧(即待训练视频中的峰值帧和谷值帧)和少数随机取出的视频帧(可能包括关键帧)，第二个部分是标注关键帧和随机取出的视频帧，标注视频帧具体是指标注这些视频帧的AU强度。接下来，提取这些视频帧的特征，然后将准备好的视频帧特征输入到待训练的模型进行联合学习，联合学习的对象包括表征学习以及模型学习，最终根据联合学习的结果输出子空间的基向量以及模型参数。

在测试阶段中，首先输入一张人脸图像，然后提权该人脸图像的图像特征，再利用子空间的基向量获取图像特征所对应的新图像特征，即利用子空间的基向量重建原特征得到该人脸图像在子空间的表达系数。最后，采用训练得到的模型对新图像特征进行AU强度预测。

应理解，本申请提出一种结合表征与模型联合学习的方法，用于对人脸AU强度进行估计，AU强度估计的准确度取决于图像表征、AU强度估计模型和监督信息。请参阅图3，图3为本申请实施例中模型训练的方法一个总体流程示意图，如图所示，利用AU相关的先验知识，使用少量已标注AU强度的视频帧进行半监督学习，可以较大程度减少标注成本。本申请可以灵活地嵌入不同形式的先验知识，包括软约束(soft constraints)和硬约束(hardconstraints)。

结合上述介绍，下面将对本申请中模型训练的方法进行介绍，请参阅图4，本申请实施例中模型训练的方法一个实施例包括：

101、获取待训练视频，其中，待训练视频中包括至少一个视频段，每个视频段的面部动作单元AU强度为单调递增、单调递减或保持不变；

本实施例中，模型训练装置获取待训练视频，其中，待训练视频可以是一段连续的电视剧片段、电影片段或者广告片段等，并且在待训练视频中包括人脸图像。其中，模型训练装置可以属于在服务器上。

考虑到肌肉运动的平稳性导致面部表情的平滑演变。如果帧速率足够高，则可以捕捉到面部表情的细微变化，因此，AU的强度也会按顺序平稳地演变。基于AU的强度可以将待训练视频分为三种类型的视频段，即单调递增、单调递减和保持不变。

102、从待训练视频中获取标注视频帧集合，其中，标注视频帧集合中包括多个标注视频帧，且标注视频帧集合至少包括待训练视频中的AU强度峰值帧或者AU强度谷值帧；

本实施例中，模型训练装置对待训练视频进行弱标注，从而得到标注视频帧集合。具体地，弱标注包括两个部分，一个部分为定性标注，另一个部分是定量标注。定性标注就是指识别关键帧的位置，即识别峰值帧和谷值帧。而定量标注是指对一组帧序列进行AU强度标注，对峰值帧标注后得到AU强度峰值帧，对谷值帧标注后得到AU强度谷值帧。其中，AU强度可以分为N个级别，比如N为6，那么AU强度可以表示为0、1、2、3、4和5，0表示自然状态，以嘴角上扬为例，从0至5表示嘴角上扬的角度越来越大。

在弱标注的情况下，待训练视频可以根据关键帧的位置分割成若干段，可以理解的是，为了避免使用一个额外的变量来表示趋势，还可以颠倒从峰值帧到谷值帧的段的帧序号，从而在所有训练段中，AU强度为增加或保持不变。可选地，也可以颠倒从谷值帧到峰值帧的段的帧序号，从而在所有训练段中，AU强度为减少或保持不变。

103、根据标注视频帧集合获取图像特征集合，其中，图像特征集合包括多个图像特征，图像特征与标注图像具有对应关系；

本实施例中，模型训练装置需要对标注视频帧集合中的每个标注视频帧进行特征提取，假设有M个标注视频帧，即得到M个图像特征，这M个图像特征构成图像特征集合。

104、根据图像特征集合生成目标损失函数，其中，目标损失函数包括多个约束条件；

本实施例中，模型训练装置结合先验知识和图像特征集合，可以得到目标损失函数，其中，该先验知识包括硬约束和软约束两类约束条件，即目标损失函数中至少包括两个约束条件，这样可以提升模型监督的能力。硬约束表示强制约束，通常表现为等式，而软约束表示优化约束，通常表现为正则项。

105、采用目标损失函数对待训练AU强度预测模型进行训练，得到AU强度预测模型。

本实施例中，模型训练装置采用目标损失函数对待训练AU强度预测模型进行训练，当目标损失函数中的表征、模型参数以及子空间的基向量都达到最小值时，输出模型参数以及子空间的基向量，根据模型参数以及子空间的基向量即可得到AU强度预测模型。

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的模型训练的方法第一个可选实施例中，从待训练视频中获取标注视频帧集合，可以包括：

根据待训练视频获取AU强度变化信息；

根据AU强度变化信息确定峰值帧以及谷值帧，其中，峰值帧表示在视频段中AU强度最大值所对应的视频帧，谷值帧表示在视频段中AU强度最小值所对应的视频帧；

从待训练视频随机选择待标注视频帧；

对待标注视频帧、峰值帧以及谷值进行标注，得到标注视频帧集合。

本实施例中，介绍了一种获取标注视频帧集合的方式。面部肌肉的动作是和表情有很大关系的，面部由一些AU组成，为了便于理解，请参阅图5，图5为本申请实施例中AU表现的一个实施例示意图，如图所示，不同的AU对应不同的面部肌肉表现形式，假设存量六种基本表情(快乐、伤心、恐惧、愤怒、惊讶和厌恶)，较为复杂的表情可以是上述六种基本表情的组合，且同一个类型的表情所表示的语义是多样化的。如果要准确地判断出用户情感以及情感的表达程度，那么就需要准确地进行标注。

具体地，首先模型训练装置根据待训练视频获取AU强度变化信息，可以通过视音频解码工具生成AU强度变化信息，请参阅图6，图6为本申请实施例中待训练视频中峰值帧和谷值帧的一个示意图，如图所示，在同一个待训练视频中，不同AU强度的峰值帧和谷值帧的位置不同，本申请分别标注AU强度的峰值帧和谷值帧。根据峰值帧的位置和谷值帧的位置，可以将待训练视频分割为多个视频段。此外，为了能够增加监督信息，还可以从待训练视频随机选择若干个待标注视频帧，待标注视频帧有可能是峰值帧或者谷值帧。最后，需要分别对待标注视频帧、峰值帧以及谷值进行标注，得到相应的标注视频帧，所有的标注视频帧构成标注视频帧集合。

标注的方式包含并不仅限于如下方式：

方式一，采用向量表示AU强度，比如，使用[1,0,0,0,0,0]表示快乐。如果考虑强度的话，可以表示为[2.5,0,0,0,0,0]，值越大表示越强。同时可以设置一个强度表示范围[0,5]。

方式二，采用离散值表示AU强度，比如AU0表示自然状态。AU1表示强于AU0，且弱于AU2的状态。AU2表示强于AU1，且弱于AU3的状态。AU3表示强于AU2，且弱于AU4的状态。AU4表示强于AU3，且弱于AU5的状态。AU5表示强于AU4的状态。

为了便于介绍，请参阅图7，图7为本申请实施例中生成标注视频帧集合的一个流程示意图，如图所示，步骤201中，获取待训练视频，即得到未标注的视频序列。步骤202中，对待训练视频进行标注，即标注峰值帧和谷值帧的位置。步骤203中，将训练训练视频(即视频序列)按照峰值帧和谷值帧划分为多个视频段。步骤204中，从待训练视频中随机选择部分视频帧，并且标注这些视频帧的AU强度。

其次，本申请实施例中，将介绍一种获取标注视频帧集合的方法，即先根据待训练视频获取AU强度变化信息，然后根据AU强度变化信息确定AU强度峰值帧以及AU强度谷值帧，此外，还需要从待训练视频随机选择待标注视频帧，最后对待标注视频帧、AU强度峰值帧以及AU强度谷值进行标注，得到标注视频帧集合。通过上述方式，仅仅对关键帧和少数随机选择视频帧的进行AU强度标注即可，虽然一个待训练视频中存在多个峰值帧和谷值帧，但它们在整个待训练视频中只占很小的一部分，因此，可以大幅地降低视频帧的标注成本。

可选地，在上述图4或图4对应的第一个实施例的基础上，本申请实施例提供的模型训练的方法第二个可选实施例中，根据标注视频帧集合获取图像特征集合，可以包括：

从标注视频帧中获取N个关键点，其中，N个关键点用于表示面部特征，N为大于或等于1的整数；

根据N个关键点以及N个平均关键点，确定第一维度特征，其中，N个平均关键点为根据标注视频帧集合所确定的；

根据N个关键点中的M个关键点，确定第二维度特征，其中，M为大于或等于1，且小于或等于N的整数；

根据N个关键点中每个关键点到标注视频帧的中心点的距离，确定第三维度特征；

根据第一维度特征、第二维度特征以及第三维度特征，确定标注视频帧所对应的图像特征。

本实施例中，将介绍如何提取标注视频帧所对应的图像特征，为了便于说明，请参阅图8，图8为本申请实施例中提取图像特征的一个流程示意图，如图所示，在步骤301中，给定一个标注视频帧，且该标注视频帧包括人脸图像。在步骤302中，可以先检测出66个人脸关键点。在步骤303中，利用利用双眼中心点对齐关键点，对齐后的关键点用于计算人脸几何特征。在步骤304中特征提取只用到五官周围的49个关键点。可以理解的是，49个关键点的数量仅为一个示意，在实际应用中，还可以提取其他数量的关键点。这里我们以N＝49为例进行介绍，然而这不应理解为对本申请的限定。

具体地，获取N个平均关键点，假设标注视频帧集合包括100个标注视频帧，N个平均关键点就是这100个标注视频帧的关键点的平均值。用标注视频帧的N个关键点的位置减去N个平均人脸关键点的位置即可得到49个偏移位置，由于偏移位置包括横轴偏移量和纵轴偏移量，因此，具有49*2＝98个维度的特征，即得到第一维度特征。

计算M个关键点中连续两点之间的距离和连续三个点之间的角度。将N个关键点中的M个关键点分为三组，第一组为左眼(关键点20至25)和左眉毛(关键点1至5)，第二组为右眼(关键点26至31)和右眉毛(关键点6至10)，第三组为嘴区域(关键点32至49)。第一组共有11个关键点，即得到11-1＝10个距离，以及11-2＝9个角度。第二组共有11个关键点，即得到11-1＝10个距离，以及11-2＝9个角度。第三组共有18个关键点，即得到18-1＝17个距离，以及18-2＝16个角度。由此得到10+9+10+9+17+16＝71个维度的特征，即得到第二维度特征。

计算N个关键点中每个关键点到人脸中心点的距离，从而得到49维特征，即得到第三维度特征。最后，将第一维度特征、第二维度特征和第三维度特征拼接起来，得到标注视频帧所对应的图像特征。比如得到98+71+49＝218维的图像特征。

再次，本申请实施例中，提供了一种对提取图像特征的方法。首先从标注视频帧中获取N个关键点，然后根据N个关键点以及N个平均关键点，确定第一维度特征，根据N个关键点中的M个关键点，确定第二维度特征，并且根据N个关键点中每个关键点到标注视频帧的中心点的距离，确定第三维度特征，最后结合第一维度特征、第二维度特征以及第三维度特征，确定标注视频帧所对应的图像特征。通过上述方式，能够提取到足够丰富的人脸特征，基于每个图像帧采用相同的方法进行特征提取，从而得到更加全面的图像特征，由此提升方案的可靠性。

可选地，在上述图4以及图4对应的第一个至第二个实施例中任一项的基础上，本申请实施例提供的模型训练的方法第三个可选实施例中，根据图像特征集合生成目标损失函数，可以包括：

根据图像特征集合以及模型参数确定硬约束条件；

根据图像特征集合以及待训练视频确定软约束条件；

根据硬约束条件以及软约束条件生成目标损失函数。

本实施例中，在模型训练装置得到图像特征集合之后，可以根据先验知识确定硬约束条件，并且从训练数据中自动学习软约束条件，结合硬约束条件和软约束条件得到目标损失函数。可以理解的是，硬约束条件包括至少一个约束条件，软约束条件也包括至少一个约束条件，因此，目标损失函数可以结合多种不同的约束条件而生成，本申请所提供的五个约束条件是一种实现方式，在实际应用中，还可以加入不同类型的约束条件。

其次，本申请实施例中，提供了一种目标损失函数的生成方法，根据图像特征集合以及模型参数确定硬约束条件，并且根据图像特征集合以及待训练视频确定软约束条件，结合硬约束条件以及软约束条件生成目标损失函数。通过上述方式，充分考虑到不同形式的先验知识，先验知识被表述成为软约束和硬约束，可以灵活地嵌入建立的模型中。

可选地，在上述图4以及图4对应的第一个至第三个实施例中任一项的基础上，本申请实施例提供的模型训练的方法第四个可选实施例中，根据图像特征集合以及模型参数确定硬约束条件，可以包括：

根据标注视频帧集合确定AU强度向量，其中，AU强度向量中的元素与标注视频帧集合中的标注视频帧具有对应关系；

获取标注视频帧集合在隐空间的第一系数，其中，隐空间所对应的特征空间小于图像特征所对应的特征空间；

根据AU强度向量、第一系数与模型参数，生成第一约束条件，其中，第一约束条件属于硬约束条件。

本实施例中，介绍了一种硬约束条件，即对有限的标注视频帧进行AU强度标注。在待训练视频中，只有少量的标注视频帧含有AU强度标注，这部分标注可以作为较强的监督信息。学到的表征和模型参数应满足：

Φ_lw＝Y_l；

其中，Y_l表示AU强度向量，AU强度向量中的元素与标注视频帧集合中的标注视频帧具有对应关系，比如，1号标注视频帧的AU强度为0，2号标注视频帧的AU强度为5，3号标注视频帧的AU强度为1，4号标注视频帧的AU强度为5，5号标注视频帧的AU强度为3，则AU强度向量Y_l表示为0,5,1,5,3，即

N为AU强度向量中的元素个数。Φ_l表示第一系数，即表示所有含有标注的标注视频帧在隐空间(新维度下的空间)的系数，隐空间所对应的特征空间小于图像特征所对应的特征空间，比如原始图像空间是218维度的，隐空间是60维度的。w表示模型参数。

根据AU强度向量、第一系数与模型参数，生成第一约束条件，其中，第一约束条件属于硬约束条件，该第一约束条件写在目标函数里面可以表述为：

其中，D_f表示标注AU强度的标注视频帧集合，具体表示为

表示第n个标注视频帧的图像特征，

表示第n个标注视频帧的AU强度。λ₀表示超参数，可以取值0.1，或者1，或者10等，具体可以根据验证数据集来选择。

再次，本申请实施例中，提供了一种硬约束条件的内容，即根据标注视频帧集合确定AU强度向量，获取标注视频帧集合在隐空间的第一系数，根据AU强度向量、第一系数与模型参数，生成第一约束条件，其中，第一约束条件属于硬约束条件。通过上述方式，为硬约束条件设计了一种具体的实现方式，从而提供方案的可行性和可操作性。

可选地，在上述图4以及图4对应的第一个至第四个实施例中任一项的基础上，本申请实施例提供的模型训练的方法第五个可选实施例中，根据图像特征集合以及模型参数确定硬约束条件，可以包括：

获取待训练视频中视频段的帧数；

根据视频段的帧数生成矩阵；

获取待训练视频在隐空间的第二系数，其中，隐空间所对应的特征空间小于图像特征所对应的特征空间；

根据视频段的帧数生成矩阵、第二系数与模型参数，生成第二约束条件，其中，第二约束条件属于硬约束条件。

本实施例中，介绍了另一种硬约束条件，由于人脸肌肉的运动是平滑的，人脸表观的变化也是平滑的，所以AU强度是平滑的。在已经分割好的视频段中，AU强度单调递增(或单调递增)或者保持不变。所以在一个视频段中，预测得到的位置在前的标注视频帧的AU强度应大于(或小于)位置在后的标注视频帧的AU强度。以AU强度单调递增为例，学到的表征和模型参数应该满足如下条件：

其中，Φ_u表示第二系数，

表示待训练视频中所有视频段在隐空间的系数，隐空间所对应的特征空间小于图像特征所对应的特征空间，比如原始图像空间是218维度的，隐空间是60维度的。w表示模型参数。待训练视频总共包括M个视频段，m表示M个视频段中的一个视频段。T_m表示视频段中的包含的视频帧数量，即待训练视频中视频段的帧数。

AU强度的有序性是不等式约束，写成矩阵的形式可以表示为：

其中，Γ^m是根据视频段帧数生成的矩阵，可以表示为

由此，根据视频段的帧数生成矩阵、第二系数与模型参数，生成第二约束条件，第二约束条件表示为：

ΓΦ_uw≤0；

其中，Γ＝diag([Γ¹,Γ²,...,Γ^M])，diag()函数用于构造一个对角矩阵。

再次，本申请实施例中，提供了另一种硬约束条件的内容，即获取待训练视频中视频段的帧数，根据视频段的帧数生成矩阵，获取待训练视频在隐空间的第二系数，根据视频段的帧数生成矩阵、第二系数与模型参数，生成第二约束条件，其中，第二约束条件属于硬约束条件。通过上述方式，为硬约束条件设计了另一种具体的实现方式，从而提供方案的可行性和灵活性。

可选地，在上述图4以及图4对应的第一个至第五个实施例中任一项的基础上，本申请实施例提供的模型训练的方法第六个可选实施例中，根据图像特征集合以及模型参数确定硬约束条件，可以包括：

根据第一系数、第二系数以及模型参数，生成第三约束条件，其中，第三约束条件属于硬约束条件。

本实施例中，介绍了另一种硬约束条件，由于AU强度被定义为非负的标量，所以视频帧的AU预测值应该不小于0.因此，学习到的表征和模型参数应该满足如下约束条件，即第三约束条件表示为：

Φ_uw≥0,Φ_lw≥0；

其中，Φ_l表示第一系数，即表示所有含有标注的标注视频帧在隐空间(新维度下的空间)的系数，Φ_u表示第二系数，

表示待训练视频中所有视频段在隐空间的系数。隐空间所对应的特征空间小于图像特征所对应的特征空间，比如原始图像空间是218维度的，隐空间是60维度的。w表示模型参数。

再次，本申请实施例中，提供了另一种硬约束条件的内容，即标注视频帧集合在隐空间的第一系数，获取待训练视频在隐空间的第二系数，根据第一系数、第二系数以及模型参数，生成第三约束条件，其中，第三约束条件属于硬约束条件。通过上述方式，为硬约束条件设计了另一种具体的实现方式，从而提供方案的可行性、可操作性和灵活性。

可选地，在上述图4以及图4对应的第一个至第六个实施例中任一项的基础上，本申请实施例提供的模型训练的方法第七个可选实施例中，根据图像特征集合以及待训练视频确定软约束条件，可以包括：

根据待训练视频中相邻两帧视频帧确定邻接矩阵；

根据邻接矩阵确定相邻两帧视频帧的对角矩阵；

根据邻接矩阵、对角矩阵、第二系数以及模型参数，生成第四约束条件，其中，第四约束条件属于软约束条件。

本实施例中，介绍了一种软约束条件，由于人脸表观在时序上是平滑的，AU强度根据表观进行标注，AU强度在时序上是平滑的。在一个视频段中，相邻的视频帧的AU强度应该是接近的，即对于相邻帧i和j，

较小，对于所有的视频段满足如下的正则项，即生成第四约束条件：

其中，L^m＝D^m-C^m和L＝diag([L¹，L²，...，L^M])。待训练视频总共包括M个视频段，m表示M个视频段中的一个视频段。C^m是一个邻接矩阵，如果i和j是相邻两帧视频帧，则

否则

根据邻接矩阵确定相邻两帧视频帧的对角矩阵，即对角矩阵D^m表示为

Φ_u表示第二系数，

表示待训练视频中所有视频段在隐空间的系数，隐空间所对应的特征空间小于图像特征所对应的特征空间，比如原始图像空间是218维度的，隐空间是60维度的。

再次，本申请实施例中，提供了一种软约束条件的内容，即先获取待训练视频在隐空间的第二系数，根据待训练视频中相邻两帧视频帧确定邻接矩阵，然后根据邻接矩阵确定相邻两帧视频帧的对角矩阵，最后根据邻接矩阵、对角矩阵、第二系数以及模型参数，生成第四约束条件。通过上述方式，为软约束条件设计了一种具体的实现方式，从而提供方案的可行性和可操作性。

可选地，在上述图4以及图4对应的第一个至第七个实施例中任一项的基础上，本申请实施例提供的模型训练的方法第八个可选实施例中，根据图像特征集合以及待训练视频确定软约束条件，可以包括：

根据待训练视频中相邻两帧视频帧确定邻接矩阵；

根据邻接矩阵确定相邻两帧视频帧的对角矩阵；

根据邻接矩阵、对角矩阵以及第二系数，生成第五约束条件，其中，第五约束条件属于软约束条件。

本实施例中，介绍了另一种软约束条件，由于人脸表观在时序上是平滑的，相邻的视频帧在隐空间应该具有相近的系数。特征的平滑性可以表述为如下正则项，即生成第五约束条件：

其中，其中，L^m＝D^m-C^m和L＝diag([L¹，L²，...，L^M])。待训练视频总共包括M个视频段，m表示M个视频段中的一个视频段。C^m是一个邻接矩阵，如果i和j是相邻两帧视频帧，则

否则

Φ_u表示第二系数，

表示待训练视频中所有视频段在隐空间的系数，隐空间所对应的特征空间小于图像特征所对应的特征空间，比如原始图像空间是218维度的，隐空间是60维度的。tr()是指将矩阵对角线相加。上标T表示转置运算。

再次，本申请实施例中，提供了另一种软约束条件的内容，即先获取待训练视频在隐空间的第二系数，根据待训练视频中相邻两帧视频帧确定邻接矩阵，然后根据邻接矩阵确定相邻两帧视频帧的对角矩阵，最后根据邻接矩阵、对角矩阵以及第二系数，生成第五约束条件，其中，第五约束条件属于软约束条件。通过上述方式，为软约束条件设计了另一种具体的实现方式，从而提供方案的可行性、可操作性和灵活性。

可选地，在上述图4以及图4对应的第一个至第八个实施例中任一项的基础上，本申请实施例提供的模型训练的方法第九个可选实施例中，根据硬约束条件以及软约束条件生成目标损失函数，可以包括：

采用如下方式确定目标损失函数

s.t.ΓΦ_uw≤0,Φ_lw≥0,Φ_uw≥0；

其中，B表示基向量，β表示B的值域，w表示模型参数，Φ_l表示第一系数，Φ_u表示第二系数，D_f表示标注视频帧集合，D_s表示待训练视频，λ₂表示第一超参数，λ₃表示第二超参数，s.t.表示受限于，Γ表示矩阵，L_u(Φ_l,Φ_u,B,D_f,D_s)表示重建损失函数，L_l(w,Φ_l,D_f)表示第一约束条件，ΓΦ_uw≤0表示第二约束条件，Φ_lw≥0,Φ_uw≥0表示第三约束条件，R_I(w,Φ_u,D_s)表示第四约束条件，R_F(w,Φ_u,D_s)表示第五约束条件。

本实施例中，将介绍一种生成目标损失函数的方法。对于给定峰值帧、谷值帧以及部分随机选择的视频帧的AU强度标注，可以按照如下方式进行建模。对于表征学习，学到的系数和基向量用于重建原特征，其中，重建损失为：

其中，B表示基向量，β表示B的值域，β＝{b:||b||₂≤1}，X_l表示所有标注视频帧的图像特征，

d为图像特征的维度，T_m表示视频段中的包含的视频帧数量，即待训练视频中视频段的帧数。S_u表示所有未标注视频段的图像特征，

λ₁表示超参数，Φ_l表示第一系数，Φ_u表示第二系数。

结合上述的第一约束条件、第二约束条件、第三约束条件、第四约束条件和第五约束条件，得到如下目标损失函数：

s.t.ΓΦ_uw≤0,Φ_lw≥0,Φ_uw≥0；

其中，L_u(Φ_l,Φ_u,B,D_f,D_s)表示重建损失函数，第二项是第一约束条件，即标注损失，第三项是第四约束条件，即AU强度平滑的正则项，第四项是第五约束条件，即特征平滑的正则项，硬约束为AU强度的有序性和AU强度的非负性。

目标损失函数含有多个变量，对于单个变量是凸问题，但是对于所有的变化并不是联合凸提，可以采用交替方向乘子法(Alternating Direction Method ofMultipliers，ADMM)来求解建立的优化问题。本申请用于提供监督信息，使得在少量标注的情况下训练模型成为可能。本申请可以用于辅助社交，也可以用于人机交互，帮助机器人理解人的表情。

本发明使用了五种不同的先验知识，作为硬约束和软约束嵌入模型中，但是先验知识并不限于以上五种。本发明的建模的优化问题使用ADMM进行优化，也可以使用其他的优化方法进行优化。进一步地，本申请实施例中，提供了一种目标损失函数的具体表示方式，通过上述方式，能够准确地表达目标损失函数包括的内容，且灵活地在目标约束函数中嵌入硬约束和软约束，达到更好的模型监督效果，从而提升模型训练的可靠性。

可选地，在上述图4以及图4对应的第一个至第九个实施例中任一项的基础上，本申请实施例提供的模型训练的方法第十个可选实施例中，采用目标损失函数对待训练AU强度预测模型进行训练，得到AU强度预测模型，可以包括：

根据目标损失函数确定基向量以及模型参数；

根据基向量以及模型参数对待训练AU强度预测模型进行训练，得到AU强度预测模型。

本实施例中，基于上述介绍，根据最小化的目标损失函数确定基向量以及模型参数，基向量

其中，K表示有K组基向量，K即为降维的数值。结合基向量以及模型参数对待训练AU强度预测模型进行训练，得到AU强度预测模型。

其次，本申请实施例中，提供了一种得到AU强度预测模型的方式。即首先需要根据目标损失函数获取基向量以及模型参数，然后根据基向量以及模型参数对待训练AU强度预测模型进行训练，得到AU强度预测模型。通过上述方式，能够结合多种先验知识训练得到AU强度预测模型，这些先验知识用于提供监督信息，使得在少量标注的情况下也能训练得到AU强度预测模型。

结合上述介绍，下面将对本申请中面部动作单元强度估计的方法进行介绍，请参阅图9，本申请实施例中面部动作单元强度估计的方法一个实施例包括：

401、获取待预测图像；

本实施例中，首先获取待预测图像，该待预测图像可以是通过拍摄得到的，也可以是从已有的视频或图像中提取的。

402、从待预测图像中提取第一图像特征；

本实施例中，提取待预测图像的第一图像特征，其中，待预测图像需包括人脸图像，第一图像特征的提取方式可以参考图4对应的第二个可选实施例，此处不做赘述。

403、通过面部动作单元AU强度预测模型获取第一图像特征所对应的AU强度预测结果，其中，AU强度预测模型包括基向量以及模型参数，基向量用于将第一图像特征转换为第二图像特征，第一图像特征与第二图像特征具有不同的特征空间，模型参数用于根据第二图像特征确定AU强度预测结果。

本实施例中，根据训练得到的AU强度预测模型，可以学习到子空间的基向量B和模型参数w，对于待预测图像的第一图像特征x之后，先计算待预测图像在子空间的表示，即：

Φ'＝argmin_Φ||x-BΦ||；

其中，Φ为第一图像特征，Φ'为第二图像特征。然后利用新的第二图像特征进行AU强度的计算，即：

y＝w^TΦ'；

其中，y表示AU强度预测结果。

本申请实施例中，提供了一种AU强度估计的方法，首先获取待预测图像，然后从待预测图像中提取第一图像特征，最后通过面部动作单元AU强度预测模型获取第一图像特征所对应的AU强度预测结果，AU强度预测模型包括基向量以及模型参数，基向量用于将第一图像特征转换为第二图像特征，第一图像特征与第二图像特征具有不同的特征空间，模型参数用于根据第二图像特征确定AU强度预测结果。通过上述方式，利用AU强度预测模型能够将图像特征进行空间变换，基于变换后的特征进行AU强度预测，从而能够更准确快捷地输出AU强度。

基于本申请提供的AU强度估计方法，下面将结合实验数据做进一步地说明。请参阅图10a，图10a为本申请实验场景中在6％的训练样本被注释的情况下的学习曲线示意图，如图所示，本申请提供的AU强度估计方法可以称为知识共同学习表示和估计方法(knowledge to jointly learn representation and estimator，KJRE)，当迭代次数足够大时，KJRE在AU12上的学习曲线更接近初始目标(primal objective)K1。请参阅图10b，图10b为本申请实验场景中不同迭代次数所对应的AU强度预测一个对比示意图，如图所示，K3表示真实值，K4表示预测值，当迭代次数等于1时，真实值和预测值相差较大。当迭代次数等于5时，真实值和预测值相差仍然较大。当迭代次数等于9时，真实值和预测值相差较小。而当迭代次数等于30时，真实值和预测值比较接近。由此可见，迭代次数越多，真实值和预测值越接近。

下面将介绍两类不同的数据集，请参阅图11，图11为本申请实验场景中不同数据集的AU标注分布一个对比示意图，如图所示，左图为基于人脸表情识别与分析(FacialExpression Recognition and Analysis Challenge，FERA)2015竞赛数据集，右图为丹佛面部自发活动强度数据集(Denver Intensity of Spontaneous Facial Action，DISFA)数据集，由于两个数据库中的序列都是以较高的帧速率捕获的，因此连续帧中的面部只有较小的变化。所以每五帧选择一帧进行记录，视频段长度在10值80之间。为了进行评估，改变了训练集中标记帧的比例，包括2％、4％、6％、8％、10％、30％、50％、70％、90％和100％。标记的视频帧是随机选择的，关键帧具有选择优先级，每5次实验报告一次平均性能。

基于FERA2015竞赛数据集和DISFA数据集，可以验证本申请所提供的AU强度估计方法的有效性。FERA2015竞赛数据集的AU强度被分为6个离散的强度，采用21个人的视频作为训练集，采用20个人的视频作为测试集。DISFA数据集包含27个人的视频，我们采用4份数据进行训练，1份数据进行测试，由此进行独立交叉验证。采用本申请提供的图像特征提取方法可以得到218维的图像特征。

下面将采用皮尔森相关系数(Pearson Correlation Coefficient，PCC)、组内相关系数(Intra-Class Correlation，ICC)以及平均绝对误差(Mean Absolute Error，MAE)作为评价指标，通过网格法来寻找超参数。K∈{60,80,100,120,140}，

K表示基向量数量，λ表示超参数，ρ表示优化过程中的参数。

请参阅表1和表2，表1为基于FERA2015竞赛数据集的AU强度估计方法比较结果一个示意，表2为基于DISFA数据集的AU强度估计方法比较结果一个示意。

表1

表2

由此可见，实验中将多种方法进行对比，包括支持向量机(support vectormachine，SVR)、支持序数向量回归(support ordinal vector regression，SOVRIM)、相关向量机(relevance vector machine，RVR)、潜在树(latent tree，LT)、Copula序数回归(copula ordinal regression，COR)、双支持相关向量机(double support relevancevector machine，DSRVM)、海森半监督回归(Hessian semi-supervised regression，HSSR)、凸子空间学习(convex subspace learning，CSL)、序数支持向量回归(ordinalsupport vector regression，OSVR)、双边序贯相关多实例回归(bilateral ordinalrelevance multi-instance regression，BORMIR)以及KJRE。表1和表2展示了在数据集中6％的视频帧有AU强度标注的情况下，各种方法的结果对比结果，不难看出，本申请设计的KJRE在FERA 2015数据集中，在三个不同的指标下均取得最好的结果。在DISFA数据集中，在ICC和PCC的指标下均取得最好的结果。虽然DSRVM和HSSR的MAE很好，但是它们的PCC和ICC较差。因为它们在数据不均衡时，学习到的模型趋向于预测训练数据里最多的AU强度，即0。而本申请设计的KJRE可以一定程度上缓解数据不均衡带来的影响。

请参阅图12至图17，图12为本申请实验场景中基于FERA 2015数据集的一个PCC一个对比示意图，图13为本申请实验场景中基于FERA 2015数据集的一个ICC一个对比示意图，图14为本申请实验场景中基于FERA 2015数据集的一个MAE一个对比示意图，图15为本申请实验场景中基于DISFA数据集的一个PCC一个对比示意图，图16为本申请实验场景中基于DISFA数据集的一个ICC一个对比示意图，图17为本申请实验场景中基于DISFA数据集的一个MAE一个对比示意图，如图所示，随着训练视频段中，被标注的视频帧百分比的增多，在FERA 2015数据集上，本申请设计的KJRE在不同的指标下取得最好的结果在DISFA数据集上，本申请设计的KJRE在PCC和ICC是最好的，MAE和最好的结果相当。

在实验中还结合了四种先验知识来共同学习KJRE，为了验证不同类型的先验知识有效性，将不使用先验知识的共同学习表示与估计方法(jointly learn representationand estimator，JRE)性能与仅使用一种先验知识的性能进行比较，包括仅使用标签排名的方法(KJRE-O)，仅使用标签平滑度的方法(KJRE-I)，仅使用特征平滑度的方法(KJRE-F)和仅使用正向强度的方法(KJRE-P)，KE-PCA使用主成分分析(principal componentanalysis，PC)来表示。请参阅表3和表4，表3为基于FERA2015竞赛数据集在具有强度标签情况下的一个评估结果示意，表4为基于DISFA数据集在具有强度标签情况下的一个评估结果示意。

表3

表4

由此可见，每种方法在FERA2015竞赛数据集上都比在DISFA数据集上获得更好的性能，因为DISFA数据集是一个更具挑战性的数据库，具有低质量的图像、变化较多的头部姿势、复杂的照明和不平衡的强度分布。具体分析如下。首先，使用一种先验知识的方法，包括KJRE-O、KJRE-I、KJRE-F和KJRE-P，比不使用任何类型知识的JRE获得更好的效果。它证明了每种类型先验知识的有效性，且标签排序和标签平滑度比特征平滑度和正强度更重要。其次，KJRE结合了所有类型的知识，比JRE以及使用部分知识的方法获得了更好的性能。进一步证明了先验知识知识有助于改善表示和估计学习。第三，KJRE比KE-PCA方法获得了更好的结果，后者使用PCA在无监督的情况下学习表示，然后结合知识进行估计学习。在DISFA数据集上，KE-PCA比KJRE获得了略好的MAE，但却得到了更差的PCC和ICC。因为强度水平不平衡且DISFA数据集中的多数强度为0，表示学习将以样本为主，强度为0。这使得KE-PCA倾向于预测所有测试样本的0强度。由于大多数强度为0，KE-PCA可以获得良好的MAE，但ICC的性能较差。与KE-PCA的比较表明，当数据库不平衡时，KJRE对表示和估计的学习更为稳健。

请参阅表5，表5为使用有限标注帧时与不同深度模型的对比示意。

表5

由此可见，Copula条件随机场算法神经网络(copula CRF neural network，copula conditional random field algorithm neural network)和深度编码器(deepcoder，2DC)的结果与相应的论文相吻合。在FERA2015竞赛数据集上，KJRE在使用120个标注帧或360个标注帧时优于基于知识的半监督方法(Knowledge based semi-supervisedmethod，KBSS)。当使用1000个标注帧时，在DISFA数据集上，KJRE实现了更好的PCC和ICC。结果表明，KJRE适用于具有极少标注帧的数据集，即使在具有数百个标注帧的数据集中，KJRE也能优于KBSS。

下面对本申请中的模型训练装置进行详细描述，请参阅图18，图18为本申请实施例中模型训练装置一个实施例示意图，模型训练装置50包括：

获取模块501，用于获取待训练视频，其中，所述待训练视频中包括至少一个视频段，每个视频段的面部动作单元AU强度为单调递增、单调递减或保持不变；

所述获取模块501，还用于从所述待训练视频中获取标注视频帧集合，其中，所述标注视频帧集合中包括多个标注视频帧，且所述标注视频帧集合至少包括所述待训练视频中的AU强度峰值帧或者AU强度谷值帧；

所述获取模块501，还用于根据所述标注视频帧集合获取图像特征集合，其中，所述图像特征集合包括多个图像特征，所述图像特征与所述标注图像具有对应关系；

生成模块502，用于根据所述获取模块501获取的所述图像特征集合生成目标损失函数，其中，所述目标损失函数包括多个约束条件；

训练模块503，用于采用所述生成模块502生成的所述目标损失函数对待训练AU强度预测模型进行训练，得到AU强度预测模型。

本实施例中，获取模块501获取待训练视频，其中，所述待训练视频中包括至少一个视频段，每个视频段的面部动作单元AU强度为单调递增、单调递减或保持不变，所述获取模块501从所述待训练视频中获取标注视频帧集合，其中，所述标注视频帧集合中包括多个标注视频帧，且所述标注视频帧集合至少包括所述待训练视频中的AU强度峰值帧或者AU强度谷值帧，所述获取模块501根据所述标注视频帧集合获取图像特征集合，其中，所述图像特征集合包括多个图像特征，所述图像特征与所述标注图像具有对应关系，生成模块502根据所述获取模块501获取的所述图像特征集合生成目标损失函数，其中，所述目标损失函数包括多个约束条件，训练模块503采用所述生成模块502生成的所述目标损失函数对待训练AU强度预测模型进行训练，得到AU强度预测模型。

本申请实施例中，提供了一种模型训练装置，首先，获取待训练视频，然后可以从待训练视频中获取标注视频帧集合，其中，标注视频帧集合中包括多个标注视频帧，且标注视频帧集合至少包括待训练视频中的AU强度峰值帧或者AU强度谷值帧，再根据标注视频帧集合获取图像特征集合，接下来，根据图像特征集合生成目标损失函数，最后采用目标损失函数对待训练AU强度预测模型进行训练，得到AU强度预测模型。通过上述方式，无需对待训练视频中的每个视频帧进行标注，而是对待训练视频中少量的AU强度峰值帧以及AU强度谷值帧进行标注即可，结合多个约束条件进行学习，从而在降低AU强度标注成本的同时，还可以训练得到较好的模型。

可选地，在上述图18所对应的实施例的基础上，本申请实施例提供的模型训练装置50的另一实施例中，

所述获取模块501，具体用于根据所述待训练视频获取AU强度变化信息；

从所述待训练视频随机选择待标注视频帧；

所述获取模块501，具体用于从标注视频帧中获取N个关键点，其中，所述N个关键点用于表示面部特征，所述N为大于或等于1的整数；

所述生成模块502，具体用于根据所述图像特征集合以及模型参数确定硬约束条件；

所述生成模块502，具体用于根据所述标注视频帧集合确定AU强度向量，其中，所述AU强度向量中的元素与所述标注视频帧集合中的标注视频帧具有对应关系；

所述生成模块502，具体用于获取所述待训练视频中视频段的帧数；

根据所述视频段的帧数生成矩阵；

所述生成模块502，具体用于获取所述标注视频帧集合在隐空间的第一系数，其中，所述隐空间所对应的特征空间小于所述图像特征所对应的特征空间；

所述生成模块502，具体用于获取所述待训练视频在隐空间的第二系数，其中，所述隐空间所对应的特征空间小于所述图像特征所对应的特征空间；

根据所述待训练视频中相邻两帧视频帧确定邻接矩阵；

根据所述邻接矩阵确定所述相邻两帧视频帧的对角矩阵；

根据所述待训练视频中相邻两帧视频帧确定邻接矩阵；

根据所述邻接矩阵确定所述相邻两帧视频帧的对角矩阵；

所述生成模块502，具体用于采用如下方式确定所述目标损失函数

s.t.ΓΦ_uw≤0,Φ_lw≥0,Φ_uw≥0；

所述训练模块503，具体用于根据所述目标损失函数确定基向量以及模型参数；

下面对本申请中的面部动作单元强度估计装置进行详细描述，请参阅图19，图19为本申请实施例中面部动作单元强度估计装置一个实施例示意图，面部动作单元强度估计装置60包括：

获取模块601，用于获取待预测图像；

提取模块602，用于从所述获取模块获取的所述待预测图像中提取第一图像特征；

所述获取模块601，还用于通过面部动作单元AU强度预测模型获取所述提取模块602提取的所述第一图像特征所对应的AU强度预测结果，其中，所述AU强度预测模型包括基向量以及模型参数，所述基向量用于将所述第一图像特征转换为第二图像特征，所述第一图像特征与所述第二图像特征具有不同的特征空间，所述模型参数用于根据所述第二图像特征确定所述AU强度预测结果。

本实施例中，获取模块601获取待预测图像，提取模块602从所述获取模块获取的所述待预测图像中提取第一图像特征，所述获取模块601通过面部动作单元AU强度预测模型获取所述提取模块602提取的所述第一图像特征所对应的AU强度预测结果，其中，所述AU强度预测模型包括基向量以及模型参数，所述基向量用于将所述第一图像特征转换为第二图像特征，所述第一图像特征与所述第二图像特征具有不同的特征空间，所述模型参数用于根据所述第二图像特征确定所述AU强度预测结果。

图20是本申请实施例提供的一种服务器结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器700上执行存储介质730中的一系列指令操作。

服务器700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图20所示的服务器结构。

在本申请实施例中，该服务器所包括的CPU 722还具有以下功能：

本申请实施例还提供了另一种面部动作单元强度估计装置，如图21所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(personal digitalassistant，PDA)、销售终端设备(point of sales，POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图21示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图21，手机包括：射频(radio frequency，RF)电路810、存储器820、输入单元830、显示单元840、传感器850、音频电路860、无线保真(wireless fidelity，WiFi)模块870、处理器880、以及电源890等部件。本领域技术人员可以理解，图21中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。下面结合图21对手机的各个构成部件进行具体的介绍：

RF电路810可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器880处理；另外，将设计上行的数据发送给基站。通常，RF电路810包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路810还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器820可用于存储软件程序以及模块，处理器880通过运行存储在存储器820的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元830可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元830可包括触控面板831以及其他输入设备832。触控面板831，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板831上或在触控面板831附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板831可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器880，并能接收处理器880发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板831。除了触控面板831，输入单元830还可以包括其他输入设备832。具体地，其他输入设备832可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元840可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元840可包括显示面板841，可选的，可以采用液晶显示器(liquid crystaldisplay，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板841。进一步的，触控面板831可覆盖显示面板841，当触控面板831检测到在其上或附近的触摸操作后，传送给处理器880以确定触摸事件的类型，随后处理器880根据触摸事件的类型在显示面板841上提供相应的视觉输出。虽然在图21中，触控面板831与显示面板841是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板831与显示面板841集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器850，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板841的亮度，接近传感器可在手机移动到耳边时，关闭显示面板841和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路860、扬声器861，传声器862可提供用户与手机之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号，传输到扬声器861，由扬声器861转换为声音信号输出；另一方面，传声器862将收集的声音信号转换为电信号，由音频电路860接收后转换为音频数据，再将音频数据输出处理器880处理后，经RF电路810以发送给比如另一手机，或者将音频数据输出至存储器820以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块870可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图21示出了WiFi模块870，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器880是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器820内的软件程序和/或模块，以及调用存储在存储器820内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监测。可选的，处理器880可包括一个或多个处理单元；可选的，处理器880可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器880中。

手机还包括给各个部件供电的电源890(比如电池)，可选的，电源可以通过电源管理系统与处理器880逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端设备所包括的处理器880还具有以下功能：

获取待预测图像；

从所述待预测图像中提取第一图像特征；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型训练的方法，其特征在于，包括：

根据所述标注视频帧集合获取图像特征集合，其中，所述图像特征集合包括多个图像特征，所述图像特征与所述标注视频帧具有对应关系；

根据所述图像特征集合生成目标损失函数，包括：根据所述图像特征集合以及模型参数确定硬约束条件；根据所述图像特征集合以及所述待训练视频确定软约束条件；根据所述硬约束条件以及所述软约束条件生成所述目标损失函数；其中，所述目标损失函数包括多个约束条件；

所述根据所述图像特征集合以及模型参数确定硬约束条件，包括：根据所述标注视频帧集合确定AU强度向量，其中，所述AU强度向量中的元素与所述标注视频帧集合中的标注视频帧具有对应关系；获取所述标注视频帧集合在隐空间的第一系数；根据所述AU强度向量、所述第一系数与所述模型参数，生成第一约束条件，其中，所述第一约束条件属于所述硬约束条件；

所述根据所述图像特征集合以及所述待训练视频确定软约束条件，包括：获取所述待训练视频在隐空间的第二系数；根据所述待训练视频中相邻两帧视频帧确定邻接矩阵；根据所述邻接矩阵确定所述相邻两帧视频帧的对角矩阵；根据所述邻接矩阵、所述对角矩阵、所述第二系数以及所述模型参数，生成第四约束条件，其中，所述第四约束条件属于所述软约束条件；所述隐空间所对应的特征空间小于所述图像特征所对应的特征空间；

2.根据权利要求1所述的方法，其特征在于，所述从所述待训练视频中获取标注视频帧集合，包括：

根据所述待训练视频获取AU强度变化信息；

从所述待训练视频随机选择待标注视频帧；

3.根据权利要求1所述的方法，其特征在于，所述根据所述标注视频帧集合获取图像特征集合，包括：

从标注视频帧中获取N个关键点，其中，所述N个关键点用于表示面部特征，所述N为大于或等于1的整数；

4.根据权利要求1所述的方法，其特征在于，所述根据所述图像特征集合以及模型参数确定硬约束条件，包括：

获取所述待训练视频中视频段的帧数；

根据所述视频段的帧数生成矩阵；

获取所述待训练视频在隐空间的第二系数；

5.根据权利要求1所述的方法，其特征在于，所述根据所述图像特征集合以及模型参数确定硬约束条件，包括：

获取所述标注视频帧集合在隐空间的第一系数；

获取所述待训练视频在隐空间的第二系数；

6.根据权利要求1所述的方法，其特征在于，所述根据所述图像特征集合以及所述待训练视频确定软约束条件，包括：

获取所述待训练视频在隐空间的第二系数；

根据所述待训练视频中相邻两帧视频帧确定邻接矩阵；

根据所述邻接矩阵确定所述相邻两帧视频帧的对角矩阵；

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述根据所述硬约束条件以及所述软约束条件生成所述目标损失函数，包括：

采用如下方式确定所述目标损失函数

s.t.ΓΦ_uw≤0,Φ_lw≥0,Φ_uw≥0；

其中，所述B表示基向量，所述β表示所述B的值域，β＝{b:||b||₂≤1}，所述w表示所述模型参数，所述Φ_l表示第一系数，所述第一系数表示所有含有标注的标注视频帧在所述隐空间的系数，所述Φ_u表示第二系数，所述第二系数表示所述待训练视频所有视频段在所述隐空间的系数，所述D_f表示所述标注视频帧集合，

表示第n个标注视频帧的图像特征，

表示第n个标注视频帧的AU强度，所述D_s表示所述待训练视频，所述λ₂表示第一超参数，所述λ₃表示第二超参数，所述s.t.表示受限于，所述Γ表示矩阵，所述L_u(Φ_l,Φ_u,B,D_f,D_s)表示重建损失函数，所述L_l(w,Φ_l,D_f)表示第一约束条件，所述ΓΦ_uw≤0表示第二约束条件，所述Φ_lw≥0,Φ_uw≥0表示第三约束条件，所述R_I(w,Φ_u,D_s)表示第四约束条件，所述R_F(w,Φ_u,D_s)表示第五约束条件；

所述重建损失函数为：

其中，X_l表示所有标注视频帧的图像特征，

d为图像特征的维度，T_m表示视频段中的包含的视频帧数量，即待训练视频中视频段的帧数，S_u表示所有未标注视频段的图像特征，

λ₁表示超参数；

所述第一约束条件为：

其中，λ₀表示超参数；w表示模型参数；Y_l表示AU强度向量；

所述第四约束条件为：

其中，L^m＝D^m-C^m和L＝diag([L¹，L²，...，L^M])，M表示所述待训练视频总共包括的视频段，m表示M个视频段中的一个视频段，C^m为邻接矩阵，如果i和j是相邻两帧视频帧，则

否则

D^m为对角矩阵，

所述第五约束条件为：

其中，tr()指将矩阵对角线相加，上标T表示转置运算。

8.根据权利要求1所述的方法，其特征在于，所述采用所述目标损失函数对待训练AU强度预测模型进行训练，得到AU强度预测模型，包括：

根据所述目标损失函数确定基向量以及模型参数；

9.一种面部动作单元强度估计的方法，其特征在于，包括：

获取待预测图像；

从所述待预测图像中提取第一图像特征；

所述AU强度预测模型的训练过程，包括：

10.一种模型训练装置，其特征在于，包括：

所述获取模块，还用于根据所述标注视频帧集合获取图像特征集合，其中，所述图像特征集合包括多个图像特征，所述图像特征与所述标注视频帧具有对应关系；

生成模块，用于根据所述获取模块获取的所述图像特征集合生成目标损失函数，包括：根据所述图像特征集合以及模型参数确定硬约束条件；根据所述图像特征集合以及所述待训练视频确定软约束条件；根据所述硬约束条件以及所述软约束条件生成所述目标损失函数；其中，所述目标损失函数包括多个约束条件；

11.一种面部动作单元强度估计装置，其特征在于，包括：

获取模块，用于获取待预测图像；

所述获取模块，还用于通过面部动作单元AU强度预测模型获取所述提取模块提取的所述第一图像特征所对应的AU强度预测结果，其中，所述AU强度预测模型包括基向量以及模型参数，所述基向量用于将所述第一图像特征转换为第二图像特征，所述第一图像特征与所述第二图像特征具有不同的特征空间，所述模型参数用于根据所述第二图像特征确定所述AU强度预测结果；

所述AU强度预测模型的训练过程，包括：

12.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

13.一种计算机可读存储介质，其特征在于，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至8中任一项所述的方法，或，执行权利要求9所述的方法。