CN111738157B

CN111738157B - 面部动作单元数据集的构建方法、装置和计算机设备

Info

Publication number: CN111738157B
Application number: CN202010582607.0A
Authority: CN
Inventors: 罗琳耀; 徐国强
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2023-07-21
Anticipated expiration: 2040-06-23
Also published as: WO2021259012A1; CN111738157A

Abstract

本发明提出的面部动作单元数据集的构建方法、装置、计算机设备和存储介质，其中方法包括：获取人脸图片，将人脸图片生成多个三元组；对三元组中的人脸图片预处理后输入网络模型，得到对应各三元组的特征向量，将特征向量计算得到损失值，通过网络反向传播计算参数梯度，更新模型参数直到模型收敛得到检索模型；获取多种不同面部动作类别的类别图片，将各类别图片输入搜索模型，通过搜索模型算出各类别人脸特征，及其与指定数据库中人脸特征的欧式距离，依据各欧式距离获取预设数量的人脸图片，形成图片集；将各图片集进行标注并生成面部动作单元数据集，通过检索模型可快速获取大量的不同类别人脸图片，丰富数据集的样本种类和数量。

Description

面部动作单元数据集的构建方法、装置和计算机设备

技术领域

本发明涉及到数据处理的技术领域，特别是涉及到一种面部动作单元数据集的构建方法、装置、计算机设备和存储介质。

背景技术

人脸表情可以被看作是由面部表情编码系统(FACS)定义的不同面部动作单元(Action Unit，简称AU)的组合，随着人工智能技术的发展，基于计算机视觉的AU识别技术也逐渐成熟，但目前国内外最前沿的AU识别技术，一般都只能识别常见的10种左右的AU类别，而AU识别模型构建的瓶颈很多时候在于大规模数据集的构建。

目前市面上公开的AU数据集(如BP4D、DISFA、MMI等等)，仅标注了10种左右的AU类别，并且都是在特定实验场景中采集的，这样条件下构建的数据集会出现以下缺陷：1、采集的AU类别有限，在特定环境下，被采集者能表现的面部动作有限，情绪起伏程度较低，即使通过人为引导被采集者，也难以在短时间内采集到各种类别的AU；2、采集的人数有限，对于构建样本数上万级别的数据集，难以收集到大量不同性别、年龄段以及肤色的人脸样本，导致数据集中大量的重复人脸，会极大地影响模型对于不同人脸的泛化性；3、采集的场景单一，采集时一般会在一个固定的室内场景，这也会在一定程度上影响模型对于不同场景的泛化性。

由于上述缺陷，导致现有AU数据集通常只有常见的十几种AU类别，而非常见AU类别(如上嘴唇上提、嘴角向下倾斜、下巴上提等等)数量却极少，导致了AU识别模型对于非常见AU的识别准确率较低，且这样的采集成本较高，虽然还有通过爬虫在网络上获得大量的人脸图片这种采集方式，但仍然未解决稀缺AU类别的数量较少的问题。

发明内容

本发明的主要目的为提供一种面部动作单元数据集的构建方法、装置、计算机设备和存储介质，旨在解决现有技术中难以大规模采集稀缺AU类别，造成数据集数量种类过少的技术问题。

基于上述发明目的，本发明提出一种面部动作单元数据集的构建方法，包括：

获取预设样本库中的人脸图片；

将所述人脸图片生成多个强关系三元组以及弱关系三元组，每一所述强关系三元组以及弱关系三元组均分别包括第一图片、第二图片以及第三图片，其中，所述强关系三元组中的第一图片与第二图片的人脸表情相似度比所述第一图片与第三图片的面部动作相似度以及第二图片与第三图片的面部动作相似度要大；

对所述强关系三元组以及弱关系三元组中所有的人脸图片进行预处理；

将所述预处理过后的所述强关系三元组或弱关系三元组按预设方式输入预设的网络模型，得到对应所述强关系三元组以及弱关系三元组的特征向量；

将所述特征向量通过预设的损失函数计算得到损失值，并通过网络反向传播计算参数梯度，以更新所述网络模型的模型参数直到所述网络模型收敛，得到用于获取面部动作相似图片的检索模型；

获取多种不同面部动作类别的类别图片，并依次将各所述类别图片输入所述搜索模型；

通过所述搜索模型计算得到各所述类别图片的人脸特征，并依据各所述类别图片的人脸特征与指定数据库中的人脸图片的人脸特征进行计算，得到各所述类别图片与各所述人脸图片的人脸特征的欧式距离，依据各所述欧式距离从小至大的顺序对各所述人脸图片进行排序，并按所述顺序从排序第一开始获取预设数量的所述人脸图片，形成对应各类别的图片集；

将各所述图片集分别按照对应所述类别图片的类别进行标注；

依据所述标注的图片集生成多种不同面部动作类别的面部动作单元数据集。

进一步低，所述将所述人脸图片生成多个强关系三元组以及弱关系三元组的步骤，包括：

将所述人脸图片分成多个三元组；

获取多个用户输入对应各所述三元组的分辨指令，所述分辨指令包括确认所述三元组为强关系三元组的肯定指令，以及否认所述三元组为强关系三元组的否定指令；

分别判断各所述三元组的多个分辨指令当中是否包含预设数量的肯定指令；

若是，则将所述三元组判定为强关系三元组，否则将所述三元组判定为弱三元组。

进一步低，所述将所述预处理过后的所述强关系三元组或弱关系三元组按预设方式输入预设的网络模型的步骤，包括：

将预处理过后的所述强关系三元组与弱关系三元组按指定比例或随机形成多个输入集，每个输入集包括指定数量的所述三元组；

依次将输入集逐个输入所述网络模型。

进一步低，所述将所述特征向量通过预设的损失函数计算得到损失值的步骤，包括：

通过以下预设公式计算出所述损失值：

其中，(I₁,I₂,I₃)表示所述三元组中的第一图片、第二图片以及第三图片，I(I₁,I₂,I₃)表示所述损失值，为对应所述第一图片、第二图片以及第三图片的特征向量，δ为预设的间隔距离。

进一步低，所述获取预设样本库中的人脸图片的步骤之前，包括：

以预存的InsightFace模块以及Densenet模块搭建形成初始模型；

获取已训练好的InsightFace网络模型的参数值，以所述参数值作为所述初始模型初始化参数值对所述初始模型进行初始化，得到所述网络模型。

进一步低，所述对所述强关系三元组以及弱关系三元组中所有的人脸图片进行预处理的步骤，包括：

对所述强关系三元组以及弱关系三元组中所有的人脸图片进行去除背景，得到仅余人脸头像的第一处理图片；

将所有所述第一图片中的人脸头像以指定尺寸为准进行调整，得到第二处理图片；

将第二处理图片中的人脸头像统一对齐并裁剪，得到所述预处理后的人脸图片。

本发明还提供一种面部动作单元数据集的构建装置，包括：

获取图片单元，用于获取预设样本库中的人脸图片；

生成元组单元，用于将所述人脸图片生成多个强关系三元组以及弱关系三元组，每一所述强关系三元组以及弱关系三元组均分别包括第一图片、第二图片以及第三图片，其中，所述强关系三元组中的第一图片与第二图片的人脸表情相似度比所述第一图片与第三图片的面部动作相似度以及第二图片与第三图片的面部动作相似度要大；

处理元组单元，用于对所述强关系三元组以及弱关系三元组中所有的人脸图片进行预处理；

输入模型单元，用于将所述预处理过后的所述强关系三元组或弱关系三元组按预设方式输入预设的网络模型，得到对应所述强关系三元组以及弱关系三元组的特征向量；

形成模型单元，用于将所述特征向量通过预设的损失函数计算得到损失值，并通过网络反向传播计算参数梯度，以更新所述网络模型的模型参数直到所述网络模型收敛，得到用于获取面部动作相似图片的检索模型；

获取类别单元，用于获取多种不同面部动作类别的类别图片，并依次将各所述类别图片输入所述搜索模型；

计算特征单元，用于通过所述搜索模型计算得到各所述类别图片的人脸特征，并依据各所述类别图片的人脸特征与指定数据库中的人脸图片的人脸特征进行计算，得到各所述类别图片与各所述人脸图片的人脸特征的欧式距离，依据各所述欧式距离从小至大的顺序对各所述人脸图片进行排序，并按所述顺序从排序第一开始获取预设数量的所述人脸图片，形成对应各类别的图片集；

标注图片单元，用于将各所述图片集分别按照对应所述类别图片的类别进行标注；

生成数集单元，用于依据所述标注的图片集生成多种不同面部动作类别的面部动作单元数据集

本发明还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述面部动作单元数据集的构建方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述面部动作单元数据集的构建方法的步骤。

本发明的有益效果为：通过预设的检索模型，从指定数据库中获取大量的指定类别的面部动作图片，以此构建面部动作单元数据集，由于上述检索模型通过将训练数据分成强关系三元组与弱关系三元组进行训练，使得模型学习到人类判断图片中面部动作相似度的经验，从而只需将极少数量包含非常见的AU类别的样本图片输入模型中，即可快速让模型在数据库中找出大量相似面部动作的样本，大幅提高稀缺AU的标注效率，丰富稀缺样本的数量，解决了AU数据集类别有限的问题，且由于AU类别以及数量的增加使得数据集质量的提高，从根本上提高了AU识别模型的泛化性。

附图说明

图1为本发明一实施例中面部动作单元数据集的构建方法的步骤示意图；

图2为本发明一实施例中面部动作单元数据集的构建装置的结构示意框图；

图3为本发明一实施例的计算机设备的结构示意框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，本实施例中的面部动作单元数据集的构建方法，包括：

步骤S1：获取预设样本库中的人脸图片；

步骤S2：将所述人脸图片生成多个强关系三元组以及弱关系三元组，每一所述强关系三元组以及弱关系三元组均分别包括第一图片、第二图片以及第三图片，其中，所述强关系三元组中的第一图片与第二图片的人脸表情相似度比所述第一图片与第三图片的面部动作相似度以及第二图片与第三图片的面部动作相似度要大；

步骤S3：对所述强关系三元组以及弱关系三元组中所有的人脸图片进行预处理；

步骤S4：将所述预处理过后的所述强关系三元组或弱关系三元组按预设方式输入预设的网络模型，得到对应所述强关系三元组以及弱关系三元组的特征向量，

步骤S5：将所述特征向量通过预设的损失函数计算得到损失值，并通过网络反向传播计算参数梯度，以更新所述网络模型的模型参数直到所述网络模型收敛，得到用于获取面部动作相似图片的检索模型；

步骤S6：获取多种不同面部动作类别的类别图片，依次将各所述类别图片输入所述搜索模型；

步骤S7：通过所述搜索模型计算得到各所述类别图片的人脸特征，并依据各所述类别图片的人脸特征与指定数据库中的人脸图片的人脸特征进行计算，得到各所述类别图片与各所述人脸图片的人脸特征的欧式距离，依据各所述欧式距离从小至大的顺序对各所述人脸图片进行排序，并按所述顺序从排序第一开始获取预设数量的所述人脸图片，形成对应各类别的图片集；

步骤S8：将各所述图片集分别按照对应所述类别图片的类别进行标注；

步骤S9：依据所述标注的图片集生成多种不同面部动作类别的面部动作单元数据集。

如上述步骤S1-S2所述，上述预设样本库中的人脸图片可通过网络爬虫获取、用户收集输入获得，然后将人脸图片划分成三元组，每个三元组包括三张不同的人脸图片，该三张不同人脸图片中可以为同一个人的人脸图片，也可以为不同人的人脸图片，只要人脸面部表情动作不一样即可，对每个三元组中的人脸图片随机分别命名为第一图片、第二图片以及第三图片，并从所有的三元组中分别标记出强关系三元组或弱关系三元组，其中，在强关系三元组中，第一图片与第二图片的人脸面部动作相似度，比第一图片与第三图片的人脸面部动作相似度以及第二图片与第三图片的人脸面部动作相似度要大，弱关系三元组中的第一图片与第二图片的相似度与其他组合的相似度相比差别不大，或者比其他组合的相似度要小，此处的其他组合包括第一图片与第三图片的组合以及第二图片与第三图片的组合。

优选地，上述步骤S2，包括：

步骤S21：将所述人脸图片分成多个三元组；

步骤S22：获取多个用户输入对应各所述三元组的分辨指令，所述分辨指令包括确认所述三元组为强关系三元组的肯定指令，以及否认所述三元组为强关系三元组的否定指令；

步骤S23：分别判断各所述三元组的多个分辨指令当中是否包含预设数量的肯定指令；

步骤S24：若是，则将所述三元组判定为强关系三元组，否则将所述三元组判定为弱三元组。

如上述步骤S21-24所述，标记上述强关系三元组与弱关系三元组可通过用户直接标记实现，首先将上述人脸图片分成多个三元组，每个三元组均包括第一图片、第二图片以及第三图片三张图片，针对每个三元组，均由多个用户按其经验判断输入的相应的分辨指令，该分辨指令包括确认所述三元组为强关系三元组的肯定指令，以及否认三元组为强关系三元组的否定指令，然后分别判断每个三元组的多个分辨指令当中是否包含预设数量的肯定指令，若是，则将三元组判定为强关系三元组，否则将三元组判定为弱三元组。在一个具体例子中，用户的个数设置为6个，预设数量的肯定指令为4个，用户根据自身经验去判断三元组中的第一图片与第二图片的相似度是否比其他组合的相似度要高，然后输入相应的答案，也即输入分辨指令，当获取6个不同用户对同一个三元组的分辨指令，然后依据分辨指令对三元组标注对应的6个标记，当中包括肯定指令的标记“是”，以及否定指令的标记“否”，当6个标记中至少4个均标记为“是”时，则将该三元组确定为强关系三元组，当6个标记中有3或3个以下标记为“是”时，将该三元组确定为弱关系三元组。

如上述步骤S3所述，为了更方便后续模型对人脸图片提取特征，可将强关系三元组以及弱关系三元组进行预处理，例如进行光影、颜色、像素以及裁剪等处理。

具体而言，步骤S3包括：

步骤S31：对所述强关系三元组以及弱关系三元组中所有的人脸图片进行去除背景，得到仅余人脸头像的第一处理图片；

步骤S32：将所有所述第一图片中的人脸头像以指定尺寸为准进行调整，得到第二处理图片；

步骤S33：将第二处理图片中的人脸头像统一对齐并裁剪，得到所述预处理后的人脸图片。

本实施例中，将强关系三元组以及弱关系三元组中的人脸图片进行预处理，首先去除人脸图片中背景，使得图片中只剩下人脸头像，得到经过第一次处理后的第一处理图片，然后将第一处理图片中的人脸头像以指定尺寸为准进行调整，也即将所有的人脸头像按统一的尺寸进行调整，得到调整后的第二处理图片，然后将第二处理图片中的人脸头像统一对齐，例如以人脸头像中的中心点作为基准点对齐，然后裁剪出只剩下人脸头像的人脸图片，从而得到上述预处理后的人脸图片，使得裁剪后的人脸图片更有利于后续的模型提取有效特征。

如上述步骤S4-S5所述，将预处理过后的强关系三元组以及弱关系三元组作为训练数据按预设方式输入预设的网络模型，当输入训练数据后，通过网络模型计算出各个强关系三元组以及弱关系三元组的特征向量，再将特征向量通过预设的损失函数计算得到损失值，并通过网络反向传播计算参数梯度，以更新网络模型的模型参数，重复将训练数据输入得到特征向量，然后计算损失值再网络反向传播计算参数梯度，更新模型参数，直到网络模型收敛，得到上述用于获取面部动作相似图片的检索模型。经过模型前向计算分别得到对应每个三元组中特征向量，该三元组中每个图片的特征向量是16维向量，对应的特征距离为16维向量的欧式距离；上述训练目标是期望网络对于第一图片以及第二图片的人脸面部动作提取的特征之间的距离要小于其他人脸图片之间的面部动作特征之间的距离，由于强关系三元组以及弱关系三元组由用户主动输入而获得，其中三元组中的图片相似关系是通过人为地去判断图片相似度而得到的，因而通过以三元组作为训练数据，使模型学习到人类判断图片中面部动作相似度的经验。

在一个实施例中，在获取预设样本库中的人脸图片以进行训练模型之前，首先需要搭建模型型框，以及初始化模型，在一个实施例中，在步骤S1之前，包括：

步骤S01：以预存的InsightFace模块以及Densenet模块搭建形成初始模型；

步骤S02：获取已训练好的InsightFace网络模型的参数值，以所述参数值作为所述初始模型初始化参数值对所述初始模型进行初始化，得到所述网络模型。

本实施例中，为了模型效果更好，可将已训练好的InsightFace网络模型的参数值作为初始化参数，这时可采用InsightFace模块以及Densenet模块进行搭建得到初始网络，上述InsightFace模块为人脸识别中所采用的技术，以及Densenet模块均为现有的神经网络的成熟技术，此处不在赘述，可选地，上述Densenet模块可更换为ResNet模块，或者自定义的卷积层或是一到两层的全连接层。上述初始模型采用InsightFace模块以及Densenet模块进行搭建，这样可进一步提高模型参数的收敛速度和模型对数据的拟合效果，具体而言，上述初始模型使用了包含层数＝5、growth rate＝64的DenseNet Block，每层包含一组1x1、3x3卷积层，每层之间使用稠密连接，初始模型的模型参数采用现有的已训练好的InsightFace网络模型的参数值，以该参数值作为初始化参数值对初始模型进行初始化，从而得到上述网络模型，即初始模型参数可基于现有的InsightFace网络模型迁移学习得到，上述已训练好的InsightFace网络模型为可以投入使用的InsightFace网络模型。

在一个实施例中，上述步骤S4包括：

步骤S42：将预处理过后的所述强关系三元组与弱关系三元组按指定比例或随机形成多个输入集，每个输入集包括指定数量的所述三元组；

步骤S43：依次将输入集逐个输入所述网络模型。

本实施例中，将强关系三元组以及弱关系三元组作为训练数据输入到上述网络模型，为了提高效率，可将多个强关系三元组以及弱关系三元组同时输入网络模型，例如，训练数据按batch(批量处理)输入，每个batch由128个三元组组成，也即由128个三元组组成一个输入集，每次对网络模型输入一个输入集，其中，每个输入集中的强关系三元组与弱关系三元组比例可随机的，不作限制，或者指定两者的比例，例如设置强关系三元组与弱关系三元组的比例为6：4，通常为了进一步使模型效果更好，设置每个输入集中强关系三元组比弱关系三元组多。

在一个实施例中，上述步骤S5，包括：

通过以下预设公式计算出所述损失值：

其中，(I₁,I₂,I₃)表示三元组的第一图片、第二图片以及第三图片，I(I₁,I₂,I₃)表示上述损失值，，为对应所述第一图片、第二图片以及第三图片的特征向量，δ为预设的间隔距离。当通过InsightFace模块以及Densenet模块计算出每张图的16维特征向量，其对应的特征距离即为16维的欧式距离，然后通过上述公式计算出损失值后，通过网络反向传播计算参数梯度，更新模型参数，具体可采用Adam优化器进行更新模型参数，重复上述步骤，直到模型收敛，这样可让检索模型拟合数据集的一个性质：第一图片与第二图片的特征距离比第一图片与第三图片以及第二图片与第三图片的特征距离都要近，从而让检索模型学习到人类判断面部动作相似度的经验。

如上述步骤S6所述，上述面部动作单元数据集主要用于训练AU识别模型，上述类别图片为人脸图片，且每一张类别图片分别代表为一个不同面部动作类别，例如张大嘴巴大笑或张大嘴巴哭泣的面部动作类别，也即代表不同的AU类别，本实施例中，为使面部动作单元数据集中的面部动作类别更多，所获取类别图片也尽量多，获取到多种不同面部动作类别的类别图片后，将这些类别图片输入上述检索模型进行计算。

如上述步骤S7所述，上述指定数据库存储有大量的不同的人脸图片，当将上述类别图片输入搜索模型，首先对该类别图片进行特征提取，得到对应该类别图片的人脸特征，然后获取指定数据库中所有人脸图片的人脸特征，这些人脸特征可预先提取并预存在指定位置，需要时直接获取即可，然后将上述类别图片的人脸特征与获取到的各个人脸特征进行计算，得到该类别图片的人脸特征与获取到的每个人脸特征的欧式距离，上述人脸特征均指特征向量，即计算出类别图片的特征向量与从指定数据库中获取道的每个特征向量的欧式距离，然后将各欧式距离所对应的人脸图片按其欧式距离从小至大的顺序进行排序，然后从排序第一的人脸图片开始获取预设数量的人脸图片，也即获取人脸图片时，从欧式距离最小的开始，例如预设数量为200时，获取从排序第一到排序第二百的人脸图片，这200个人脸图片则形成对应上述类别图片的图片集，每一类别图片均输入上述检索模型，得到相应的图片集。

如上述步骤S8-S9所述，得到各个类别的图片集后，将这些图片集中的人脸图片分别按照其对应的类别进行标注，然后依据这些已经标注图片集汇集得到多种不同面部动作类别的面部动作单元数据集。这样通过将一些稀有AU类别的人脸图片输入到上述检索模型中，然后进过检索模型计算，即能够从指定的具有大量图片的数据库中获取与上述人脸图片的面部动作相似的图片，这样相当于省去了人工寻找稀有AU类别的工作，后续再对这些人脸图片进行进一步的标注，即标注出稀有AU类别，进而可达到扩充数据集中稀有AU类别样本数量的目的。

参照图2，本实施例中提供一种面部动作单元数据集的构建装置，该装置对应上述面部动作单元数据集的构建方法，该装置包括：

获取图片单元100，用于获取预设样本库中的人脸图片；

生成元组单元200，用于将所述人脸图片生成多个强关系三元组以及弱关系三元组，每一所述强关系三元组以及弱关系三元组均分别包括第一图片、第二图片以及第三图片，其中，所述强关系三元组中的第一图片与第二图片的人脸表情相似度比所述第一图片与第三图片的面部动作相似度以及第二图片与第三图片的面部动作相似度要大；

处理元组单元300，用于对所述强关系三元组以及弱关系三元组中所有的人脸图片进行预处理；

输入模型单元400，用于将所述预处理过后的所述强关系三元组或弱关系三元组按预设方式输入预设的网络模型，得到对应所述强关系三元组以及弱关系三元组的特征向量，

形成模型单元500，用于将所述特征向量通过预设的损失函数计算得到损失值，并通过网络反向传播计算参数梯度，以更新所述网络模型的模型参数直到所述网络模型收敛，得到用于获取面部动作相似图片的检索模型；

获取类别单元600，用于获取多种不同面部动作类别的类别图片，并依次将各所述类别图片输入所述搜索模型；

计算特征单元700，用于通过所述搜索模型计算得到各所述类别图片的人脸特征，并依据各所述类别图片的人脸特征与指定数据库中的人脸图片的人脸特征进行计算，得到各所述类别图片与各所述人脸图片的人脸特征的欧式距离，依据各所述欧式距离从小至大的顺序对各所述人脸图片进行排序，并按所述顺序从排序第一开始获取预设数量的所述人脸图片，形成对应各类别的图片集；

标注图片单元800，用于将各所述图片集分别按照对应所述类别图片的类别进行标注；

生成数集单元900，用于依据所述标注的图片集生成多种不同面部动作类别的面部动作单元数据集。

如获取图片单元100以及生成元组单元200所述，上述预设样本库中的人脸图片可通过网络爬虫获取、用户收集输入获得，然后将人脸图片划分成三元组，每个三元组包括三张不同的人脸，该三张不同人脸中可以为同一个人的人脸图片，也可以为不同人的人脸图片，只要人脸面部表情动作不一样即可，对每个三元组中的人脸图片随机分别命名为第一图片、第二图片以及第三图片，并从所有的三元组中分别标记出强关系三元组或弱关系三元组，其中，在强关系三元组中，第一图片与第二图片的人脸面部动作相似度，比第一图片与第三图片的人脸面部动作相似度以及第二图片与第三图片的人脸面部动作相似度要大，弱关系三元组中的第一图片与第二图片的相似度与其他组合的相似度相比差别不大，或者比其他组合的相似度要小，此处的其他组合包括第一图片与第三图片的组合以及第二图片与第三图片的组合。

优选地，上述生成元组单元200，包括：

分成元组子单元，用于将所述人脸图片分成多个三元组；

获取指令子单元，用于获取多个用户输入对应各所述三元组的分辨指令，所述分辨指令包括确认所述三元组为强关系三元组的肯定指令，以及否认所述三元组为强关系三元组的否定指令；

判断指令子单元，用于分别判断各所述三元组的多个分辨指令当中是否包含预设数量的肯定指令；

判定强弱子单元，用于判定各所述三元组的多个分辨指令当中包含预设数量的肯定指令时，将所述三元组判定为强关系三元组，否则将所述三元组判定为弱三元组。

如上述，标记上述强关系三元组与弱关系三元组可通过用户直接标记实现，首先将上述人脸图片分成多个三元组，每个三元组均包括第一图片、第二图片以及第三图片三张图片，针对每个三元组，均由多个用户按其经验判断输入的相应的分辨指令，该分辨指令包括确认所述三元组为强关系三元组的肯定指令，以及否认三元组为强关系三元组的否定指令，然后分别判断每个三元组的多个分辨指令当中是否包含预设数量的肯定指令，若是，则将三元组判定为强关系三元组，否则将三元组判定为弱三元组。在一个具体例子中，用户的个数设置为6个，预设数量的肯定指令为4个，用户根据自身经验去判断三元组中的第一图片与第二图片的相似度是否比其他组合的相似度要高，然后输入相应的答案，也即输入分辨指令，当获取6个不同用户对同一个三元组的分辨指令，然后依据分辨指令对三元组标注对应的6个标记，当中包括肯定指令的标记“是”，以及否定指令的标记“否”，当6个标记中至少4个均标记为“是”时，则将该三元组确定为强关系三元组，当6个标记中有3或3个以下标记为“是”时，将该三元组确定为弱关系三元组。

如上述处理元组单元300所述，为了更方便后续模型对人脸图片提取特征，可将强关系三元组以及弱关系三元组进行预处理，例如进行光影、颜色、像素以及裁剪等处理。

具体而言，处理元组单元300包括：

第一处理子单元，用于对所述强关系三元组以及弱关系三元组中所有的人脸图片进行去除背景，得到仅余人脸头像的第一处理图片；

第二处理子单元，用于将所有所述第一图片中的人脸头像以指定尺寸为准进行调整，得到第二处理图片；

第三处理子单元，用于将第二处理图片中的人脸头像统一对齐并裁剪，得到所述预处理后的人脸图片。

如上述输入模型单元400以及形成模型单元500所述，将预处理过后的强关系三元组以及弱关系三元组作为训练数据按预设方式输入预设的网络模型，当输入训练数据后，通过网络模型计算出各个强关系三元组以及弱关系三元组的特征向量，再将特征向量通过预设的损失函数计算得到损失值，并通过网络反向传播计算参数梯度，以更新网络模型的模型参数，重复将训练数据输入得到特征向量，然后计算损失值再网络反向传播计算参数梯度，更新模型参数，直到网络模型收敛，得到上述用于获取面部动作相似图片的检索模型。经过模型前向计算分别得到对应每个三元组中特征向量，该三元组中每个图片的特征向量是16维向量，对应的特征距离为16维向量的欧式距离；上述训练目标是期望网络对于第一图片以及第二图片的人脸面部动作提取的特征之间的距离要小于其他人脸图片之间的面部动作特征之间的距离，由于强关系三元组以及弱关系三元组由用户主动输入而获得，其中三元组中的图片相似关系是通过人为地去判断图片相似度而得到的，因而通过以三元组作为训练数据，使模型学习到人类判断图片中面部动作相似度的经验。

在一个实施例中，在获取预设样本库中的人脸图片以进行训练模型之前，首先需要搭建模型型框，以及初始化模型，在一个实施例中，上述面部动作单元数据集的构建装置，包括：

搭建模型子单元，用于以预存的InsightFace模块以及Densenet模块搭建形成初始模型；

获取参数子单元，用于获取已训练好的InsightFace网络模型的参数值，以所述参数值作为所述初始模型初始化参数值对所述初始模型进行初始化，得到所述网络模型。

本实施例中，为了模型效果更好，可将已训练好的InsightFace网络模型的参数值作为初始化参数，这时可采用InsightFace模块以及Densenet模块进行搭建得到初始网络，上述InsightFace模块为人脸识别中所采用的技术，以及Densenet模块均为现有的神经网络的成熟技术，此处不再赘述，可选地，上述Densenet模块可更换为ResNet模块，或者自定义的卷积层或是一到两层的全连接层。上述初始模型采用InsightFace模块以及Densenet模块进行搭建，这样可进一步提高模型参数的收敛速度和模型对数据的拟合效果，具体而言，上述初始模型使用了包含层数＝5、growth rate＝64的DenseNet Block，每层包含一组1x1、3x3卷积层，每层之间使用稠密连接，初始模型的模型参数采用现有的已训练好的InsightFace网络模型的参数值，以该参数值作为初始化参数值对初始模型进行初始化，从而得到上述网络模型，即初始模型参数可基于现有的InsightFace网络模型迁移学习得到，上述已训练好的InsightFace网络模型为可以投入使用的InsightFace网络模型。

在一个实施例中，上述输入模型单元400包括：

形输入集子单元，用于将预处理过后的所述强关系三元组与弱关系三元组按指定比例或随机形成多个输入集，每个输入集包括指定数量的所述三元组；

输入模型子单元，用于依次将输入集逐个输入所述网络模型。

在一个实施例中，上述形成模型单元500，包括：

通过以下预设公式计算出所述损失值：

如上述获取类别单元600所述，上述面部动作单元数据集主要用于训练AU识别模型，上述类别图片为人脸图片，且每一张类别图片分别代表为一个不同面部动作类别，例如张大嘴巴大笑或张大嘴巴哭泣的面部动作类别，也即代表不同的AU类别，本实施例中，为使面部动作单元数据集中的面部动作类别更多，所获取类别图片也尽量多，获取到多种不同面部动作类别的类别图片后，将这些类别图片输入上述检索模型进行计算。

如上述计算特征单元700所述，上述指定数据库存储有大量的不同的人脸图片，当将上述类别图片输入搜索模型，首先对该类别图片进行特征提取，得到对应该类别图片的人脸特征，然后获取指定数据库中所有人脸图片的人脸特征，这些人脸特征可预先提取并预存在指定位置，需要时直接获取即可，然后将上述类别图片的人脸特征与获取到的各个人脸特征进行计算，得到该类别图片的人脸特征与获取到的每个人脸特征的欧式距离，上述人脸特征均指特征向量，即计算出类别图片的特征向量与从指定数据库中获取道的每个特征向量的欧式距离，然后将各欧式距离所对应的人脸图片按其欧式距离从小至大的顺序进行排序，然后从排序第一的人脸图片开始获取预设数量的人脸图片，也即获取人脸图片时，从欧式距离最小的开始，例如预设数量为200时，获取从排序第一到排序第二百的人脸图片，这200个人脸图片则形成对应上述类别图片的图片集，每一类别图片均输入上述检索模型，得到相应的图片集。

如上述标注图片单元80以及生成数集单元900所述，得到各个类别的图片集后，将这些图片集中的人脸图片分别按照其对应的类别进行标注，然后依据这些已经标注图片集汇集得到多种不同面部动作类别的面部动作单元数据集。这样通过将一些稀有AU类别的人脸图片输入到上述检索模型中，然后进过检索模型计算，即能够从指定的具有大量图片的数据库中获取与上述人脸图片的面部动作相似的图片，这样相当于省去了人工寻找稀有AU类别的工作，后续再对这些人脸图片进行进一步的标注，即标注出稀有AU类别，进而可达到扩充数据集中稀有AU类别样本数量的目的。

参照图3，本发明实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述面部动作单元数据集的构建所需的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种面部动作单元数据集的构建方法。

上述处理器执行上述面部动作单元数据集的构建方法的步骤：获取预设样本库中的人脸图片；将所述人脸图片生成多个强关系三元组以及弱关系三元组，每一所述强关系三元组以及弱关系三元组均分别包括第一图片、第二图片以及第三图片，其中，所述强关系三元组中的第一图片与第二图片的人脸表情相似度比所述第一图片与第三图片的面部动作相似度以及第二图片与第三图片的面部动作相似度要大；对所述强关系三元组以及弱关系三元组中所有的人脸图片进行预处理；将所述预处理过后的所述强关系三元组或弱关系三元组按预设方式输入预设的网络模型，得到对应所述强关系三元组以及弱关系三元组的特征向量，将所述特征向量通过预设的损失函数计算得到损失值，并通过网络反向传播计算参数梯度，以更新所述网络模型的模型参数直到所述网络模型收敛，得到用于获取面部动作相似图片的检索模型；获取多种不同面部动作类别的类别图片，并依次将各所述类别图片输入所述搜索模型；通过所述搜索模型计算得到各所述类别图片的人脸特征，并依据各所述类别图片的人脸特征与指定数据库中的人脸图片的人脸特征进行计算，得到各所述类别图片与各所述人脸图片的人脸特征的欧式距离，依据各所述欧式距离从小至大的顺序对各所述人脸图片进行排序，并按所述顺序从排序第一开始获取预设数量的所述人脸图片，形成对应各类别的图片集；将各所述图片集分别按照对应所述类别图片的类别进行标注；依据所述标注的图片集生成多种不同面部动作类别的面部动作单元数据集。

上述计算机设备，上述将所述人脸图片生成多个强关系三元组以及弱关系三元组的步骤，包括：将所述人脸图片分成多个三元组；

获取多个用户输入对应各所述三元组的分辨指令，所述分辨指令包括确认所述三元组为强关系三元组的肯定指令，以及否认所述三元组为强关系三元组的否定指令；分别判断各所述三元组的多个分辨指令当中是否包含预设数量的肯定指令；若是，则将所述三元组判定为强关系三元组，否则将所述三元组判定为弱三元组。

在一个实施例中，上述将所述预处理过后的所述强关系三元组或弱关系三元组按预设方式输入预设的网络模型的步骤，包括：将预处理过后的所述强关系三元组与弱关系三元组按指定比例或随机形成多个输入集，每个输入集包括指定数量的所述三元组；依次将输入集逐个输入所述网络模型。

在一个实施例中，上述将所述特征向量通过预设的损失函数计算得到损失值的步骤，包括：

通过以下预设公式计算出所述损失值：

在一个实施例中，上述获取预设样本库中的人脸图片的步骤之前，包括：以预存的InsightFace模块以及Densenet模块搭建形成初始模型；获取已训练好的InsightFace网络模型的参数值，以所述参数值作为所述初始模型初始化参数值对所述初始模型进行初始化，得到所述网络模型。

在一个实施例中，上述对所述强关系三元组以及弱关系三元组中所有的人脸图片进行预处理的步骤，包括：对所述强关系三元组以及弱关系三元组中所有的人脸图片进行去除背景，得到仅余人脸头像的第一处理图片；将所有所述第一图片中的人脸头像以指定尺寸为准进行调整，得到第二处理图片；将第二处理图片中的人脸头像统一对齐并裁剪，得到所述预处理后的人脸图片。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本发明一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种面部动作单元数据集的构建方法，具体为：获取预设样本库中的人脸图片；将所述人脸图片生成多个强关系三元组以及弱关系三元组，每一所述强关系三元组以及弱关系三元组均分别包括第一图片、第二图片以及第三图片，其中，所述强关系三元组中的第一图片与第二图片的人脸表情相似度比所述第一图片与第三图片的面部动作相似度以及第二图片与第三图片的面部动作相似度要大；对所述强关系三元组以及弱关系三元组中所有的人脸图片进行预处理；将所述预处理过后的所述强关系三元组或弱关系三元组按预设方式输入预设的网络模型，得到对应所述强关系三元组以及弱关系三元组的特征向量，将所述特征向量通过预设的损失函数计算得到损失值，并通过网络反向传播计算参数梯度，以更新所述网络模型的模型参数直到所述网络模型收敛，得到用于获取面部动作相似图片的检索模型；获取多种不同面部动作类别的类别图片，并依次将各所述类别图片输入所述搜索模型；通过所述搜索模型计算得到各所述类别图片的人脸特征，并依据各所述类别图片的人脸特征与指定数据库中的人脸图片的人脸特征进行计算，得到各所述类别图片与各所述人脸图片的人脸特征的欧式距离，依据各所述欧式距离从小至大的顺序对各所述人脸图片进行排序，并按所述顺序从排序第一开始获取预设数量的所述人脸图片，形成对应各类别的图片集；将各所述图片集分别按照对应所述类别图片的类别进行标注；依据所述标注的图片集生成多种不同面部动作类别的面部动作单元数据集。

上述计算机可读存储介质，上述将所述人脸图片生成多个强关系三元组以及弱关系三元组的步骤，包括：将所述人脸图片分成多个三元组；

通过以下预设公式计算出所述损失值：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM一多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种面部动作单元数据集的构建方法，其特征在于，包括：

获取预设样本库中的人脸图片；

获取多种不同面部动作类别的类别图片，并依次将各所述类别图片输入所述检索模型；

通过所述检索模型计算得到各所述类别图片的人脸特征，并依据各所述类别图片的人脸特征与指定数据库中的人脸图片的人脸特征进行计算，得到各所述类别图片与各所述人脸图片的人脸特征的欧式距离，依据各所述欧式距离从小至大的顺序对各所述人脸图片进行排序，并按所述顺序从排序第一开始获取预设数量的所述人脸图片，形成对应各类别的图片集；

2.根据权利要求1所述的面部动作单元数据集的构建方法，其特征在于，所述将所述人脸图片生成多个强关系三元组以及弱关系三元组的步骤，包括：

将所述人脸图片分成多个三元组；

3.根据权利要求2所述的面部动作单元数据集的构建方法，其特征在于，所述将所述预处理过后的所述强关系三元组或弱关系三元组按预设方式输入预设的网络模型的步骤，包括：

依次将输入集逐个输入所述网络模型。

4.根据权利要求2所述的面部动作单元数据集的构建方法，其特征在于，所述将所述特征向量通过预设的损失函数计算得到损失值的步骤，包括：

通过以下预设公式计算出所述损失值：

5.根据权利要求1所述的面部动作单元数据集的构建方法，其特征在于，所述获取预设样本库中的人脸图片的步骤之前，包括：

以预存的InsightFace模块以及Densenet模块搭建形成初始模型；

6.根据权利要求1所述的面部动作单元数据集的构建方法，其特征在于，所述对所述强关系三元组以及弱关系三元组中所有的人脸图片进行预处理的步骤，包括：

7.一种面部动作单元数据集的构建装置，其特征在于，包括：

获取图片单元，用于获取预设样本库中的人脸图片；

获取类别单元，用于获取多种不同面部动作类别的类别图片，并依次将各所述类别图片输入所述检索模型；

计算特征单元，用于通过所述检索模型计算得到各所述类别图片的人脸特征，并依据各所述类别图片的人脸特征与指定数据库中的人脸图片的人脸特征进行计算，得到各所述类别图片与各所述人脸图片的人脸特征的欧式距离，依据各所述欧式距离从小至大的顺序对各所述人脸图片进行排序，并按所述顺序从排序第一开始获取预设数量的所述人脸图片，形成对应各类别的图片集；

生成数集单元，用于依据所述标注的图片集生成多种不同面部动作类别的面部动作单元数据集。

8.根据权利要求7所述的面部动作单元数据集的构建装置，其特征在于，所述生成元组单元包括：

分成元组子单元，用于将所述人脸图片分成多个三元组；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的面部动作单元数据集的构建方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的面部动作单元数据集的构建方法的步骤。