CN114511918B

CN114511918B - 一种基于多任务学习的人脸状态判断方法和系统

Info

Publication number: CN114511918B
Application number: CN202210413009.XA
Authority: CN
Inventors: 张亚娜; 张连谊; 杨成
Original assignee: Communication University of China
Current assignee: Beijing Sunshine Cloud Vision Technology Co ltd
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2022-07-05
Anticipated expiration: 2042-04-20
Also published as: CN114511918A

Abstract

本发明涉及一种基于多任务学习的人脸状态判断方法和系统，属于图像处理技术领域，用以解决缺乏人脸状态美感判断数据集和相关的算法，无法有效进行人脸状态判断的问题，方法包括以下步骤：分别获取人脸状态美感判断数据集和人脸表情识别数据集；构建基于自注意力机制的多任务学习模型；基于所述人脸状态美感判断数据集和人脸表情识别数据集，采用交替‑联合训练方法对所述多任务学习模型进行训练，得到训练好的多任务学习模型；所述多任务包括人脸状态美感判断任务和人脸表情识别任务；将待判断的人脸图像输入所述多任务学习模型，得到所述人脸图像的人脸状态判断结果。

Description

一种基于多任务学习的人脸状态判断方法和系统

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于多任务学习的人脸状态判断方法和系统。

背景技术

随着人工智能等技术不断发展，人工智能的市场规模逐渐扩大。据艾瑞咨询发布的《2021年中国智能产业研究报告（IV）》显示，2021年人工智能的核心规模估计达到1998亿元，到2026年，将超过6000亿元。人工智能技术深刻地改变了人类的生活方式和生产方式，新闻生产与人工智能结合后能够极大地提高新闻生产的效率。机器生产内容(MachineGenerated Content，MGC)，即利用机器智能生产的新闻，多家媒体机构开发了生产MGC新闻的智能产品、智能平台，例如新华社的“媒体大脑”、光明网的智能发稿系统等等。

传统图文报道中的新闻配图通常由摄影记者拍摄。但是由于直播活动很多，直播现场可能缺少摄影记者。摄影记者拍摄新闻图片时会受到空间的限制，可能无法从合适的角度拍照，比如无法获得摇臂摄像机的角度进行拍摄，又或者最佳的机位被摄影师占据。此外，摄影记者也无法在演播室内拍照。在图文新闻生产中的配图素材采集环节，运用人工智能技术直接对直播视频流进行分析，获得新闻的配图能够有效补充摄影记者的短板，扩大新闻配图的取材范围。新闻配图的中景、近景和人脸特写中，人脸的状态十分重要。人脸的状态判断包括人脸状态美感判断和人脸表情识别，其中，人脸状态美感判断任务是挑选出人脸状态佳、适合出现在新闻配图中的“Nice”人脸图像，尽可能筛除人脸状态美感较差的“Unsatisfied”人脸，但是目前尚缺乏人脸状态美感判断数据集和相关的算法，无法有效进行人脸状态判断。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种基于多任务学习的人脸状态判断方法和系统，用以解决缺乏人脸状态美感判断数据集和相关的算法，无法有效进行人脸状态判断的问题。

一方面，本发明实施例提供了一种基于多任务学习的人脸状态判断方法，包括以下步骤：

分别获取人脸状态美感判断数据集和人脸表情识别数据集；

构建基于自注意力机制的多任务学习模型；基于所述人脸状态美感判断数据集和人脸表情识别数据集，采用交替-联合训练方法对所述多任务学习模型进行训练，得到训练好的多任务学习模型；所述多任务包括人脸状态美感判断任务和人脸表情识别任务；

将待判断的人脸图像输入所述多任务学习模型，得到所述人脸图像的人脸状态判断结果。

基于上述技术方案的进一步改进，所述基于自注意力机制的多任务学习模型包括共享特征提取模块、自注意力机制模块和多任务学习模块；

所述共享特征提取模块用于提取图像特征；

所述自注意力机制模块用于为提取的图像特征赋予权重，得到加权图像特征；

所述多任务学习模块包括人脸状态美感判断子模块和人脸表情识别子模块；所述人脸状态美感判断子模块用于根据所述加权图像特征进行人脸状态美感判断；所述人脸表情识别子模块用于根据所述加权图像特征进行人脸表情识别。

进一步地，所述采用交替-联合训练方法对所述多任务学习模型进行训练，包括：

根据所述人脸状态美感判断数据集和所述人脸表情识别数据集的大小，分别计算所述人脸状态美感判断任务和人脸表情识别任务的batch-size；

从人脸状态美感判断数据集中提取对应的batch-size大小的训练集输入所述多任务学习模型，根据模型输出结果计算人脸状态美感判断任务的损失；

从人脸表情识别数据集中提取对应的batch-size大小的训练集输入所述多任务学习模型，根据模型输出结果计算人脸表情识别任务的损失；

根据所述人脸状态美感判断任务的损失和所述人脸表情识别任务的损失计算联合损失，基于所述联合损失优化模型参数。

进一步地，所述共享特征提取模块包括卷积层、第一残差块和两个第二残差块；

所述第一残差块包括两个串联的第一残差子块，每个所述第一残差子块均包括两个卷积层、两个批量归一化层和一个激活层；

每个所述第二残差块包括两个串联的残差子块，每个所述残差子块的主分支均包括两个卷积层、两个批量归一化层和一个激活层；第一个残差子块的辅助分支还包含一个卷积层和一个批量归一化层。

进一步地，所述自注意力机制模块用于为提取的图像特征赋予权重，得到加权图像特征，包括：

将共享特征提取模块提取的每张特征图转化为一维特征向量；将所有特征图对应的一维特征向量组成自注意力机制中的Q、K和V矩阵；

基于所述Q、K和V矩阵采用多头自注意力机制计算得到加权特征矩阵；

将所述加权特征矩阵转化为二维特征图，得到加权图像特征。

进一步地，所述人脸状态美感判断子模块和人脸表情识别子模块均包括依次连接的第三残差块、自适应平均池化层和全连接层；

所述第三残差块包括两个串联的残差子块，所述第三残差块的两个残差子块的主分支均包括两个卷积层、两个批量归一化层和一个激活层；第一个残差子块的辅助分支还包含一个卷积层和一个批量归一化层。

另一方面，本发明实施例提供了一种基于多任务学习的人脸状态判断系统，包括以下模块：

数据集获取模块，用于分别获取人脸状态美感判断数据集和人脸表情识别数据集；

模型训练模块，用于构建基于自注意力机制的多任务学习模型；基于所述人脸状态美感判断数据集和人脸表情识别数据集，采用交替-联合训练方法对所述多任务学习模型进行训练，得到训练好的多任务学习模型；所述多任务包括人脸状态美感判断任务和人脸表情识别任务；

人脸状态判断模块，用于将待判断的人脸图像输入所述多任务学习模型，得到所述人脸图像的人脸状态判断结果。

进一步地，所述模型训练模块构建的自注意力机制的多任务学习模型包括共享特征提取模块、自注意力机制模块和多任务学习模块；

所述共享特征提取模块用于提取图像特征；

进一步地，所述模型训练模块采用交替-联合训练方法对所述多任务学习模型进行训练，包括：

与现有技术相比，本发明通过采用多任务学习方法，将人脸状态美感判断任务和人脸表情识别两种相关任务结合，两种任务相互补充、相互促进，一定程度上缓解模型的过拟合，从而提高模型的泛化能力和预测准确率。通过引入注意力机制使特征提取更加有针对性，进一步提高模型准确率。通过采用交替-联合的模型训练方法从而有效的避免小数据集过拟合的风险，提高人脸状态判断任务的识别准确度。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件；

图１为本发明实施例基于多任务学习的人脸状态判断方法的流程图；

图2为本发明实施例基于多任务学习的人脸状态判断系统的框图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

随着人工智能技术的不断发展，机器生产(Machine Generated Content，MGC)新闻的数量与日俱增，图文新闻生产也越来越自动化、智能化。图文新闻的配图通常由摄影记者拍摄，但是直播活动中存在摄影记者数量不足、拍摄角度不佳、摄影机位差等局限性。利用机器和智能算法自动从直播视频流中选择合适的新闻配图能够有效补足现场摄影记者的短板，提高智能图文新闻生产的效率。新闻配图的中景、近景和人脸特写画面中，人脸状态美感和表情十分重要。人脸的状态判断包括人脸状态美感判断和人脸表情识别，其中，其中，人脸状态美感判断任务是挑选出人脸状态佳、适合出现在新闻配图中的“Nice”人脸图像，尽可能筛除人脸状态美感较差的“Unsatisfied”人脸，但是目前尚缺乏人脸状态美感判断数据集和相关的算法，无法有效进行人脸状态判断。

鉴于此，本发明的一个具体实施例，公开了一种基于多任务学习的人脸状态判断方法。如图1所示，包括以下步骤：

S1、分别获取人脸状态美感判断数据集和人脸表情识别数据集；

S2、构建基于自注意力机制的多任务学习模型；基于所述人脸状态美感判断数据集和人脸表情识别数据集，采用交替-联合训练方法对所述多任务学习模型进行训练，得到训练好的多任务学习模型；所述多任务包括人脸状态美感判断任务和人脸表情识别任务；

S3、将待判断的人脸图像输入所述多任务学习模型，得到所述人脸图像的人脸状态判断结果。

通过采用多任务学习方法，将人脸状态美感判断任务和人脸表情识别两种相关任务结合，两种任务相互补充、相互促进，一定程度上缓解模型的过拟合，从而提高模型的泛化能力和预测准确率。通过引入注意力机制使特征提取更加有针对性，进一步提高模型准确率。通过采用交替-联合的模型训练方法从而有效的避免小数据集过拟合的风险，提高人脸状态判断任务的识别准确度。

由于目前尚无成熟可用的人脸状态美感判断数据集，实施时，人脸状态美感判断数据集为自行标注的数据集。具体的，为了提高智能图文新闻中图片生成的准确性，从头部姿态、面部状态、面部遮挡三个方面对人脸状态美感进行判断。例如，可以将人脸状态美感判断的标准分为“Nice”、“Unsatisfied”两类。实施时，具体标准可如下：

1)“Nice”类。“Nice”类是能在新闻配图中出现的最佳人脸。如表1所示，“Nice”类的人脸中，面部不能被其他话筒、遮挡，眼睛一定是睁开并且面向镜头的，这样的人脸会显得人非常精神。另外，嘴巴微张或微合的人脸是十分优雅的。

2）“Unsatisfied”类。“Unsatisfied”类的人脸是不能出现在新闻配图中的。如表2所示，此类图片的情况较多，如果人脸满足以下一种条件，就可以被判断为“Unsatisfied”类。对于面部遮挡，第一种情况人脸被自己的手、帽子等遮住眼睛和面部，第二种情况是人脸被包括其他人脸、设备等等遮挡；对于头部姿态，判断条件包括歪头、低头、完全面向一侧；对于面部状态，眼睛的判断条件为不完全睁开或者闭上，嘴巴的判断条件为抿嘴或者撅嘴。

实施时，人脸表情识别数据集为可采用现有的数据集，例如常用的FER2013，但是FER2013数据集存在标签错误或图片没有人脸的问题，有研究者对其重新进行了标注，得到FER2013Plus数据集。FER2013Plus在高兴、愤怒、悲伤、中性、恐惧、惊讶和厌恶表情的基础上，添加轻蔑、未知和无人脸三种标签，每张图片由10人重新标注。为了获得更好的效果，本发明在FER2013Plus的基础上去掉未知和无人脸的图片，将大多数人认同的标签作为最终的标签，最终得到FER2013Plus-Classified数据集，数据集包含高兴、愤怒、悲伤、中性、恐惧、惊讶、厌恶、轻蔑8种表情标签。

使用具有一定相关性的任务训练模型，硬参数共享机制可达到较好的效果。本发明的人脸状态美感判断任务中，对人脸状态美感判断的依据有眼睛、嘴巴的开合状态，对于人脸表情识别任务，判断的依据同样是眼睛、嘴巴的状态，这两种任务具有很强的相关性，适用于硬参数共享机制的多任务学习。

具体的，构建的基于自注意力机制的多任务学习模型包括共享特征提取模块、自注意力机制模块和多任务学习模块；

所述共享特征提取模块用于提取图像特征；

具体的，所述共享特征提取模块包括卷积层、第一残差块和两个第二残差块。

实施时，卷积层的卷积核为7x7，步长为2，填充为3，输入通道为3，输出通道为64。

所述第一残差块包括两个串联的第一残差子块，每个所述第一残差子块均包括两个卷积层、两个批量归一化层和一个激活层。具体的，第一残差子块的每个卷积层的卷积核为3×3，步长为1，填充为1，输入通道数、输出通道数均为64；激活层采用ReLU激活函数。

每个所述第二残差块包括两个串联的残差子块。所述第二残差块的第一个残差子块的主分支包括两个卷积层、两个批量归一化层和一个激活层，辅助分支包含一个卷积层和一个批量归一化层。具体的，主分支的第一个卷积层的卷积核为3×3，步长为2，填充为1，输入通道数为64，输出通道数为128，第二个卷积层卷积核为3×3，步长1，填充为1，输入通道数为128，输出通道数为128，激活层采用ReLU激活函数。辅助分支的卷积层的卷积核为1×1，步长为2，填充为0，输入通道数为64，输出通道数都为128。

第二残差块的第二个残差子块的主分支包括两个卷积层、两个批量归一化层和一个激活层。具体的，每个卷积层的卷积核均为3×3，步长为1，填充为1，输入通道数均为128，输出通道数均为128。

通过采用残差块不直接学习理想映射而是学习残差映射，从而在实际训练中优化训练速度，使输入数据可跨层前向传播，提高模型的准确度。第二残差块在辅助分支上加入了一个卷积层和一个批量归一化层，从而改变输入、输出特征的通道数，即调整输出的特征图的数量。批量归一化层对输入特征进行归一化，使得其符合标准正态分布，从而加速神经网络的收敛速度、防止梯度消失和过拟合。ReLU只有加、乘和比较操作，计算高效，能够加快训练速度、缓和梯度消失。

实施时，两个第二残差块结构相同，也可根据实际需要进行不同的设置，例如第一个第二残差块和第二个第二残差块的通道数可根据实际需要进行不同的设置，示例性的，第二个第二残差块的第一个残差子块的主分支的第一个卷积层的输入通道数为128，输出通道数为256，第二个卷积层的输入通道数为256，输出通道数为256；辅助分支的卷积层的输入通道数为128，输出通道数都为256。第二个第二残差块的第二个残差子块的主分支每个卷积层的输入通道数均为256，输出通道数均为256。

具体的，所述自注意力机制模块用于为提取的图像特征赋予不同的权重，得到加权图像特征，包括：

具体的，共享特征提取模块提取的特征图为二维图像，首先将共享特征提取模块提取的每张特征图转化为一维特征向量，所有特征图对应的一维向量组成矩阵，作为自注意力机制中的Q、K和V矩阵，即Q、K、V矩阵相同。为了进一步学习到更丰富的特征信息，采用多头注意机制进行注意力权重学习。具体的，根据以下公式计算加权特征矩阵，

其中，h表示头数，W_i ^Q，W_i ^K，W_i ^V，分别表示第i个头的Q、K和V对应的参数矩阵，W^o表示全连接层的参数矩阵。

Attention(·)表示注意力计算公式，Concat(·)表示矩阵拼接，将拼接后的矩阵全连接后得到的矩阵即为加权特征矩阵。

加权特征矩阵的每一行对应一个二维特征图；根据共享特征提取模块提取的特征图的大小，将加权特征矩阵转换为多个二维特征图，得到加权图像特征。

由于特征提取部分输出的特征图尺度较小，对其应用多头自注意力机制能有效降低模型的计算量，提高了模型的计算速度。卷积神经网络在底层只会学到简单的特征，随着层数增加，深层的特征会更加复杂、抽象，这种特征是更含高级、对模型更有意义的特征。因此和底层应用多头自注意力机制相比，在特征提取部分后应用会更加有效。

得到加权图像特征后，在多任务学习模块进行多任务的分类学习。所述多任务学习模块包括人脸状态美感判断子模块和人脸表情识别子模块；所述人脸状态美感判断子模块用于根据所述加权图像特征进行人脸状态美感判断；所述人脸表情识别子模块用于根据所述加权图像特征进行人脸表情识别。

具体的，人脸状态美感判断子模块和人脸表情识别子模块均包括依次连接的第三残差块、自适应平均池化层和全连接层；

所述第三残差块包括两个串联的残差子块，所述第三残差块的第一个残差子块在主分支包括两个卷积层、两个批量归一化层和一个激活层，辅助分支包含一个卷积层和一个批量归一化层。实施时，主分支的第一个卷积层的卷积核为3×3，步长为2，填充为1，输入通道数为256，输出通道数为512，第二个卷积层卷积核为3×3，步长1，填充为1，输入通道数为256，输出通道数为256，激活层采用ReLU激活函数；辅助分支的卷积层的卷积核为1×1，步长为2，填充为0，输入通道数为256，输出通道数都为512。

第三残差块的第二个残差子块的主分支包括两个卷积层、两个批量归一化层和一个激活层。实施时，每个卷积层的卷积核均为3×3，步长为1，填充为1，输入通道数均为512，输出通道数均为512。

由于人脸状态美感判断数据集的数量远小于人脸表情识别数据集的数量，为了降低小数据集过拟合的风险，本发明采用交替-联合训练方法对所述多任务学习模型进行训练，具体包括：

S201、根据所述人脸状态美感判断数据集和所述人脸表情识别数据集的大小，分别计算所述人脸状态美感判断任务和人脸表情识别任务的batch-size；

为了使两种不同的任务可以交替-联合训练，训练次数相同，首先根据两个数据集的大小分别计算两种任务的batch-size，保证每个epoch中每个任务的训练次数是相同，模型针对每个任务进行优化的次数是相同。

具体的每个任务的batch-size根据公式

，

计算，其中bs₁表示第一个任务的batch-size，bs₂表示第二个任务的batch-size，Num₁表示第一个任务的数据集数量，Num₂表示第二个任务的数据集数量，N表示一个epoch中的训练次数。

S202、从人脸状态美感判断数据集中提取对应的batch-size大小的训练集输入所述多任务学习模型，根据模型输出结果计算人脸状态美感判断任务的损失；

S203、从人脸表情识别数据集中提取对应的batch-size大小的训练集输入所述多任务学习模型，根据模型输出结果计算人脸表情识别任务的损失；

根据计算的batch-size大小从人脸状态美感判断数据集和人脸表情识别数据集中交替提取对应大小的训练数据输入多任务学习模型进行模型训练。

对于从人脸状态美感判断数据集提取的训练数据，仅根据人脸状态美感判断任务的结果计算人脸状态美感判断任务的损失；对于从人脸表情识别数据集提取的训练数据，仅根据人脸表情识别任务的结果计算人脸表情识别任务的损失。

具体的，根据公式

分别计算人脸状态美感判断任务和人脸表情识别任务的损失。其中m表示样本的数量，n表示类别数量，p_j为模型当前样本i为类别j的概率，y_ij是一个符号函数，当样本i的真实标签和模型预测的标签相同时，y_ij为1，否则为0。

S204、根据所述人脸状态美感判断任务的损失和所述人脸表情识别任务的损失计算联合损失，基于所述联合损失优化模型参数。

具体的，根据公式Loss_mtl=W₁×Loss₁+W₂×Loss₂计算联合损失Loss_mtl。根据联合损失优化模型参数，即优化多任务学习模型中的参数。其中Loss₁和Loss₂分别表示人脸状态美感判断任务的损失和所述人脸表情识别任务的损失，W₁和W₂表示权重系数。具体的，根据人脸状态美感判断任务和人脸表情识别任务对人脸状态判断的重要程度设置相应的权重系数，W₁和W₂的和为1。例如若两种任务同样重要，权重系数W₁和W₂都设置为0.5。

当模型的损失稳定，并且准确率达到要求时，得到训练好的多任务学习模型。将待判断的人脸图像输入所述多任务学习模型，得到所述人脸图像的人脸状态判断结果，即得到人脸状态美感判断的分类结果和人脸表情识别的分类结果。可根据人脸状态判断结果结合新闻内容选择合适的图像作为新闻配图，为自动生成图文新闻提供图像判断基础。

为了进一步验证本发明的多任务学习模型的人脸状态判断效果，训练不同的网络模型，其在人脸状态美感判断数据集的性能结果如表3所示。其中，AlexNet模型和ResNet-18是仅基于人脸状态美感判断数据集训练的经典模型，MA-Net表示本发明的多任务学习模型，是基于人脸状态美感判断数据集和人脸表情识别数据集训练得到的。

为了验证交替-联合训练方法的有效性，本发明将交替训练方法、交替-联合训练方法的MA-Net进行对比。交替训练方法是指训练时首先输入不同任务的样本，然后交替收敛不同任务的损失函数，要求不同的训练样本的数量相近，否则训练出的模型会在训练样本数量较大的任务上效果较好，在其他任务上效果较差。如表4所示，和交替训练方法的MA-Net相比，使用交替-联合训练方法的MA-Net，对于“Unsatisfied”类的精确率和“Nice”类的召回率虽然降低了0.05%和0.07%，但是在“Nice”类的精确率和“Unsatisfied”类的召回率分别提高了3.15%和3.26%。在实际应用过程中，有助于更准确地挑选人脸状态美感更佳的“Nice”类，过滤掉更多的“Unsatisfied”的人脸，具有更高的应用价值。此外，交替-联合训练方法的MA-Net的准确率提高了1.608%。因此，本发明提出的交替-联合训练方法比交替训练方法更有效。

为了验证MA-Net在人脸表情识别任务的有效性，本发明将MA-Net和SCN在FER2013Plus-Classfied数据集上的准确率和精确率进行对比。SCN通过小批量的自注意力机制、正则化和重新标注机制抑制不确定性，防止网络对某些图像的过拟合。本发明将SCN在FER2013Plus-Classfied数据集上重新训练、测试。两种算法的性能如表5所示，和SCN相比，MA-Net准确率更高，达到了89.01%，高于SCN模型4.36%。另外，MA-Net在识别愤怒、轻蔑、厌恶、开心、中性、惊讶类具有很明显的优势，识别轻蔑表情的精确率达到了100%。这得益于多任务学习和自注意力机制的共同作用，因此证明了基于多任务学习的MA-Net的有效性。

本发明的一个具体实施例，公开了一种基于多任务学习的人脸状态判断系统，如图2所示，包括以下模块：

优选的，所述模型训练模块构建的自注意力机制的多任务学习模型包括共享特征提取模块、自注意力机制模块和多任务学习模块；

所述共享特征提取模块用于提取图像特征；

优选的，所述模型训练模块采用交替-联合训练方法对所述多任务学习模型进行训练，包括：

优选的，所述共享特征提取模块包括卷积层、第一残差块和两个第二残差块；

上述方法实施例和系统实施例，基于相同的原理，其相关之处可相互借鉴，且能达到相同的技术效果。具体实施过程参见前述实施例，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多任务学习的人脸状态判断方法，其特征在于，包括以下步骤：

分别获取人脸状态美感判断数据集和人脸表情识别数据集；所述人脸状态美感判断数据集是根据头部姿态、面部状态和面部遮挡对人脸状态美感进行判断得到的；

将待判断的人脸图像输入所述多任务学习模型，得到所述人脸图像的人脸状态判断结果;

所述采用交替-联合训练方法对所述多任务学习模型进行训练，包括：

2.根据权利要求1所述的基于多任务学习的人脸状态判断方法，其特征在于，所述基于自注意力机制的多任务学习模型包括共享特征提取模块、自注意力机制模块和多任务学习模块；

所述共享特征提取模块用于提取图像特征；

3.根据权利要求2所述的基于多任务学习的人脸状态判断方法，其特征在于，所述共享特征提取模块包括卷积层、第一残差块和两个第二残差块；

4.根据权利要求2所述的基于多任务学习的人脸状态判断方法，其特征在于，所述自注意力机制模块用于为提取的图像特征赋予权重，得到加权图像特征，包括：

5.根据权利要求2所述的基于多任务学习的人脸状态判断方法，其特征在于，所述人脸状态美感判断子模块和人脸表情识别子模块均包括依次连接的第三残差块、自适应平均池化层和全连接层；

6.一种基于多任务学习的人脸状态判断系统，其特征在于，包括以下模块：

数据集获取模块，用于分别获取人脸状态美感判断数据集和人脸表情识别数据集；所述人脸状态美感判断数据集是根据头部姿态、面部状态和面部遮挡对人脸状态美感进行判断得到的；

人脸状态判断模块，用于将待判断的人脸图像输入所述多任务学习模型，得到所述人脸图像的人脸状态判断结果；

所述模型训练模块采用交替-联合训练方法对所述多任务学习模型进行训练，包括：

7.根据权利要求6所述的基于多任务学习的人脸状态判断系统，其特征在于，所述模型训练模块构建的自注意力机制的多任务学习模型包括共享特征提取模块、自注意力机制模块和多任务学习模块；

所述共享特征提取模块用于提取图像特征；

8.根据权利要求7所述的基于多任务学习的人脸状态判断系统，其特征在于，所述共享特征提取模块包括卷积层、第一残差块和两个第二残差块；