CN114511918B - 一种基于多任务学习的人脸状态判断方法和系统 - Google Patents
一种基于多任务学习的人脸状态判断方法和系统 Download PDFInfo
- Publication number
- CN114511918B CN114511918B CN202210413009.XA CN202210413009A CN114511918B CN 114511918 B CN114511918 B CN 114511918B CN 202210413009 A CN202210413009 A CN 202210413009A CN 114511918 B CN114511918 B CN 114511918B
- Authority
- CN
- China
- Prior art keywords
- face state
- task
- aesthetic feeling
- face
- expression recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种基于多任务学习的人脸状态判断方法和系统,属于图像处理技术领域,用以解决缺乏人脸状态美感判断数据集和相关的算法,无法有效进行人脸状态判断的问题,方法包括以下步骤:分别获取人脸状态美感判断数据集和人脸表情识别数据集;构建基于自注意力机制的多任务学习模型;基于所述人脸状态美感判断数据集和人脸表情识别数据集,采用交替‑联合训练方法对所述多任务学习模型进行训练,得到训练好的多任务学习模型;所述多任务包括人脸状态美感判断任务和人脸表情识别任务;将待判断的人脸图像输入所述多任务学习模型,得到所述人脸图像的人脸状态判断结果。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于多任务学习的人脸状态判断方法和系统。
背景技术
随着人工智能等技术不断发展,人工智能的市场规模逐渐扩大。据艾瑞咨询发布的《2021年中国智能产业研究报告(IV)》显示,2021年人工智能的核心规模估计达到1998亿元,到2026年,将超过6000亿元。人工智能技术深刻地改变了人类的生活方式和生产方式,新闻生产与人工智能结合后能够极大地提高新闻生产的效率。机器生产内容(MachineGenerated Content,MGC),即利用机器智能生产的新闻,多家媒体机构开发了生产MGC新闻的智能产品、智能平台,例如新华社的“媒体大脑”、光明网的智能发稿系统等等。
传统图文报道中的新闻配图通常由摄影记者拍摄。但是由于直播活动很多,直播现场可能缺少摄影记者。摄影记者拍摄新闻图片时会受到空间的限制,可能无法从合适的角度拍照,比如无法获得摇臂摄像机的角度进行拍摄,又或者最佳的机位被摄影师占据。此外,摄影记者也无法在演播室内拍照。在图文新闻生产中的配图素材采集环节,运用人工智能技术直接对直播视频流进行分析,获得新闻的配图能够有效补充摄影记者的短板,扩大新闻配图的取材范围。新闻配图的中景、近景和人脸特写中,人脸的状态十分重要。人脸的状态判断包括人脸状态美感判断和人脸表情识别,其中,人脸状态美感判断任务是挑选出人脸状态佳、适合出现在新闻配图中的“Nice”人脸图像,尽可能筛除人脸状态美感较差的“Unsatisfied”人脸,但是目前尚缺乏人脸状态美感判断数据集和相关的算法,无法有效进行人脸状态判断。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种基于多任务学习的人脸状态判断方法和系统,用以解决缺乏人脸状态美感判断数据集和相关的算法,无法有效进行人脸状态判断的问题。
一方面,本发明实施例提供了一种基于多任务学习的人脸状态判断方法,包括以下步骤:
分别获取人脸状态美感判断数据集和人脸表情识别数据集;
构建基于自注意力机制的多任务学习模型;基于所述人脸状态美感判断数据集和人脸表情识别数据集,采用交替-联合训练方法对所述多任务学习模型进行训练,得到训练好的多任务学习模型;所述多任务包括人脸状态美感判断任务和人脸表情识别任务;
将待判断的人脸图像输入所述多任务学习模型,得到所述人脸图像的人脸状态判断结果。
基于上述技术方案的进一步改进,所述基于自注意力机制的多任务学习模型包括共享特征提取模块、自注意力机制模块和多任务学习模块;
所述共享特征提取模块用于提取图像特征;
所述自注意力机制模块用于为提取的图像特征赋予权重,得到加权图像特征;
所述多任务学习模块包括人脸状态美感判断子模块和人脸表情识别子模块;所述人脸状态美感判断子模块用于根据所述加权图像特征进行人脸状态美感判断;所述人脸表情识别子模块用于根据所述加权图像特征进行人脸表情识别。
进一步地,所述采用交替-联合训练方法对所述多任务学习模型进行训练,包括:
根据所述人脸状态美感判断数据集和所述人脸表情识别数据集的大小,分别计算所述人脸状态美感判断任务和人脸表情识别任务的batch-size;
从人脸状态美感判断数据集中提取对应的batch-size大小的训练集输入所述多任务学习模型,根据模型输出结果计算人脸状态美感判断任务的损失;
从人脸表情识别数据集中提取对应的batch-size大小的训练集输入所述多任务学习模型,根据模型输出结果计算人脸表情识别任务的损失;
根据所述人脸状态美感判断任务的损失和所述人脸表情识别任务的损失计算联合损失,基于所述联合损失优化模型参数。
进一步地,所述共享特征提取模块包括卷积层、第一残差块和两个第二残差块;
所述第一残差块包括两个串联的第一残差子块,每个所述第一残差子块均包括两个卷积层、两个批量归一化层和一个激活层;
每个所述第二残差块包括两个串联的残差子块,每个所述残差子块的主分支均包括两个卷积层、两个批量归一化层和一个激活层;第一个残差子块的辅助分支还包含一个卷积层和一个批量归一化层。
进一步地,所述自注意力机制模块用于为提取的图像特征赋予权重,得到加权图像特征,包括:
将共享特征提取模块提取的每张特征图转化为一维特征向量;将所有特征图对应的一维特征向量组成自注意力机制中的Q、K和V矩阵;
基于所述Q、K和V矩阵采用多头自注意力机制计算得到加权特征矩阵;
将所述加权特征矩阵转化为二维特征图,得到加权图像特征。
进一步地,所述人脸状态美感判断子模块和人脸表情识别子模块均包括依次连接的第三残差块、自适应平均池化层和全连接层;
所述第三残差块包括两个串联的残差子块,所述第三残差块的两个残差子块的主分支均包括两个卷积层、两个批量归一化层和一个激活层;第一个残差子块的辅助分支还包含一个卷积层和一个批量归一化层。
另一方面,本发明实施例提供了一种基于多任务学习的人脸状态判断系统,包括以下模块:
数据集获取模块,用于分别获取人脸状态美感判断数据集和人脸表情识别数据集;
模型训练模块,用于构建基于自注意力机制的多任务学习模型;基于所述人脸状态美感判断数据集和人脸表情识别数据集,采用交替-联合训练方法对所述多任务学习模型进行训练,得到训练好的多任务学习模型;所述多任务包括人脸状态美感判断任务和人脸表情识别任务;
人脸状态判断模块,用于将待判断的人脸图像输入所述多任务学习模型,得到所述人脸图像的人脸状态判断结果。
进一步地,所述模型训练模块构建的自注意力机制的多任务学习模型包括共享特征提取模块、自注意力机制模块和多任务学习模块;
所述共享特征提取模块用于提取图像特征;
所述自注意力机制模块用于为提取的图像特征赋予权重,得到加权图像特征;
所述多任务学习模块包括人脸状态美感判断子模块和人脸表情识别子模块;所述人脸状态美感判断子模块用于根据所述加权图像特征进行人脸状态美感判断;所述人脸表情识别子模块用于根据所述加权图像特征进行人脸表情识别。
进一步地,所述模型训练模块采用交替-联合训练方法对所述多任务学习模型进行训练,包括:
根据所述人脸状态美感判断数据集和所述人脸表情识别数据集的大小,分别计算所述人脸状态美感判断任务和人脸表情识别任务的batch-size;
从人脸状态美感判断数据集中提取对应的batch-size大小的训练集输入所述多任务学习模型,根据模型输出结果计算人脸状态美感判断任务的损失;
从人脸表情识别数据集中提取对应的batch-size大小的训练集输入所述多任务学习模型,根据模型输出结果计算人脸表情识别任务的损失;
根据所述人脸状态美感判断任务的损失和所述人脸表情识别任务的损失计算联合损失,基于所述联合损失优化模型参数。
进一步地,所述共享特征提取模块包括卷积层、第一残差块和两个第二残差块;
所述第一残差块包括两个串联的第一残差子块,每个所述第一残差子块均包括两个卷积层、两个批量归一化层和一个激活层;
每个所述第二残差块包括两个串联的残差子块,每个所述残差子块的主分支均包括两个卷积层、两个批量归一化层和一个激活层;第一个残差子块的辅助分支还包含一个卷积层和一个批量归一化层。
与现有技术相比,本发明通过采用多任务学习方法,将人脸状态美感判断任务和人脸表情识别两种相关任务结合,两种任务相互补充、相互促进,一定程度上缓解模型的过拟合,从而提高模型的泛化能力和预测准确率。通过引入注意力机制使特征提取更加有针对性,进一步提高模型准确率。通过采用交替-联合的模型训练方法从而有效的避免小数据集过拟合的风险,提高人脸状态判断任务的识别准确度。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件;
图1为本发明实施例基于多任务学习的人脸状态判断方法的流程图;
图2为本发明实施例基于多任务学习的人脸状态判断系统的框图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
随着人工智能技术的不断发展,机器生产(Machine Generated Content,MGC)新闻的数量与日俱增,图文新闻生产也越来越自动化、智能化。图文新闻的配图通常由摄影记者拍摄,但是直播活动中存在摄影记者数量不足、拍摄角度不佳、摄影机位差等局限性。利用机器和智能算法自动从直播视频流中选择合适的新闻配图能够有效补足现场摄影记者的短板,提高智能图文新闻生产的效率。新闻配图的中景、近景和人脸特写画面中,人脸状态美感和表情十分重要。人脸的状态判断包括人脸状态美感判断和人脸表情识别,其中,其中,人脸状态美感判断任务是挑选出人脸状态佳、适合出现在新闻配图中的“Nice”人脸图像,尽可能筛除人脸状态美感较差的“Unsatisfied”人脸,但是目前尚缺乏人脸状态美感判断数据集和相关的算法,无法有效进行人脸状态判断。
鉴于此,本发明的一个具体实施例,公开了一种基于多任务学习的人脸状态判断方法。如图1所示,包括以下步骤:
S1、分别获取人脸状态美感判断数据集和人脸表情识别数据集;
S2、构建基于自注意力机制的多任务学习模型;基于所述人脸状态美感判断数据集和人脸表情识别数据集,采用交替-联合训练方法对所述多任务学习模型进行训练,得到训练好的多任务学习模型;所述多任务包括人脸状态美感判断任务和人脸表情识别任务;
S3、将待判断的人脸图像输入所述多任务学习模型,得到所述人脸图像的人脸状态判断结果。
通过采用多任务学习方法,将人脸状态美感判断任务和人脸表情识别两种相关任务结合,两种任务相互补充、相互促进,一定程度上缓解模型的过拟合,从而提高模型的泛化能力和预测准确率。通过引入注意力机制使特征提取更加有针对性,进一步提高模型准确率。通过采用交替-联合的模型训练方法从而有效的避免小数据集过拟合的风险,提高人脸状态判断任务的识别准确度。
由于目前尚无成熟可用的人脸状态美感判断数据集,实施时,人脸状态美感判断数据集为自行标注的数据集。具体的,为了提高智能图文新闻中图片生成的准确性,从头部姿态、面部状态、面部遮挡三个方面对人脸状态美感进行判断。例如,可以将人脸状态美感判断的标准分为“Nice”、“Unsatisfied”两类。实施时,具体标准可如下:
1)“Nice”类。“Nice”类是能在新闻配图中出现的最佳人脸。如表1所示,“Nice”类的人脸中,面部不能被其他话筒、遮挡,眼睛一定是睁开并且面向镜头的,这样的人脸会显得人非常精神。另外,嘴巴微张或微合的人脸是十分优雅的。
2)“Unsatisfied”类。“Unsatisfied”类的人脸是不能出现在新闻配图中的。如表2所示,此类图片的情况较多,如果人脸满足以下一种条件,就可以被判断为“Unsatisfied”类。对于面部遮挡,第一种情况人脸被自己的手、帽子等遮住眼睛和面部,第二种情况是人脸被包括其他人脸、设备等等遮挡;对于头部姿态,判断条件包括歪头、低头、完全面向一侧;对于面部状态,眼睛的判断条件为不完全睁开或者闭上,嘴巴的判断条件为抿嘴或者撅嘴。
实施时,人脸表情识别数据集为可采用现有的数据集,例如常用的FER2013,但是FER2013数据集存在标签错误或图片没有人脸的问题,有研究者对其重新进行了标注,得到FER2013Plus数据集。FER2013Plus在高兴、愤怒、悲伤、中性、恐惧、惊讶和厌恶表情的基础上,添加轻蔑、未知和无人脸三种标签,每张图片由10人重新标注。为了获得更好的效果,本发明在FER2013Plus的基础上去掉未知和无人脸的图片,将大多数人认同的标签作为最终的标签,最终得到FER2013Plus-Classified数据集,数据集包含高兴、愤怒、悲伤、中性、恐惧、惊讶、厌恶、轻蔑8种表情标签。
使用具有一定相关性的任务训练模型,硬参数共享机制可达到较好的效果。本发明的人脸状态美感判断任务中,对人脸状态美感判断的依据有眼睛、嘴巴的开合状态,对于人脸表情识别任务,判断的依据同样是眼睛、嘴巴的状态,这两种任务具有很强的相关性,适用于硬参数共享机制的多任务学习。
具体的,构建的基于自注意力机制的多任务学习模型包括共享特征提取模块、自注意力机制模块和多任务学习模块;
所述共享特征提取模块用于提取图像特征;
所述自注意力机制模块用于为提取的图像特征赋予权重,得到加权图像特征;
所述多任务学习模块包括人脸状态美感判断子模块和人脸表情识别子模块;所述人脸状态美感判断子模块用于根据所述加权图像特征进行人脸状态美感判断;所述人脸表情识别子模块用于根据所述加权图像特征进行人脸表情识别。
具体的,所述共享特征提取模块包括卷积层、第一残差块和两个第二残差块。
实施时,卷积层的卷积核为7x7,步长为2,填充为3,输入通道为3,输出通道为64。
所述第一残差块包括两个串联的第一残差子块,每个所述第一残差子块均包括两个卷积层、两个批量归一化层和一个激活层。具体的,第一残差子块的每个卷积层的卷积核为3×3,步长为1,填充为1,输入通道数、输出通道数均为64;激活层采用ReLU激活函数。
每个所述第二残差块包括两个串联的残差子块。所述第二残差块的第一个残差子块的主分支包括两个卷积层、两个批量归一化层和一个激活层,辅助分支包含一个卷积层和一个批量归一化层。具体的,主分支的第一个卷积层的卷积核为3×3,步长为2,填充为1,输入通道数为64,输出通道数为128,第二个卷积层卷积核为3×3,步长1,填充为1,输入通道数为128,输出通道数为128,激活层采用ReLU激活函数。辅助分支的卷积层的卷积核为1×1,步长为2,填充为0,输入通道数为64,输出通道数都为128。
第二残差块的第二个残差子块的主分支包括两个卷积层、两个批量归一化层和一个激活层。具体的,每个卷积层的卷积核均为3×3,步长为1,填充为1,输入通道数均为128,输出通道数均为128。
通过采用残差块不直接学习理想映射而是学习残差映射,从而在实际训练中优化训练速度,使输入数据可跨层前向传播,提高模型的准确度。第二残差块在辅助分支上加入了一个卷积层和一个批量归一化层,从而改变输入、输出特征的通道数,即调整输出的特征图的数量。批量归一化层对输入特征进行归一化,使得其符合标准正态分布,从而加速神经网络的收敛速度、防止梯度消失和过拟合。ReLU只有加、乘和比较操作,计算高效,能够加快训练速度、缓和梯度消失。
实施时,两个第二残差块结构相同,也可根据实际需要进行不同的设置,例如第一个第二残差块和第二个第二残差块的通道数可根据实际需要进行不同的设置,示例性的,第二个第二残差块的第一个残差子块的主分支的第一个卷积层的输入通道数为128,输出通道数为256,第二个卷积层的输入通道数为256,输出通道数为256;辅助分支的卷积层的输入通道数为128,输出通道数都为256。第二个第二残差块的第二个残差子块的主分支每个卷积层的输入通道数均为256,输出通道数均为256。
具体的,所述自注意力机制模块用于为提取的图像特征赋予不同的权重,得到加权图像特征,包括:
将共享特征提取模块提取的每张特征图转化为一维特征向量;将所有特征图对应的一维特征向量组成自注意力机制中的Q、K和V矩阵;
基于所述Q、K和V矩阵采用多头自注意力机制计算得到加权特征矩阵;
将所述加权特征矩阵转化为二维特征图,得到加权图像特征。
具体的,共享特征提取模块提取的特征图为二维图像,首先将共享特征提取模块提取的每张特征图转化为一维特征向量,所有特征图对应的一维向量组成矩阵,作为自注意力机制中的Q、K和V矩阵,即Q、K、V矩阵相同。为了进一步学习到更丰富的特征信息,采用多头注意机制进行注意力权重学习。具体的,根据以下公式计算加权特征矩阵,
其中,h表示头数,Wi Q,Wi K,Wi V,分别表示第i个头的Q、K和V对应的参数矩阵,Wo表示全连接层的参数矩阵。
Attention(·)表示注意力计算公式,Concat(·)表示矩阵拼接,将拼接后的矩阵全连接后得到的矩阵即为加权特征矩阵。
加权特征矩阵的每一行对应一个二维特征图;根据共享特征提取模块提取的特征图的大小,将加权特征矩阵转换为多个二维特征图,得到加权图像特征。
由于特征提取部分输出的特征图尺度较小,对其应用多头自注意力机制能有效降低模型的计算量,提高了模型的计算速度。卷积神经网络在底层只会学到简单的特征,随着层数增加,深层的特征会更加复杂、抽象,这种特征是更含高级、对模型更有意义的特征。因此和底层应用多头自注意力机制相比,在特征提取部分后应用会更加有效。
得到加权图像特征后,在多任务学习模块进行多任务的分类学习。所述多任务学习模块包括人脸状态美感判断子模块和人脸表情识别子模块;所述人脸状态美感判断子模块用于根据所述加权图像特征进行人脸状态美感判断;所述人脸表情识别子模块用于根据所述加权图像特征进行人脸表情识别。
具体的,人脸状态美感判断子模块和人脸表情识别子模块均包括依次连接的第三残差块、自适应平均池化层和全连接层;
所述第三残差块包括两个串联的残差子块,所述第三残差块的第一个残差子块在主分支包括两个卷积层、两个批量归一化层和一个激活层,辅助分支包含一个卷积层和一个批量归一化层。实施时,主分支的第一个卷积层的卷积核为3×3,步长为2,填充为1,输入通道数为256,输出通道数为512,第二个卷积层卷积核为3×3,步长1,填充为1,输入通道数为256,输出通道数为256,激活层采用ReLU激活函数;辅助分支的卷积层的卷积核为1×1,步长为2,填充为0,输入通道数为256,输出通道数都为512。
第三残差块的第二个残差子块的主分支包括两个卷积层、两个批量归一化层和一个激活层。实施时,每个卷积层的卷积核均为3×3,步长为1,填充为1,输入通道数均为512,输出通道数均为512。
由于人脸状态美感判断数据集的数量远小于人脸表情识别数据集的数量,为了降低小数据集过拟合的风险,本发明采用交替-联合训练方法对所述多任务学习模型进行训练,具体包括:
S201、根据所述人脸状态美感判断数据集和所述人脸表情识别数据集的大小,分别计算所述人脸状态美感判断任务和人脸表情识别任务的batch-size;
为了使两种不同的任务可以交替-联合训练,训练次数相同,首先根据两个数据集的大小分别计算两种任务的batch-size,保证每个epoch中每个任务的训练次数是相同,模型针对每个任务进行优化的次数是相同。
具体的每个任务的batch-size根据公式,计算,其中bs1表示第一个任务的batch-size,bs2表示第二个任务的batch-size,Num1表示第一个任务的数据集数量,Num2表示第二个任务的数据集数量,N表示一个epoch中的训练次数。
S202、从人脸状态美感判断数据集中提取对应的batch-size大小的训练集输入所述多任务学习模型,根据模型输出结果计算人脸状态美感判断任务的损失;
S203、从人脸表情识别数据集中提取对应的batch-size大小的训练集输入所述多任务学习模型,根据模型输出结果计算人脸表情识别任务的损失;
根据计算的batch-size大小从人脸状态美感判断数据集和人脸表情识别数据集中交替提取对应大小的训练数据输入多任务学习模型进行模型训练。
对于从人脸状态美感判断数据集提取的训练数据,仅根据人脸状态美感判断任务的结果计算人脸状态美感判断任务的损失;对于从人脸表情识别数据集提取的训练数据,仅根据人脸表情识别任务的结果计算人脸表情识别任务的损失。
具体的,根据公式分别计算人脸状态美感判断任务和人脸表情识别任务的损失。其中m表示样本的数量,n表示类别数量,pj为模型当前样本i为类别j的概率,yij是一个符号函数,当样本i的真实标签和模型预测的标签相同时,yij为1,否则为0。
S204、根据所述人脸状态美感判断任务的损失和所述人脸表情识别任务的损失计算联合损失,基于所述联合损失优化模型参数。
具体的,根据公式Lossmtl=W1×Loss1+W2×Loss2计算联合损失Lossmtl。根据联合损失优化模型参数,即优化多任务学习模型中的参数。其中Loss1和Loss2分别表示人脸状态美感判断任务的损失和所述人脸表情识别任务的损失,W1和W2表示权重系数。具体的,根据人脸状态美感判断任务和人脸表情识别任务对人脸状态判断的重要程度设置相应的权重系数,W1和W2的和为1。例如若两种任务同样重要,权重系数W1和W2都设置为0.5。
当模型的损失稳定,并且准确率达到要求时,得到训练好的多任务学习模型。将待判断的人脸图像输入所述多任务学习模型,得到所述人脸图像的人脸状态判断结果,即得到人脸状态美感判断的分类结果和人脸表情识别的分类结果。可根据人脸状态判断结果结合新闻内容选择合适的图像作为新闻配图,为自动生成图文新闻提供图像判断基础。
为了进一步验证本发明的多任务学习模型的人脸状态判断效果,训练不同的网络模型,其在人脸状态美感判断数据集的性能结果如表3所示。其中,AlexNet模型和ResNet-18是仅基于人脸状态美感判断数据集训练的经典模型,MA-Net表示本发明的多任务学习模型,是基于人脸状态美感判断数据集和人脸表情识别数据集训练得到的。
为了验证交替-联合训练方法的有效性,本发明将交替训练方法、交替-联合训练方法的MA-Net进行对比。交替训练方法是指训练时首先输入不同任务的样本,然后交替收敛不同任务的损失函数,要求不同的训练样本的数量相近,否则训练出的模型会在训练样本数量较大的任务上效果较好,在其他任务上效果较差。如表4所示,和交替训练方法的MA-Net相比,使用交替-联合训练方法的MA-Net,对于“Unsatisfied”类的精确率和“Nice”类的召回率虽然降低了0.05%和0.07%,但是在“Nice”类的精确率和“Unsatisfied”类的召回率分别提高了3.15%和3.26%。在实际应用过程中,有助于更准确地挑选人脸状态美感更佳的“Nice”类,过滤掉更多的“Unsatisfied”的人脸,具有更高的应用价值。此外,交替-联合训练方法的MA-Net的准确率提高了1.608%。因此,本发明提出的交替-联合训练方法比交替训练方法更有效。
为了验证MA-Net在人脸表情识别任务的有效性,本发明将MA-Net和SCN在FER2013Plus-Classfied数据集上的准确率和精确率进行对比。SCN通过小批量的自注意力机制、正则化和重新标注机制抑制不确定性,防止网络对某些图像的过拟合。本发明将SCN在FER2013Plus-Classfied数据集上重新训练、测试。两种算法的性能如表5所示,和SCN相比,MA-Net准确率更高,达到了89.01%,高于SCN模型4.36%。另外,MA-Net在识别愤怒、轻蔑、厌恶、开心、中性、惊讶类具有很明显的优势,识别轻蔑表情的精确率达到了100%。这得益于多任务学习和自注意力机制的共同作用,因此证明了基于多任务学习的MA-Net的有效性。
本发明的一个具体实施例,公开了一种基于多任务学习的人脸状态判断系统,如图2所示,包括以下模块:
数据集获取模块,用于分别获取人脸状态美感判断数据集和人脸表情识别数据集;
模型训练模块,用于构建基于自注意力机制的多任务学习模型;基于所述人脸状态美感判断数据集和人脸表情识别数据集,采用交替-联合训练方法对所述多任务学习模型进行训练,得到训练好的多任务学习模型;所述多任务包括人脸状态美感判断任务和人脸表情识别任务;
人脸状态判断模块,用于将待判断的人脸图像输入所述多任务学习模型,得到所述人脸图像的人脸状态判断结果。
优选的,所述模型训练模块构建的自注意力机制的多任务学习模型包括共享特征提取模块、自注意力机制模块和多任务学习模块;
所述共享特征提取模块用于提取图像特征;
所述自注意力机制模块用于为提取的图像特征赋予权重,得到加权图像特征;
所述多任务学习模块包括人脸状态美感判断子模块和人脸表情识别子模块;所述人脸状态美感判断子模块用于根据所述加权图像特征进行人脸状态美感判断;所述人脸表情识别子模块用于根据所述加权图像特征进行人脸表情识别。
优选的,所述模型训练模块采用交替-联合训练方法对所述多任务学习模型进行训练,包括:
根据所述人脸状态美感判断数据集和所述人脸表情识别数据集的大小,分别计算所述人脸状态美感判断任务和人脸表情识别任务的batch-size;
从人脸状态美感判断数据集中提取对应的batch-size大小的训练集输入所述多任务学习模型,根据模型输出结果计算人脸状态美感判断任务的损失;
从人脸表情识别数据集中提取对应的batch-size大小的训练集输入所述多任务学习模型,根据模型输出结果计算人脸表情识别任务的损失;
根据所述人脸状态美感判断任务的损失和所述人脸表情识别任务的损失计算联合损失,基于所述联合损失优化模型参数。
优选的,所述共享特征提取模块包括卷积层、第一残差块和两个第二残差块;
所述第一残差块包括两个串联的第一残差子块,每个所述第一残差子块均包括两个卷积层、两个批量归一化层和一个激活层;
每个所述第二残差块包括两个串联的残差子块,每个所述残差子块的主分支均包括两个卷积层、两个批量归一化层和一个激活层;第一个残差子块的辅助分支还包含一个卷积层和一个批量归一化层。
上述方法实施例和系统实施例,基于相同的原理,其相关之处可相互借鉴,且能达到相同的技术效果。具体实施过程参见前述实施例,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种基于多任务学习的人脸状态判断方法,其特征在于,包括以下步骤:
分别获取人脸状态美感判断数据集和人脸表情识别数据集;所述人脸状态美感判断数据集是根据头部姿态、面部状态和面部遮挡对人脸状态美感进行判断得到的;
构建基于自注意力机制的多任务学习模型;基于所述人脸状态美感判断数据集和人脸表情识别数据集,采用交替-联合训练方法对所述多任务学习模型进行训练,得到训练好的多任务学习模型;所述多任务包括人脸状态美感判断任务和人脸表情识别任务;
将待判断的人脸图像输入所述多任务学习模型,得到所述人脸图像的人脸状态判断结果;
所述采用交替-联合训练方法对所述多任务学习模型进行训练,包括:
根据所述人脸状态美感判断数据集和所述人脸表情识别数据集的大小,分别计算所述人脸状态美感判断任务和人脸表情识别任务的batch-size;
从人脸状态美感判断数据集中提取对应的batch-size大小的训练集输入所述多任务学习模型,根据模型输出结果计算人脸状态美感判断任务的损失;
从人脸表情识别数据集中提取对应的batch-size大小的训练集输入所述多任务学习模型,根据模型输出结果计算人脸表情识别任务的损失;
根据所述人脸状态美感判断任务的损失和所述人脸表情识别任务的损失计算联合损失,基于所述联合损失优化模型参数。
2.根据权利要求1所述的基于多任务学习的人脸状态判断方法,其特征在于,所述基于自注意力机制的多任务学习模型包括共享特征提取模块、自注意力机制模块和多任务学习模块;
所述共享特征提取模块用于提取图像特征;
所述自注意力机制模块用于为提取的图像特征赋予权重,得到加权图像特征;
所述多任务学习模块包括人脸状态美感判断子模块和人脸表情识别子模块;所述人脸状态美感判断子模块用于根据所述加权图像特征进行人脸状态美感判断;所述人脸表情识别子模块用于根据所述加权图像特征进行人脸表情识别。
3.根据权利要求2所述的基于多任务学习的人脸状态判断方法,其特征在于,所述共享特征提取模块包括卷积层、第一残差块和两个第二残差块;
所述第一残差块包括两个串联的第一残差子块,每个所述第一残差子块均包括两个卷积层、两个批量归一化层和一个激活层;
每个所述第二残差块包括两个串联的残差子块,每个所述残差子块的主分支均包括两个卷积层、两个批量归一化层和一个激活层;第一个残差子块的辅助分支还包含一个卷积层和一个批量归一化层。
4.根据权利要求2所述的基于多任务学习的人脸状态判断方法,其特征在于,所述自注意力机制模块用于为提取的图像特征赋予权重,得到加权图像特征,包括:
将共享特征提取模块提取的每张特征图转化为一维特征向量;将所有特征图对应的一维特征向量组成自注意力机制中的Q、K和V矩阵;
基于所述Q、K和V矩阵采用多头自注意力机制计算得到加权特征矩阵;
将所述加权特征矩阵转化为二维特征图,得到加权图像特征。
5.根据权利要求2所述的基于多任务学习的人脸状态判断方法,其特征在于,所述人脸状态美感判断子模块和人脸表情识别子模块均包括依次连接的第三残差块、自适应平均池化层和全连接层;
所述第三残差块包括两个串联的残差子块,所述第三残差块的两个残差子块的主分支均包括两个卷积层、两个批量归一化层和一个激活层;第一个残差子块的辅助分支还包含一个卷积层和一个批量归一化层。
6.一种基于多任务学习的人脸状态判断系统,其特征在于,包括以下模块:
数据集获取模块,用于分别获取人脸状态美感判断数据集和人脸表情识别数据集;所述人脸状态美感判断数据集是根据头部姿态、面部状态和面部遮挡对人脸状态美感进行判断得到的;
模型训练模块,用于构建基于自注意力机制的多任务学习模型;基于所述人脸状态美感判断数据集和人脸表情识别数据集,采用交替-联合训练方法对所述多任务学习模型进行训练,得到训练好的多任务学习模型;所述多任务包括人脸状态美感判断任务和人脸表情识别任务;
人脸状态判断模块,用于将待判断的人脸图像输入所述多任务学习模型,得到所述人脸图像的人脸状态判断结果;
所述模型训练模块采用交替-联合训练方法对所述多任务学习模型进行训练,包括:
根据所述人脸状态美感判断数据集和所述人脸表情识别数据集的大小,分别计算所述人脸状态美感判断任务和人脸表情识别任务的batch-size;
从人脸状态美感判断数据集中提取对应的batch-size大小的训练集输入所述多任务学习模型,根据模型输出结果计算人脸状态美感判断任务的损失;
从人脸表情识别数据集中提取对应的batch-size大小的训练集输入所述多任务学习模型,根据模型输出结果计算人脸表情识别任务的损失;
根据所述人脸状态美感判断任务的损失和所述人脸表情识别任务的损失计算联合损失,基于所述联合损失优化模型参数。
7.根据权利要求6所述的基于多任务学习的人脸状态判断系统,其特征在于,所述模型训练模块构建的自注意力机制的多任务学习模型包括共享特征提取模块、自注意力机制模块和多任务学习模块;
所述共享特征提取模块用于提取图像特征;
所述自注意力机制模块用于为提取的图像特征赋予权重,得到加权图像特征;
所述多任务学习模块包括人脸状态美感判断子模块和人脸表情识别子模块;所述人脸状态美感判断子模块用于根据所述加权图像特征进行人脸状态美感判断;所述人脸表情识别子模块用于根据所述加权图像特征进行人脸表情识别。
8.根据权利要求7所述的基于多任务学习的人脸状态判断系统,其特征在于,所述共享特征提取模块包括卷积层、第一残差块和两个第二残差块;
所述第一残差块包括两个串联的第一残差子块,每个所述第一残差子块均包括两个卷积层、两个批量归一化层和一个激活层;
每个所述第二残差块包括两个串联的残差子块,每个所述残差子块的主分支均包括两个卷积层、两个批量归一化层和一个激活层;第一个残差子块的辅助分支还包含一个卷积层和一个批量归一化层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210413009.XA CN114511918B (zh) | 2022-04-20 | 2022-04-20 | 一种基于多任务学习的人脸状态判断方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210413009.XA CN114511918B (zh) | 2022-04-20 | 2022-04-20 | 一种基于多任务学习的人脸状态判断方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114511918A CN114511918A (zh) | 2022-05-17 |
CN114511918B true CN114511918B (zh) | 2022-07-05 |
Family
ID=81554621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210413009.XA Active CN114511918B (zh) | 2022-04-20 | 2022-04-20 | 一种基于多任务学习的人脸状态判断方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114511918B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119689A (zh) * | 2019-04-18 | 2019-08-13 | 五邑大学 | 一种基于多任务迁移学习的人脸美丽预测方法 |
CN110414489A (zh) * | 2019-08-21 | 2019-11-05 | 五邑大学 | 一种基于多任务学习的人脸美丽预测方法 |
CN110796166A (zh) * | 2019-09-25 | 2020-02-14 | 浙江大学 | 一种基于注意力机制的多任务图像处理方法 |
CN112562784A (zh) * | 2020-12-14 | 2021-03-26 | 中山大学 | 一种结合多任务学习和自注意力机制的蛋白质功能预测方法 |
CN113095201A (zh) * | 2021-04-07 | 2021-07-09 | 西北工业大学 | 基于人脸不同区域间自注意力和不确定性加权多任务学习的au程度估计模型建立方法 |
CN113569732A (zh) * | 2021-07-27 | 2021-10-29 | 厦门理工学院 | 基于并行共享多任务网络的人脸属性识别方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11037035B2 (en) * | 2019-06-04 | 2021-06-15 | Beijing Institute Of Technology | Multi-task learning incorporating dependencies method for bionic eye's face attribute recognition |
-
2022
- 2022-04-20 CN CN202210413009.XA patent/CN114511918B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119689A (zh) * | 2019-04-18 | 2019-08-13 | 五邑大学 | 一种基于多任务迁移学习的人脸美丽预测方法 |
CN110414489A (zh) * | 2019-08-21 | 2019-11-05 | 五邑大学 | 一种基于多任务学习的人脸美丽预测方法 |
CN110796166A (zh) * | 2019-09-25 | 2020-02-14 | 浙江大学 | 一种基于注意力机制的多任务图像处理方法 |
CN112562784A (zh) * | 2020-12-14 | 2021-03-26 | 中山大学 | 一种结合多任务学习和自注意力机制的蛋白质功能预测方法 |
CN113095201A (zh) * | 2021-04-07 | 2021-07-09 | 西北工业大学 | 基于人脸不同区域间自注意力和不确定性加权多任务学习的au程度估计模型建立方法 |
CN113569732A (zh) * | 2021-07-27 | 2021-10-29 | 厦门理工学院 | 基于并行共享多任务网络的人脸属性识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114511918A (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325155B (zh) | 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法 | |
Sun et al. | Lattice long short-term memory for human action recognition | |
CN110110624B (zh) | 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法 | |
CN110414432A (zh) | 对象识别模型的训练方法、对象识别方法及相应的装置 | |
Zhang et al. | MU-GAN: Facial attribute editing based on multi-attention mechanism | |
CN113780249B (zh) | 表情识别模型的处理方法、装置、设备、介质和程序产品 | |
CN111862294A (zh) | 基于ArcGAN网络的手绘3D建筑自动上色网络结构及方法 | |
Yu et al. | Accelerating deep unsupervised domain adaptation with transfer channel pruning | |
CN115457169A (zh) | 一种语音驱动的人脸动画生成方法及系统 | |
Gupta et al. | Rv-gan: Recurrent gan for unconditional video generation | |
CN114581502A (zh) | 基于单目图像的三维人体模型联合重建方法、电子设备及存储介质 | |
KR102357000B1 (ko) | 인공 신경망 기반의 비정제 동영상에서의 행동 인식 방법 및 장치 | |
CN113255551A (zh) | 一种人脸编辑器的训练、人脸编辑、直播方法及相关装置 | |
CN114511912A (zh) | 基于双流卷积神经网络的跨库微表情识别方法及装置 | |
CN110415261B (zh) | 一种分区域训练的表情动画转换方法及系统 | |
CN113239866B (zh) | 一种时空特征融合与样本注意增强的人脸识别方法及系统 | |
CN111401116A (zh) | 基于增强卷积和空时lstm网络的双模态情感识别方法 | |
CN112528077B (zh) | 基于视频嵌入的视频人脸检索方法及系统 | |
CN113705384A (zh) | 一种考虑局部时空特性和全局时序线索的面部表情识别方法 | |
CN114511918B (zh) | 一种基于多任务学习的人脸状态判断方法和系统 | |
CN110782503B (zh) | 一种基于两分支深度相关网络的人脸图像合成方法和装置 | |
CN113313133A (zh) | 一种生成对抗网络的训练方法、动画图像生成方法 | |
CN116167015A (zh) | 一种基于联合交叉注意力机制的维度情感分析方法 | |
EP4164221A1 (en) | Processing image data | |
CN117093733A (zh) | 媒体分类模型的训练方法、媒体数据分类方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230506 Address after: 9 Banbi Street Village, Baishan Town, Changping District, Beijing, 102206 Patentee after: Beijing Sunshine Cloud Vision Technology Co.,Ltd. Address before: 100024 Beijing City, Chaoyang District, No. 1 East Street Patentee before: COMMUNICATION University OF CHINA |