CN113392822A - 基于特征分离表征学习的面部运动单元检测方法及系统 - Google Patents

基于特征分离表征学习的面部运动单元检测方法及系统 Download PDF

Info

Publication number
CN113392822A
CN113392822A CN202110949117.4A CN202110949117A CN113392822A CN 113392822 A CN113392822 A CN 113392822A CN 202110949117 A CN202110949117 A CN 202110949117A CN 113392822 A CN113392822 A CN 113392822A
Authority
CN
China
Prior art keywords
motion
feature
face
head
facial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110949117.4A
Other languages
English (en)
Other versions
CN113392822B (zh
Inventor
喻莉
杜聪炬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202110949117.4A priority Critical patent/CN113392822B/zh
Publication of CN113392822A publication Critical patent/CN113392822A/zh
Application granted granted Critical
Publication of CN113392822B publication Critical patent/CN113392822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于特征分离表征学习的面部运动单元检测方法及系统,属于图像处理领域,方法包括:从训练视频中选取三帧包含人脸的图像并输入至特征分离编码器,得到与各图像对应的个人身份特征图、第一面部运动特征图和第一头部姿态运动特征图;对各第一面部运动特征图和各第一头部姿态运动特征图分别依次进行拼接和解码处理,并基于解码结果重构生成头部运动特征;以头部运动特征为采样器,对选取的第一帧图像进行采样,得到目标图像;以目标图像与选取的最后一帧图像相似度最高为目标,训练特征分离编码器,训练后的特征分离编码器用于对目标图片进行特征分离。分离出与面部运动特征无关的信息,提高面部运动单元检测准确率。

Description

基于特征分离表征学习的面部运动单元检测方法及系统
技术领域
本发明属于图像处理领域,更具体地,涉及一种基于特征分离表征学习的面部运动单元检测方法及系统。
背景技术
人类的面部表情是由面部肌肉的运动来体现的。美国心理学家艾克曼教授在20世纪60年代发布了面部运动编码系统(Facial Action Coding System,FACS),定义了人类面部的几十组运动单元(Action Unit,AU),每组AU由一块或多块肌肉的运动组成。FACS对每种AU定义了A到E五个级别的强度,各种AU之间自由组合,理论上人脸可以表达一万多种表情。AU和面部表情的联系十分紧密,可将表情分解为不同AU的组合,剖析人脸表情在面部的表象,把表情分解成具体的面部肌肉的运动,也即AU运动,并且给出了识别和衡量表情的方法与基准。
FACS对AU的定义是独立于其它假设和解释的,仅依靠解剖学上肌肉分布与运动特征,而不是根据特定面部表情的假设,为面部表情提供了更客观、更细粒度的描述,对于面部表情的分析更为直观并且更具有可解释性。因此,相对于通过人类语言的表情标签方式主观表达表情,可以通过一系列固定的人脸参数表示表情和人脸的行为。使用AU检测的方式表达面部表情框架,可以避免因为观测者不同引入标注的歧义性。
面部肌肉运动是人脸的局部运动,而运动信息无论在有没有标签的数据中都是容易获取的,通过运动信息来学习面部运动单元的特征是可行的。然而,实际应用场景中,视频中检测到的运动信息不仅包含面部局部肌肉运动特征,往往还融合了头部姿态的运动和个人的身份特征信息,从而引入了误差,导致面部运动单元检测的错误率较高。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于特征分离表征学习的面部运动单元检测方法及系统,其目的在于通过分离头部姿态运动、面部运动和个人身份特征,从而解决由于混入面部运动无关信息引入误差导致难以发现人脸潜在情感的问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于特征分离表征学习的面部运动单元检测方法,包括:S1,从训练视频中选取三帧包含人脸的图像,并将各所述图像分别输入至特征分离编码器,得到与各所述图像对应的个人身份特征图、第一面部运动特征图和第一头部姿态运动特征图;S2,对各所述第一面部运动特征图和各所述第一头部姿态运动特征图分别依次进行拼接和解码处理,并基于解码结果重构生成头部运动特征;S3,以所述头部运动特征为采样器,对所述S1中选取的第一帧图像进行采样,得到目标图像;S4,以所述目标图像与所述S1中选取的最后一帧图像相似度最高为目标,训练所述特征分离编码器,训练后的特征分离编码器用于对目标图片进行特征分离。
更进一步地,所述方法还包括:利用训练后的特征分离编码器对目标图片进行特征分离,得到分离的个人身份特征、面部运动特征和头部姿态运动特征;将所述面部运动特征输入面部运动单元分类器,生成与所述面部运动特征相应的预测结果。
更进一步地,所述训练视频包括起始帧、中间帧、峰值帧和结束帧,所述S1中从训练视频中选取三帧包含人脸的图像包括:利用随机选择法,在所述中间帧、所述起始帧中间的帧与所述起始帧之间选取第一帧图像,在所述第一帧图像与所述中间帧之间选取第二帧图像,在所述中间帧、所述峰值帧中间的帧与所述峰值帧之间选取第三帧图像。
更进一步地,所述S1中选取图像之后包括:将各所述图像分别剪裁为预设尺寸且包含所述人脸的人脸图像,将各所述人脸图像分别输入至所述特征分离编码器。
更进一步地,所述解码结果包括第二面部运动特征图、面部运动置信度图、第二头部姿态运动特征图和头部姿态运动置信度图,所述S2中根据解码结果重构生成头部运动特征包括:将所述第二面部运动特征图与所述面部运动置信度图做像素级别相乘,得到面部运动特征;将所述第二头部姿态运动特征图与所述头部姿态运动置信度图做像素级别相乘,得到头部姿态运动特征;将所述面部运动特征与所述头部姿态运动特征做像素级别相加,得到所述头部运动特征。
更进一步地,所述S2中的拼接和解码处理包括:对各所述第一面部运动特征图进行特征拼接生成面部肌肉运动嵌入层,将所述面部肌肉运动嵌入层输入面部运动解码器进行解码,得到第二面部运动特征图和面部运动置信度图;对各所述第一头部姿态运动特征图进行特征拼接生成头部姿态嵌入层,将所述头部姿态嵌入层输入头部姿态运动解码器进行解码,得到第二头部姿态运动特征图和头部姿态运动置信度图。
更进一步地,所述S4中训练过程中的综合损失函数
Figure 161221DEST_PATH_IMAGE001
为:
Figure 736076DEST_PATH_IMAGE002
Figure 663580DEST_PATH_IMAGE003
Figure 349908DEST_PATH_IMAGE004
Figure 730074DEST_PATH_IMAGE005
Figure 510948DEST_PATH_IMAGE006
Figure 542226DEST_PATH_IMAGE007
其中,
Figure 914302DEST_PATH_IMAGE008
为第一损失权重系数,
Figure 532496DEST_PATH_IMAGE009
为第二损失权重系数,
Figure 382641DEST_PATH_IMAGE010
为第三损失权重系数,
Figure 19158DEST_PATH_IMAGE011
为第四损失权重系数,
Figure 548753DEST_PATH_IMAGE012
为第五损失权重系数,
Figure 637932DEST_PATH_IMAGE013
Figure 26188DEST_PATH_IMAGE014
分别为所述目标图像的宽和高,
Figure 267945DEST_PATH_IMAGE015
为模型L1范数损失,
Figure 716243DEST_PATH_IMAGE016
为面部运动特征相关的L1范数损失,
Figure 807565DEST_PATH_IMAGE017
为模型L2范数损失,
Figure 265091DEST_PATH_IMAGE018
为个人身份特征相关的softmax交叉熵损失,
Figure 610622DEST_PATH_IMAGE019
为面部运动特征相关的softmax交叉熵损失,
Figure 980554DEST_PATH_IMAGE020
为所述目标图像,
Figure 44325DEST_PATH_IMAGE021
为所述S1中选取的第三帧图像,
Figure 551880DEST_PATH_IMAGE022
为面部运动位移,
Figure 17497DEST_PATH_IMAGE023
Figure 89489DEST_PATH_IMAGE024
Figure 640556DEST_PATH_IMAGE025
分别为
Figure 174306DEST_PATH_IMAGE026
输入所述特征分离编码器后得到的头部姿态运动特征、个人身份特征、面部运动特征,
Figure 743696DEST_PATH_IMAGE027
Figure 970278DEST_PATH_IMAGE028
Figure 743062DEST_PATH_IMAGE029
分别为
Figure 565656DEST_PATH_IMAGE021
输入所述特征分离编码器后得到的头部姿态运动特征、个人身份特征、面部运动特征,
Figure 5864DEST_PATH_IMAGE030
为真实身份标签,
Figure 921124DEST_PATH_IMAGE031
为预测身份标签,
Figure 181204DEST_PATH_IMAGE032
为样本数量,
Figure 56756DEST_PATH_IMAGE033
为第
Figure 898941DEST_PATH_IMAGE034
个样本的真实身份标签,
Figure 716594DEST_PATH_IMAGE035
为第
Figure 995128DEST_PATH_IMAGE036
个样本的预测身份标签,
Figure 674371DEST_PATH_IMAGE037
为第
Figure 839904DEST_PATH_IMAGE038
个样本的第
Figure 579190DEST_PATH_IMAGE039
个标签的真实运动单元标签,
Figure 60201DEST_PATH_IMAGE040
为第
Figure 543134DEST_PATH_IMAGE036
个样本的第
Figure 563174DEST_PATH_IMAGE039
个标签的预测运动单元标签。
更进一步地,所述目标图像为:
Figure 942203DEST_PATH_IMAGE041
其中,
Figure 664171DEST_PATH_IMAGE026
为所述目标图像,
Figure 934484DEST_PATH_IMAGE042
为所述S1中选取的第一帧图像,
Figure 58298DEST_PATH_IMAGE043
为面部运动置信度,
Figure 139387DEST_PATH_IMAGE022
为面部运动位移,
Figure 99384DEST_PATH_IMAGE044
为头部姿态运动置信度,
Figure 658541DEST_PATH_IMAGE045
为头部姿态运动位移。
按照本发明的另一个方面,提供了一种基于特征分离表征学习的面部运动单元检测系统,包括:选取及编码模块,用于从训练视频中选取三帧包含人脸的图像,并将各所述图像分别输入至特征分离编码器,得到与各所述图像对应的个人身份特征图、第一面部运动特征图和第一头部姿态运动特征图;解码及重构模块,用于对各所述第一面部运动特征图和各所述第一头部姿态运动特征图分别依次进行拼接和解码处理,并基于解码结果重构生成头部运动特征;采样模块,用于以所述头部运动特征为采样器,对所述选取及编码模块中选取的第一帧图像进行采样,得到目标图像;训练模块,用于以所述目标图像与所述选取及编码模块中选取的最后一帧图像相似度最高为目标,训练所述特征分离编码器,训练后的特征分离编码器用于对目标图片进行特征分离。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:提出了一种特征分离编码器的模型,可以分离头部姿态运动、面部运动和个人身份特征,通过特征重建的方式验证运动特征提取的有效性,通过个人身份特征分类器验证身份特征提取的有效性,通过不断迭代训练,最终形成一个能够有效提取用于面部运动单元检测的编码器,从而解决由于混入面部运动无关信息引入误差导致难以发现人脸潜在情感的问题。
附图说明
图1为本发明实施例提供的基于特征分离表征学习的面部运动单元检测方法的流程图。
图2为本发明实施例提供的视频位置定义示意图。
图3为本发明实施例提供的训练过程中的模型结构示意图。
图4为本发明实施例提供的基于特征分离表征学习的面部运动单元检测系统的框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
图1为本发明实施例提供的基于特征分离表征学习的面部运动单元检测方法的流程图。参阅图1,结合图2-图3,对本实施例中基于特征分离表征学习的面部运动单元检测方法进行详细说明,方法包括操作S1-操作S4。
操作S1,从训练视频中选取三帧包含人脸的图像,并将各图像分别输入至特征分离编码器,得到与各图像对应的个人身份特征图、第一面部运动特征图和第一头部姿态运动特征图。
本实施例中的训练视频为包含有动态表情的短表情视频,大量的训练视频形成训练数据集。动态表情训练数据集的一个subject中包含一段表情视频或者一段表情视频提取的帧序列。
训练视频包括起始帧、中间帧、峰值帧和结束帧,参阅图2,表情起始帧为onset帧,表情中间帧为middle帧,表情峰值帧为apex帧,表情结束帧为offset帧,middle帧为onset帧与apex帧中间的帧,middle帧与onset帧中间的帧标记为A帧,middle帧与apex帧中间的帧标记为B帧。
本实施例中,从训练视频中选取三帧包含人脸的图像并执行后续操作,这三帧图像依次为Is1、Is2、It,其中,Is1为第一帧图像,Is2为第二帧图像,It为第三帧图像。
三帧图像的选取策略为:利用随机选择法,在A帧与onset帧之间选取第一帧图像Is1,离onset帧越近被选取的概率越大;在第一帧图像Is1与middle帧之间随机选取第二帧图像Is2,离第一帧图像Is1越近被选取的概率越大;在B帧与apex帧之间随机选取第三帧图像It,离apex帧越近被选取的概率越大。
本实施例中,提出一种特征分离自动编码器(Feature DisentangledAutoencoder,FDAE),简称为特征分离编码器,可以分离出个人身份特征、面部运动特征和头部姿态运动特征,并通过运动特征重建的方式验证运动特征提取的有效性,通过个人身份特征分类器验证身份特征提取的有效性。通过不断的迭代训练,最终形成一个能够有效提取面部运动特征的编码器。
操作S1中,将各图像分别输入至特征分离编码器之前,可以将选取的各图像分别剪裁为预设尺寸且包含人脸的人脸图像,并将剪裁后得到的人脸图像分别输入至特征分离编码器,分别生成各自的特征图。预设尺寸例如为224*224。
每个图像编码后生成的特征图分为三个特征图,如图3所示。其中,fx表示个人身份特征图,ax表示面部运动特征图,px表示头部姿态运动特征图。例如第一帧图像Is1对应的特征图分别为fs1、as1、ps1,第二帧图像Is2对应的特征图分别为fs2、as2、ps2,第三帧图像It对应的特征图分别为ft、at、pt
操作S2,对各第一面部运动特征图和各第一头部姿态运动特征图分别依次进行拼接和解码处理,并基于解码结果重构生成头部运动特征。
根据本发明的实施例,操作S2中的拼接和解码处理包括:对各第一面部运动特征图进行特征拼接生成面部肌肉运动嵌入层,将面部肌肉运动嵌入层输入面部运动解码器进行解码,得到第二面部运动特征图和面部运动置信度图;对各第一头部姿态运动特征图进行特征拼接生成头部姿态嵌入层,将头部姿态嵌入层输入头部姿态运动解码器进行解码,得到第二头部姿态运动特征图和头部姿态运动置信度图。
参阅图3,通过特征拼接方式生成面部肌肉运动嵌入层[as1,as2,at],送入面部运动解码器Da,生成第二面部运动特征图(面部运动位移)和面部运动置信度图。第二面部运动特征图表示Is1、 Is2和It的面部肌肉运动特征,面部运动置信度图表示面部肌肉运动信息的置信度。
通过特征拼接方式生成头部姿态嵌入层[ps1,ps2,pt],送入头部姿态运动解码器Dp,生成第二头部姿态运动特征图和头部姿态运动置信度图。第二头部姿态运动特征图表示Is1、 Is2和It的头部姿态运动特征,头部姿态运动置信度图表示头部姿态运动信息的置信度。
进一步地,还可以通过特征拼接方式生成个人身份特征嵌入层[fs1,fs2,ft],送入人脸分类器,分类得到subject的ID。
参阅图3,操作S2中根据解码结果重构生成头部运动特征包括:将第二面部运动特征图与面部运动置信度图做像素级别相乘,得到面部运动特征;将第二头部姿态运动特征图与头部姿态运动置信度图做像素级别相乘,得到头部姿态运动特征;将面部运动特征与头部姿态运动特征做像素级别相加,得到头部运动特征。
操作S3,以头部运动特征为采样器,对操作S1中选取的第一帧图像进行采样,得到目标图像。
以头部运动特征为采样器,对第一帧图像Is1进行采样,得到目标图像
Figure 371282DEST_PATH_IMAGE046
,用于验证头部运动特征的好坏。采样得到的目标图像为:
Figure 875469DEST_PATH_IMAGE047
其中,
Figure 572030DEST_PATH_IMAGE046
为目标图像,
Figure 934878DEST_PATH_IMAGE048
为第一帧图像,
Figure 518437DEST_PATH_IMAGE049
为位置
Figure 941328DEST_PATH_IMAGE050
处的面部运动置信度,
Figure 374452DEST_PATH_IMAGE051
为位置
Figure 540992DEST_PATH_IMAGE052
处的面部运动位移,
Figure 493904DEST_PATH_IMAGE053
为位置
Figure 104008DEST_PATH_IMAGE054
处的头部姿态运动置信度,
Figure 509582DEST_PATH_IMAGE055
为位置
Figure 460570DEST_PATH_IMAGE050
处的头部姿态运动位移,
Figure 267989DEST_PATH_IMAGE056
Figure 314574DEST_PATH_IMAGE057
Figure 473023DEST_PATH_IMAGE058
Figure 715785DEST_PATH_IMAGE059
操作S4,以目标图像与操作S1中选取的最后一帧图像相似度最高为目标,训练特征分离编码器,训练后的特征分离编码器用于对目标图片进行特征分离。
头部运动采样器作为头部运动特征,对Is1采样后生成的目标图像
Figure 158137DEST_PATH_IMAGE060
应与It接近,因此训练中对模型添加L1范数损失:
Figure 93732DEST_PATH_IMAGE061
其中,
Figure 224630DEST_PATH_IMAGE062
为模型L1范数损失。
头部运动采样器对第一帧图像Is1采样后生成的目标图像
Figure 523281DEST_PATH_IMAGE063
应与It接近,那么目标图像
Figure 351297DEST_PATH_IMAGE046
应与It分别通过特征分离编码器生成的特征嵌入层应相似,因此训练中为模型添加L2范数损失:
Figure 723373DEST_PATH_IMAGE064
其中,
Figure 75988DEST_PATH_IMAGE065
为模型L2范数损失,
Figure 926132DEST_PATH_IMAGE066
Figure 828229DEST_PATH_IMAGE067
Figure 922323DEST_PATH_IMAGE068
分别为
Figure 11501DEST_PATH_IMAGE063
输入特征分离编码器后得到的头部姿态运动特征、个人身份特征、面部运动特征,
Figure 665337DEST_PATH_IMAGE069
Figure 907093DEST_PATH_IMAGE070
Figure 355392DEST_PATH_IMAGE071
分别为
Figure 446714DEST_PATH_IMAGE072
输入特征分离编码器后得到的头部姿态运动特征、个人身份特征、面部运动特征。
头部运动与面部肌肉运动相比较,头部运动是刚性运动,具有全局性和显著性,面部肌肉运动是非刚性运动,具有局部性和微弱性。因此,在训练过程中会强化面部运动相关运动特征的局部性和微弱性,即会对面部肌肉运动特征添加L1范式损失,保证面部肌肉运动的稀疏性(局部性)和微弱性,面部运动特征相关的L1范数损失为:
Figure 638661DEST_PATH_IMAGE073
其中,
Figure 249771DEST_PATH_IMAGE074
为面部运动特征相关的L1范数损失,
Figure 619703DEST_PATH_IMAGE075
为面部运动位移。
特征分离编码器会添加模型的个人身份特征分类器预测目标的身份特征编码,为个人身份特征引入softmax交叉熵损失函数:
Figure 683474DEST_PATH_IMAGE076
其中,
Figure 413533DEST_PATH_IMAGE018
为个人身份特征相关的softmax交叉熵损失,
Figure 131346DEST_PATH_IMAGE077
为真实身份标签,
Figure 187027DEST_PATH_IMAGE078
为预测身份标签,
Figure 206936DEST_PATH_IMAGE079
为样本数量,
Figure 756997DEST_PATH_IMAGE080
为第
Figure 342699DEST_PATH_IMAGE081
个样本的真实身份标签,
Figure 552969DEST_PATH_IMAGE082
为第
Figure 325753DEST_PATH_IMAGE081
个样本的预测身份标签。
特征分离编码器会添加模型的面部运动单元分类器预测目标的面部运动单元标签,为面部运动单元分类引入softmax交叉熵损失函数:
Figure 928773DEST_PATH_IMAGE083
其中,
Figure 854135DEST_PATH_IMAGE019
为面部运动特征相关的softmax交叉熵损失,
Figure 986039DEST_PATH_IMAGE084
为第
Figure 758036DEST_PATH_IMAGE085
个样本的第
Figure 164747DEST_PATH_IMAGE039
个标签的真实运动单元标签,
Figure 193882DEST_PATH_IMAGE086
为第
Figure 778579DEST_PATH_IMAGE081
个样本的第
Figure 525955DEST_PATH_IMAGE039
个标签的预测运动单元标签。
训练过程中的综合损失函数
Figure 454465DEST_PATH_IMAGE087
为:
Figure 603687DEST_PATH_IMAGE088
其中,
Figure 342973DEST_PATH_IMAGE089
为第一损失权重系数,
Figure 62798DEST_PATH_IMAGE090
为第二损失权重系数,
Figure 545732DEST_PATH_IMAGE091
为第三损失权重系数,
Figure 549460DEST_PATH_IMAGE092
为第四损失权重系数,
Figure 977424DEST_PATH_IMAGE093
为第五损失权重系数,
Figure 699392DEST_PATH_IMAGE094
Figure 471170DEST_PATH_IMAGE095
分别为目标图像的宽和高。
Figure 594984DEST_PATH_IMAGE089
Figure 676073DEST_PATH_IMAGE090
Figure 603446DEST_PATH_IMAGE091
Figure 428183DEST_PATH_IMAGE096
Figure 406503DEST_PATH_IMAGE097
例如分别为0.01、0.1、0.1、0.1、0.1。
本实施例中的,当特征分离编码器训练完成之后,方法还包括:利用训练后的特征分离编码器对目标图片进行特征分离,得到分离的个人身份特征、面部运动特征和头部姿态运动特征;将面部运动特征输入面部运动单元分类器,生成与该面部运动特征相应的预测结果。
本实施例中基于特征分离表征学习的面部运动单元检测方法可以用于司法讯问、驾驶员情绪检测、师生情绪监督、金融面签欺诈监督、讯问测谎监督、安保访客情绪分析、面试情绪监督等应用场合。
图4为本发明实施例提供的基于特征分离表征学习的面部运动单元检测系统的框图。参阅图4,该基于特征分离表征学习的面部运动单元检测系统400包括选取及编码模块410、解码及重构模块420、采样模块430以及训练模块440。
选取及编码模块410例如执行操作S1,用于从训练视频中选取三帧包含人脸的图像,并将各图像分别输入至特征分离编码器,得到与各图像对应的个人身份特征图、第一面部运动特征图和第一头部姿态运动特征图。
解码及重构模块420例如执行操作S2,用于对各第一面部运动特征图和各第一头部姿态运动特征图分别依次进行拼接和解码处理,并基于解码结果重构生成头部运动特征。
采样模块430例如执行操作S3,用于以头部运动特征为采样器,对选取及编码模块410中选取的第一帧图像进行采样,得到目标图像。
训练模块440例如执行操作S4,用于以目标图像与选取及编码模块410中选取的最后一帧图像相似度最高为目标,训练特征分离编码器,训练后的特征分离编码器用于对目标图片进行特征分离。
基于特征分离表征学习的面部运动单元检测系统400用于执行上述图1-图3所示实施例中的基于特征分离表征学习的面部运动单元检测方法。本实施例未尽之细节,请参阅前述图1-图3所示实施例中的基于特征分离表征学习的面部运动单元检测方法,此处不再赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于特征分离表征学习的面部运动单元检测方法,其特征在于,包括:
S1,从训练视频中选取三帧包含人脸的图像,并将各所述图像分别输入至特征分离编码器,得到与各所述图像对应的个人身份特征图、第一面部运动特征图和第一头部姿态运动特征图;
S2,对各所述第一面部运动特征图和各所述第一头部姿态运动特征图分别依次进行拼接和解码处理,并基于解码结果重构生成头部运动特征;
S3,以所述头部运动特征为采样器,对所述S1中选取的第一帧图像进行采样,得到目标图像;
S4,以所述目标图像与所述S1中选取的最后一帧图像相似度最高为目标,训练所述特征分离编码器,训练后的特征分离编码器用于对目标图片进行特征分离。
2.如权利要求1所述的基于特征分离表征学习的面部运动单元检测方法,其特征在于,所述方法还包括:
利用训练后的特征分离编码器对目标图片进行特征分离,得到分离的个人身份特征、面部运动特征和头部姿态运动特征;
将所述面部运动特征输入面部运动单元分类器,生成与所述面部运动特征相应的预测结果。
3.如权利要求1所述的基于特征分离表征学习的面部运动单元检测方法,其特征在于,所述训练视频包括起始帧、中间帧、峰值帧和结束帧,所述S1中从训练视频中选取三帧包含人脸的图像包括:
利用随机选择法,在所述中间帧、所述起始帧中间的帧与所述起始帧之间选取第一帧图像,在所述第一帧图像与所述中间帧之间选取第二帧图像,在所述中间帧、所述峰值帧中间的帧与所述峰值帧之间选取第三帧图像。
4.如权利要求1-3任一项所述的基于特征分离表征学习的面部运动单元检测方法,其特征在于,所述S1中选取图像之后包括:将各所述图像分别剪裁为预设尺寸且包含所述人脸的人脸图像,将各所述人脸图像分别输入至所述特征分离编码器。
5.如权利要求1所述的基于特征分离表征学习的面部运动单元检测方法,其特征在于,所述解码结果包括第二面部运动特征图、面部运动置信度图、第二头部姿态运动特征图和头部姿态运动置信度图,所述S2中根据解码结果重构生成头部运动特征包括:
将所述第二面部运动特征图与所述面部运动置信度图做像素级别相乘,得到面部运动特征;
将所述第二头部姿态运动特征图与所述头部姿态运动置信度图做像素级别相乘,得到头部姿态运动特征;
将所述面部运动特征与所述头部姿态运动特征做像素级别相加,得到所述头部运动特征。
6.如权利要求1或5所述的基于特征分离表征学习的面部运动单元检测方法,其特征在于,所述S2中的拼接和解码处理包括:
对各所述第一面部运动特征图进行特征拼接生成面部肌肉运动嵌入层,将所述面部肌肉运动嵌入层输入面部运动解码器进行解码,得到第二面部运动特征图和面部运动置信度图;
对各所述第一头部姿态运动特征图进行特征拼接生成头部姿态嵌入层,将所述头部姿态嵌入层输入头部姿态运动解码器进行解码,得到第二头部姿态运动特征图和头部姿态运动置信度图。
7.如权利要求1所述的基于特征分离表征学习的面部运动单元检测方法,其特征在于,所述S4中训练过程中的综合损失函数
Figure 11837DEST_PATH_IMAGE001
为:
Figure 132240DEST_PATH_IMAGE002
Figure 385015DEST_PATH_IMAGE003
Figure 983486DEST_PATH_IMAGE004
Figure 1121DEST_PATH_IMAGE005
Figure 10534DEST_PATH_IMAGE006
Figure 480830DEST_PATH_IMAGE007
其中,
Figure 148571DEST_PATH_IMAGE008
为第一损失权重系数,
Figure 269980DEST_PATH_IMAGE009
为第二损失权重系数,
Figure 201027DEST_PATH_IMAGE010
为第三损失权重系数,
Figure 673466DEST_PATH_IMAGE011
为第四损失权重系数,
Figure 613740DEST_PATH_IMAGE012
为第五损失权重系数,
Figure 340387DEST_PATH_IMAGE013
Figure 960112DEST_PATH_IMAGE014
分别为所述目标图像的宽和高,
Figure 873841DEST_PATH_IMAGE015
为模型L1范数损失,
Figure 804757DEST_PATH_IMAGE016
为面部运动特征相关的L1范数损失,
Figure 635179DEST_PATH_IMAGE017
为模型L2范数损失,
Figure 173607DEST_PATH_IMAGE018
为个人身份特征相关的softmax交叉熵损失,
Figure 823901DEST_PATH_IMAGE019
为面部运动特征相关的softmax交叉熵损失,
Figure 574819DEST_PATH_IMAGE020
为所述目标图像,
Figure 522397DEST_PATH_IMAGE021
为所述S1中选取的第三帧图像,
Figure 497306DEST_PATH_IMAGE022
为面部运动位移,
Figure 634895DEST_PATH_IMAGE023
Figure 455083DEST_PATH_IMAGE024
Figure 994518DEST_PATH_IMAGE025
分别为
Figure 405908DEST_PATH_IMAGE026
输入所述特征分离编码器后得到的头部姿态运动特征、个人身份特征、面部运动特征,
Figure 781525DEST_PATH_IMAGE027
Figure 654672DEST_PATH_IMAGE028
Figure 330504DEST_PATH_IMAGE029
分别为
Figure 647216DEST_PATH_IMAGE030
输入所述特征分离编码器后得到的头部姿态运动特征、个人身份特征、面部运动特征,
Figure 762327DEST_PATH_IMAGE031
为真实身份标签,
Figure 924318DEST_PATH_IMAGE032
为预测身份标签,
Figure 703924DEST_PATH_IMAGE033
为样本数量,
Figure 191537DEST_PATH_IMAGE034
为第
Figure 807327DEST_PATH_IMAGE035
个样本的真实身份标签,
Figure 22276DEST_PATH_IMAGE036
为第
Figure 141542DEST_PATH_IMAGE035
个样本的预测身份标签,
Figure 783745DEST_PATH_IMAGE037
为第
Figure 886830DEST_PATH_IMAGE035
个样本的第
Figure 902541DEST_PATH_IMAGE038
个标签的真实运动单元标签,
Figure 407471DEST_PATH_IMAGE039
为第
Figure 705729DEST_PATH_IMAGE040
个样本的第
Figure 545378DEST_PATH_IMAGE041
个标签的预测运动单元标签。
8.如权利要求1或7所述的基于特征分离表征学习的面部运动单元检测方法,其特征在于,所述目标图像为:
Figure 118441DEST_PATH_IMAGE042
其中,
Figure 195988DEST_PATH_IMAGE043
为所述目标图像,
Figure 196305DEST_PATH_IMAGE044
为所述S1中选取的第一帧图像,
Figure 8403DEST_PATH_IMAGE045
为面部运动置信度,
Figure 103267DEST_PATH_IMAGE046
为面部运动位移,
Figure 317210DEST_PATH_IMAGE047
为头部姿态运动置信度,
Figure 740626DEST_PATH_IMAGE048
为头部姿态运动位移。
9.一种基于特征分离表征学习的面部运动单元检测系统,其特征在于,包括:
选取及编码模块,用于从训练视频中选取三帧包含人脸的图像,并将各所述图像分别输入至特征分离编码器,得到与各所述图像对应的个人身份特征图、第一面部运动特征图和第一头部姿态运动特征图;
解码及重构模块,用于对各所述第一面部运动特征图和各所述第一头部姿态运动特征图分别依次进行拼接和解码处理,并基于解码结果重构生成头部运动特征;
采样模块,用于以所述头部运动特征为采样器,对所述选取及编码模块中选取的第一帧图像进行采样,得到目标图像;
训练模块,用于以所述目标图像与所述选取及编码模块中选取的最后一帧图像相似度最高为目标,训练所述特征分离编码器,训练后的特征分离编码器用于对目标图片进行特征分离。
CN202110949117.4A 2021-08-18 2021-08-18 基于特征分离表征学习的面部运动单元检测方法及系统 Active CN113392822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110949117.4A CN113392822B (zh) 2021-08-18 2021-08-18 基于特征分离表征学习的面部运动单元检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110949117.4A CN113392822B (zh) 2021-08-18 2021-08-18 基于特征分离表征学习的面部运动单元检测方法及系统

Publications (2)

Publication Number Publication Date
CN113392822A true CN113392822A (zh) 2021-09-14
CN113392822B CN113392822B (zh) 2021-10-29

Family

ID=77622891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110949117.4A Active CN113392822B (zh) 2021-08-18 2021-08-18 基于特征分离表征学习的面部运动单元检测方法及系统

Country Status (1)

Country Link
CN (1) CN113392822B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743388A (zh) * 2021-11-08 2021-12-03 武汉烽火信息集成技术有限公司 一种面部au关键点检测的方法、装置和电子设备
CN116311477A (zh) * 2023-05-15 2023-06-23 华中科技大学 一种面向跨身份一致性的面部运动单元检测模型构建方法
CN117576765A (zh) * 2024-01-15 2024-02-20 华中科技大学 一种基于分层特征对齐的面部动作单元检测模型构建方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321805A (zh) * 2019-06-12 2019-10-11 华中科技大学 一种基于时序关系推理的动态表情识别方法
CN111460981A (zh) * 2020-03-30 2020-07-28 山东大学 一种基于重构跨域视频生成对抗网络模型的微表情识别方法
US20200265219A1 (en) * 2017-09-18 2020-08-20 Board Of Trustees Of Michigan State University Disentangled representation learning generative adversarial network for pose-invariant face recognition
CN112200110A (zh) * 2020-10-19 2021-01-08 厦门大学 一种基于深度干扰分离学习的人脸表情识别方法
US20210073600A1 (en) * 2019-09-06 2021-03-11 Fujitsu Limited Image normalization for facial analysis
CN113033476A (zh) * 2021-04-19 2021-06-25 清华大学 一种跨姿态人脸识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200265219A1 (en) * 2017-09-18 2020-08-20 Board Of Trustees Of Michigan State University Disentangled representation learning generative adversarial network for pose-invariant face recognition
CN110321805A (zh) * 2019-06-12 2019-10-11 华中科技大学 一种基于时序关系推理的动态表情识别方法
US20210073600A1 (en) * 2019-09-06 2021-03-11 Fujitsu Limited Image normalization for facial analysis
CN111460981A (zh) * 2020-03-30 2020-07-28 山东大学 一种基于重构跨域视频生成对抗网络模型的微表情识别方法
CN112200110A (zh) * 2020-10-19 2021-01-08 厦门大学 一种基于深度干扰分离学习的人脸表情识别方法
CN113033476A (zh) * 2021-04-19 2021-06-25 清华大学 一种跨姿态人脸识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIANG XIANG等: "Linear Disentangled Representation Learning for Facial Actions", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 *
严经纬等: "面部运动单元检测研究综述", 《计算机应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743388A (zh) * 2021-11-08 2021-12-03 武汉烽火信息集成技术有限公司 一种面部au关键点检测的方法、装置和电子设备
CN116311477A (zh) * 2023-05-15 2023-06-23 华中科技大学 一种面向跨身份一致性的面部运动单元检测模型构建方法
CN117576765A (zh) * 2024-01-15 2024-02-20 华中科技大学 一种基于分层特征对齐的面部动作单元检测模型构建方法
CN117576765B (zh) * 2024-01-15 2024-03-29 华中科技大学 一种基于分层特征对齐的面部动作单元检测模型构建方法

Also Published As

Publication number Publication date
CN113392822B (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN113392822B (zh) 基于特征分离表征学习的面部运动单元检测方法及系统
CN110119757B (zh) 模型训练方法、视频类别检测方法、装置、电子设备和计算机可读介质
CN113343707B (zh) 一种基于鲁棒性表征学习的场景文本识别方法
Rouhou et al. Transformer-based approach for joint handwriting and named entity recognition in historical document
CN108537119B (zh) 一种小样本视频识别方法
CN115471851B (zh) 融合双重注意力机制的缅甸语图像文本识别方法及装置
CN109255284B (zh) 一种基于运动轨迹的3d卷积神经网络的行为识别方法
CN112668559A (zh) 一种多模态信息融合的短视频情感判定装置及方法
CN111104884A (zh) 一种基于两阶段神经网络模型的汉语唇语识别方法
CN110570845A (zh) 一种基于域不变特征的语音识别方法
CN116311483B (zh) 基于局部面部区域重构和记忆对比学习的微表情识别方法
CN116343190B (zh) 自然场景文字识别方法、系统、设备及存储介质
CN114170411A (zh) 一种融合多尺度信息的图片情感识别方法
CN113283336A (zh) 一种文本识别方法与系统
CN112163490A (zh) 一种基于场景图片的目标检测方法
Si et al. Speech2video: Cross-modal distillation for speech to video generation
CN115424310A (zh) 一种面向人脸重演中表情分离任务的弱标注学习方法
Wang et al. An audio-visual attention based multimodal network for fake talking face videos detection
CN113762261A (zh) 一种对图像的字符识别方法、装置、设备及介质
CN117409121A (zh) 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质
CN113780099B (zh) 一种基于对抗学习的半监督面部运动单元检测方法和系统
CN116091862A (zh) 一种画质识别方法、装置、设备、存储介质及产品
CN115661710A (zh) 一种视频描述生成方法、装置及存储介质
Pham et al. Vietnamese scene text detection and recognition using deep learning: An empirical study
CN113743306A (zh) 一种基于slowfast双帧速率的实时智能视频监控异常行为分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant