CN116311477A - 一种面向跨身份一致性的面部运动单元检测模型构建方法 - Google Patents

一种面向跨身份一致性的面部运动单元检测模型构建方法 Download PDF

Info

Publication number
CN116311477A
CN116311477A CN202310543543.7A CN202310543543A CN116311477A CN 116311477 A CN116311477 A CN 116311477A CN 202310543543 A CN202310543543 A CN 202310543543A CN 116311477 A CN116311477 A CN 116311477A
Authority
CN
China
Prior art keywords
facial
identity
embedded
image
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310543543.7A
Other languages
English (en)
Other versions
CN116311477B (zh
Inventor
喻莉
赵慧娟
何双江
杜聪炬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202310543543.7A priority Critical patent/CN116311477B/zh
Publication of CN116311477A publication Critical patent/CN116311477A/zh
Application granted granted Critical
Publication of CN116311477B publication Critical patent/CN116311477B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉与情感计算领域,具体涉及一种面向跨身份一致性的面部运动单元检测模型构建方法,包括:提出一种训练样本选择策略,提高每帧图像的困难正样本和困难负样本在训练样本集中的占比;还提出对比学习,在每次迭代训练时,计算第一对比损失,用于引导分离模块输出的相同身份的身份特征嵌入编码在空间中距离相近,不同身份的身份特征嵌入编码在空间中距离远离;计算第二对比损失,用于引导分离模块输出的相同面部运动单元标签的面部运动特征嵌入编码在空间中距离相近,不同面部运动单元标签的面部运动特征嵌入编码在空间中距离远离。本方法通过隐式地引入面部运动单元跨身份一致性定义先验知识,使得模型有效学习面部运动单元表征。

Description

一种面向跨身份一致性的面部运动单元检测模型构建方法
技术领域
本发明属于计算机视觉与情感计算领域,更具体地,涉及一种面向跨身份一致性的面部运动单元检测模型构建方法。
背景技术
面部表情是人与人之间互动的重要非语言方式,即传达情绪和发出理解、分歧和意图的信号。美国心理学家艾克曼教授在20世纪60年代发布了面部运动编码系统FACS,系统地定义了一套基于解剖的44个不重叠的面部原子肌肉运动,称为运动单元。它是客观和丰富的信号判断,描述几乎所有视觉上可辨别的面部动作的运动外观表现、实现方法以及强度等级等。面部运动单元和面部表情联系十分紧密,可以将面部表情分解为客观观察地面部运动的组合,剖析人类面部呈现的面部表情的外观变化。例如,开心的面部表情可以分解为AU6(脸颊抬起)和AU12(唇角拉动)。
作为情感计算领域最重要的研究课题之一,自动面部动作单元检测已经被研究了几十年,它在面部行为分析的各种应用中很有前景,例如司机疲劳检测、病人疼痛估计和谈判。人类具有通过他人面部动作的外观变化来识别其表情而忽略身份的变化的能力。但是,对于计算机来说这是一件非常困难的事情,因为每个个体都有其个人动作习惯和表达习惯,以及不同的面部骨骼结构和皮肤外观,导致了对于面部运动特征的识别不同个体间存在着极大的数据分布差异。现有的许多方法,通过基于面部结构特性的整体特征或者局部特征来构建面部运动单元表征以完成面部运动单元检测,获得了一定的识别能力。然而,它们在实现上大都忽略了个体身份的差异在面部运动单元检测中引入的干扰信号,使得可能通过学习与个体身份相关的差异信息而非与跨身份一致的面部运动特征相关的信息完成面部运动单元的检测,从而使得识别系统泛化能力不强,也就是说,它们在已存的具有少量身份的数据集上学习到的特征,对于训练中未见的新身份的个体做面部运动单元识别时,识别的准确率不高。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种面向跨身份一致性的面部运动单元检测模型构建方法,其目的在于学习跨身份一致的面部运动特征,用于面部运动单元检测。
为实现上述目的,按照本发明的一个方面,提供了一种面向跨身份一致性的面部运动单元检测模型构建方法,包括:构建训练样本集,训练包括用于分离面部运动特征和身份特征的分离模块的面部运动单元多标签学习检测网络,得到面部运动单元检测模型;
其中,每个训练样本包括两帧包含人脸的第一图像,并采用如下两两训练样本成对构建的方式构建训练样本集:从训练视频中,首先随机选取一帧图像作为锚点样本,继续选取与所述锚点样本身份相同且无相同面部运动单元标签的另一帧图像,作为所述锚点样本的困难负样本,与所述锚点样本构成一个训练样本;继续选取与所述锚点样本身份不同且相同面部运动单元标签数量占总面部运动单元总数量的比例大于预设值的另一帧图像,作为所述锚点样本的困难正样本,接着选择与所述困难正样本身份相同且无相同面部运动单元标签的另一帧图像,作为所述困难正样本的困难负样本,与所述困难正样本构成另一个训练样本,完成一对训练样本的构建;
所述分离模块用于编码输出每帧图像的身份特征嵌入编码和面部运动单元嵌入编码;在训练过程的参数更新中所基于的损失计算包括:分别将当前次迭代所输入的一批训练样本中各第一图像对应的身份特征嵌入编码中,每个身份特征嵌入编码作为对比锚点,将与对比锚点身份标签一致的其它身份特征嵌入编码作为正样本,剩余身份特征嵌入编码作为负样本,进行身份特征嵌入编码的对比损失计算,用于实现身份特征嵌入编码的类内紧凑型和类间可判别性;分别将所述一批训练样本中各第一图像对应的所有面部运动单元嵌入编码中,每个面部运动单元嵌入编码作为对比锚点,与该对比锚点标签相同的其它所有面部运动单元嵌入编码作为正样本,剩余的面部运动单元嵌入编码作为负样本,进行面部运动单元嵌入编码的对比损失计算,用于实现面部运动单元嵌入编码的类内紧凑型和类间可判别性。
进一步,所述困难正样本的选取方式具体为:
根据相同身份的短时间隔相似性和长时间隔不相似性的面部视频信号时域特性进行选取,其中,若锚点样本的面部运动单元标签有多个,选取至少包含两个面部运动单元标签与锚点样本的相同的视频帧,作为锚点样本的困难正样本;若锚点样本的面部运动单元标签只有一个,则选择与描点样本的面部运动单元标签相同的视频帧,作为锚点样本的困难正样本;或者,根据面部运动引起的面部外观变化远比不同身份引起的外观变化微弱的面部视频信号外观变化特性,在锚点样本的前后预设时间范围内,以预设的概率随机采样选择另一帧图像,作为锚点样本的困难正样本;
所述困难负样本的选取方式具体为:
根据相同身份的短时间隔相似性和长时间隔不相似性的面部视频信号时域特性,设定时间间隔为预设时间,从距离锚点样本的预设时间之前或者预设时间之后随机选取另一帧图像,作为锚点样本的困难负样本。
进一步,身份特征嵌入编码的对比损失计算方式为:
Figure SMS_1
其中,
Figure SMS_4
表示所述一批训练样本中各第一图像对应的身份特征嵌入编码中与第i个身份特征嵌入编码的身份标签相同的其它身份特征嵌入编码的下标集合;/>
Figure SMS_5
表示其基数;/>
Figure SMS_6
表示第i个身份特征嵌入编码,作为身份特征对比学习中的对比锚点;/>
Figure SMS_3
表示所述一批训练样本中各第一图像对应的身份特征嵌入编码中与/>
Figure SMS_8
身份标签相同的其它身份特征嵌入编码中的一个;/>
Figure SMS_9
表示所述一批训练样本中各第一图像对应的身份特征嵌入编码中除了/>
Figure SMS_10
以外的其它身份特征嵌入编码;/>
Figure SMS_2
为第p个身份标签的权重;/>
Figure SMS_7
是身份特征的温度参数。
进一步,面部运动单元嵌入编码的对比损失表示为:
Figure SMS_11
其中,C表示面部运动单元的标签类别数量,
Figure SMS_14
表示所述一批样本中各第一图像对应的面部运动单元标签为c的面部运动单元嵌入编码中与第i个训练样本的面部运动单元标签相同的其它面部运动单元嵌入编码的下标集合,/>
Figure SMS_15
表示下标集合的基数,/>
Figure SMS_16
表示第i个训练样本的标签为c的面部运动单元嵌入编码,其作为面部运动单元特征对比学习中的对比锚点,/>
Figure SMS_13
表示所述一批训练样本中各第一图像对应的面部运动单元嵌入编码中与/>
Figure SMS_17
面部运动单元标签相同的其它面部运动嵌入编码,/>
Figure SMS_18
表示所述一批训练样本中各第一图像对应的面部运动单元嵌入编码中除了/>
Figure SMS_19
以外的其它面部运动单元嵌入编码,/>
Figure SMS_12
表示标签为c 的面部运动单元的权重,/>
Figure SMS_20
表示标签为c 的面部运动单元的类别不平衡权重,/>
Figure SMS_21
表示面部运动单元特征对比学习中的温度参数。
进一步,所述面部运动单元多标签学习检测网络还包括面部运动检测编码模块和嵌有面部运动单元关系先验知识的关系学习编码模块;
所述分离模块还输出每帧图像的面部运动特征嵌入编码,其中,所述面部运动特征嵌入编码是由该帧图像对应的所有面部运动单元嵌入编码进行元素级别相加得到;
所述面部运动检测编码模块用于对所述分离模块输出的面部运动特征嵌入编码,进行特征提取,得到面部运动检测特征;
所述关系学习编码模块用于向所述面部运动检测特征引入面部运动单元关系先验知识约束,以进行面部运动单元分类。
进一步,所述训练的方法使得到面部运动单元检测模型为基于解纠缠的面部运动单元检测模型。
进一步,方法还包括:建立包括面部图像生成器G的辅助训练网络;
所述分离模块还输出每帧图像的面部运动特征嵌入编码,其中,所述面部运动特征嵌入编码是由该帧图像对应的所有面部运动单元嵌入编码进行元素级别相加得到;则所述训练的过程包括:
对每个训练样本的两帧第一图像的面部运动特征嵌入编码交换,将每帧第一图像的身份特征嵌入编码与交换后的面部运动特征嵌入编码拼接并输入面部图像生成器G进行解码重构,生成第二图像;将两帧所述第二图像均输入用于分离面部运动特征和身份特征的分离模块,得到与各第二图像对应的面部运动特征嵌入编码和身份特征嵌入编码;同时将两帧第二图像输入面部图像判别器
Figure SMS_22
,所述分离模块和所述面部图像生成器G与所述面部图像判别器/>
Figure SMS_23
形成对抗学习,引导所述分离模块编码面部运动特征和身份特征边缘独立的有效对应信息,并使得面部图像生成器G生成符合输入样本数据分布的面部图像。
进一步,所述训练的过程还包括:基于所述一批样本中各第一图像对应的面部运动特征嵌入编码和身份特征嵌入编码,计算特征编码正交损失,计算方式为:
Figure SMS_24
其中,
Figure SMS_27
表示矩阵或者嵌入编码的模长;/>
Figure SMS_28
表示所述分离模块中用于面部运动特征嵌入编码提取的面部运动特征编码器的最后一层参数矩阵;/>
Figure SMS_30
表示/>
Figure SMS_26
的转置,/>
Figure SMS_29
表示所述分离模块中用于身份特征嵌入编码提取的身份特征嵌入编码器的最后一层参数矩阵,
Figure SMS_31
和/>
Figure SMS_32
分别表示第i个面部运动特征嵌入编码和第i个身份特征嵌入编码,/>
Figure SMS_25
表示/>
Figure SMS_33
的转置,N表示所述一批样本中图像的总帧数。
本发明还提供一种面部运动单元预测方法,包括:
采用如上所述的一种面向跨身份一致性的面部运动单元检测模型构建方法所构建的面部运动单元检测模型,基于待检测人脸图像,预测识别人脸的多个面部运动单元。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如上所述的一种面向跨身份一致性的面部运动单元检测模型构建方法和/或如上所述的一种面部运动单元预测方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本方法提出一种训练样本选择策略,提高每帧图像的困难正样本和困难负样本在训练样本集中的占比,另外还提出对比学习,在每次迭代训练时,计算身份特征嵌入编码的对比损失,用于引导分离模块对于身份编码的学习,使其输出的相同身份的身份特征嵌入编码在空间中距离相近,不同身份的身份特征嵌入编码在空间中距离远离;计算面部运动单元嵌入编码的对比损失,用于引导分离模块引导面部运动特征的学习,使其输出的相同面部运动单元标签的面部运动特征嵌入编码在空间中距离相近,不同面部运动单元标签的面部运动特征嵌入编码在空间中距离远离。本方法提出特定的训练样本构建方式并在训练过程中引入特定的对比损失计算以指导网络参数的修改。由于本方法特意构建的训练样本集,在对比学习中,可通过面部运动单元表征的锚点样本与其它样本的对比,而非传统的对比学习中将选择每个锚点的不同随机增强视角作为其正样本并与其它样本作为负样本进行对比,可以提高每帧图像的困难正样本和困难负样本在训练样本集中的占比,使得模型在对比学习中关注不同身份、相同面部运动单元标签的困难正样本和相同身份、不同面部运动单元标签的困难负样本,即使得模型学习中关注不同面部运动单元特征的显著差异,忽略身份差异,隐式地引入面部运动单元跨身份一致性定义先验知识,使得模型能够有效学习面部运动单元表征。
(2)本发明还提出面部运动单元多标签学习检测网络还包括面部运动检测编码模块和嵌有面部运动单元关系先验知识的关系学习编码模块。由于面部肌肉解剖结构的限制,面部运动单元存在固有的共生关系和互斥关系,在基于面部运动特征嵌入编码得到的面部运动检测特征中引入面部运动单元关系先验知识约束,获得面部运动单元关系一致性,有效利用面部运动单元关系的先验知识,以进行面部运动单元分类,提高分类性能。也就是,本方法在隐式地学习面部运动单元的内在关系的基础之上,还通过引入面部运动单元的先验知识,显式地进一步强化面部运动单元的关系特征学习,提升面部运动单元检测模型的能力。
(3)本发明优选的检测模型训练方法,使得到面部运动单元检测模型为基于解纠缠的面部运动单元检测模型。通过关系驱动解纠缠表征学习框架分离身份干扰信号,能够更好地解决由于混入面部运动无关信息引入误差导致发现人脸潜在情感难的问题。
(4)本发明在训练过程中引入一种特征编码正交损失,引导分离模块能够编码面部运动特征嵌入编码和身份特征嵌入编码的边缘独立的有效对应信息,从而使得分离模块更精准的学习到跨身份一致的面部运动特征,使得面部运动特征与身份特征更有效的分离。
附图说明
图1为本发明实施例提供的在面向跨身份一致性的面部运动单元检测模型训练过程中对比学习的方式示意图。
图2为本发明实施例提供的面向跨身份一致性的基于解纠缠的面部运动单元检测模型的构建结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例一
一种面向跨身份一致性的面部运动单元检测模型构建方法,包括:构建训练样本集,训练包括用于分离面部运动特征和身份特征的分离模块的面部运动单元多标签学习检测网络,得到面部运动单元检测模型;
其中,每个训练样本包括两帧包含人脸的第一图像,并采用如下两两训练样本成对构建的方式构建训练样本集:从训练视频中,首先随机选取一帧图像作为锚点样本,继续选取与锚点样本身份相同且无相同面部运动单元标签的另一帧图像,作为锚点样本的困难负样本,与锚点样本构成一个训练样本;继续选取与锚点样本身份不同且相同面部运动单元标签数量占总面部运动单元总数量的比例大于预设值的另一帧图像,作为锚点样本的困难正样本,接着选择与困难正样本身份相同且无相同面部运动单元标签的另一帧图像,作为困难正样本的困难负样本,与困难正样本构成另一个训练样本,完成一对训练样本的构建;
分离模块用于编码输出每帧图像的身份特征嵌入编码和面部运动单元嵌入编码;在训练过程的参数更新中所基于的损失计算包括:分别将当前次迭代所输入的一批训练样本中各第一图像对应的身份特征嵌入编码中,每个身份特征嵌入编码作为对比锚点,将与对比锚点身份标签一致的其它身份特征嵌入编码作为正样本,剩余身份特征嵌入编码作为负样本,进行身份特征嵌入编码的对比损失计算,用于实现身份特征嵌入编码的类内紧凑型和类间可判别性;分别将一批训练样本中各第一图像对应的所有面部运动单元嵌入编码中,每个面部运动单元嵌入编码作为对比锚点,与该对比锚点标签相同的其它所有面部运动单元嵌入编码作为正样本,剩余的面部运动单元嵌入编码作为负样本,进行面部运动单元嵌入编码的对比损失计算,用于实现面部运动单元嵌入编码的类内紧凑型和类间可判别性,获得基于面部运动单元语义定义的跨身份一致性特征。
面部运动单元识别的目标是通过面部图像同时识别多个面部运动单元在面部是否同时出现的状态。根据心理学面部运动单元系统,对于面部运动单元具有语义化的定义,具有跨身份一致性。同时根据面部肌肉的解剖结构分析,面部运动单元具有固有的内在联系,包括共生关系和互斥关系,例如AU6(脸颊提升)和AU12(拉动嘴角)在表达开心表情时往往同时出现,AU2(抬起眉毛外角)和AU4(皱眉)面部肌肉结构的限制往往很难同时出现。因此,本实施例提出隐式地利用面部运动单元的先验知识驱动学习,获得跨身份一致的面部运动特征。也就是,通过特定的训练样本构建方式和对比损失计算,隐式地引入面部运动单元跨身份一致性定义先验知识,使得分离模块编码输出每帧图像的信号分离的面部运动特征嵌入编码和身份特征嵌入编码,且面部运动特征嵌入编码具有类内紧凑型和类间可判别性,提高面部运动单元的预测精度。
具体的,首先,面部运动往往只在面部局部区域发生,并且面部运动相对微弱,相对于不同个体身份变化导致的面部差异,面部运动导致的面部外观变化的差异小的多。因此,对于跨身份的面部运动单元检测,模型可能学习的是与面部个体身份差异相关的特征,而不是跨身份一致的面部运动特征。因此,对于面部运动单元检测任务,如何在学习中让模型有效关注面部运动而非身份信息至关重要。由于本方法特意构建的训练样本集,在对比学习中,可通过面部运动单元表征的锚点样本与其它样本的对比,而非传统的对比学习中将选择每个锚点的不同随机增强视角作为其正样本并与其它样本作为负样本进行对比,可以提高每帧图像的困难正样本和困难负样本在训练样本集中的占比,使得模型在对比学习中关注不同身份、相同面部运动单元标签的困难正样本和相同身份、不同面部运动单元标签的困难负样本,也就是使得模型学习中关注不同面部运动单元特征的显著差异,以尽量减少的引入身份差异造成的干扰,使得模型在对比学习中学习面部运动单元的关键特征而非个体身份信息的差异化特征。
另外,提出身份特征嵌入编码的对比损失计算,用于引导分离模块对于身份编码的学习,使其输出的相同身份的身份特征嵌入编码在空间中距离相近,不同身份的身份特征嵌入编码在空间中距离远离;提出面部运动单元嵌入编码的对比损失计算,用于引导分离模块对于面部运动特征的学习,使其输出的相同面部运动单元标签的面部运动特征嵌入编码在空间中距离相近,不同面部运动单元标签的面部运动特征嵌入编码在空间中距离远离。
总的来说,本方法提出特定的训练样本构建方式并在训练过程中引入特定的对比损失计算以指导网络参数的修改。本方法构建的训练样本集中每帧图像的困难正样本和困难负样本在训练样本集中的占比相较传统构建方法的高,根据面部运动单元的跨身份一致性定义,可通过面部运动单元表征的锚点样本与其它样本的对比,而非随机选择的其他样本做对比,使得模型学习中关注不同面部运动单元特征的显著差异,忽略身份差异,使得模型能够有效学习面部运动单元表征。
为了使得模型在训练中学习到有效的跨身份一致的面部运动嵌入编码,优选的,本方法基于相同身份的短时间隔相似性和长时间隔不相似性的面部视频信号时域特性,以及面部运动引起的面部外观变化远比不同身份引起的外观变化微弱的面部视频信号外观变化特性,提出基于时域增强的训练样本采样策略,利用面部运动的时域变化特性和外观变化特性,提升对比学习训练样本集中困难正样本和困难负样本的比例,促进在对比学习训练中模型关注跨身份一致的面部运动特征,忽略与个体身份相关的面部特征,提升分离模块编码输出的面部运动特征嵌入和身份特征嵌入编码器的类内聚合能力和类间可判别性。
具体的,上述相同身份的短时间隔相似性和长时间隔不相似性的面部视频信号时域特性,以及面部运动引起的面部外观变化远比不同身份引起的外观变化微弱的面部视频信号外观变化特性的使用方式,通过以下样本选取方式体现,其中,困难正样本的选取方式具体为:
根据相同身份的短时间隔相似性和长时间隔不相似性的面部视频信号时域特性进行选取,其中,若锚点样本的面部运动单元标签有多个,选取至少包含两个面部运动单元标签与锚点样本的相同的视频帧,作为锚点样本的困难正样本;若锚点样本的面部运动单元标签只有一个,则选择与描点样本的面部运动单元标签相同的视频帧,作为锚点样本的困难正样本;或者,根据面部运动引起的面部外观变化远比不同身份引起的外观变化微弱的面部视频信号外观变化特性,在锚点样本的前后预设时间范围内,以预设的概率随机采样选择另一帧图像,作为锚点样本的困难正样本;
所述困难负样本的选取方式具体为:
根据相同身份的短时间隔相似性和长时间隔不相似性的面部视频信号时域特性,设定时间间隔为预设时间,从距离锚点样本的预设时间之前或者预设时间之后随机选取另一帧图像,作为锚点样本的困难负样本。
可作为优选的实施方案,身份特征嵌入编码的对比损失计算方式可为:
Figure SMS_34
其中,
Figure SMS_36
表示当前次迭代输入的一批训练样本中各第一图像对应的身份特征嵌入编码中与第i个身份特征嵌入编码的身份标签相同的其它身份特征嵌入编码的下标集合;/>
Figure SMS_39
表示其基数;/>
Figure SMS_43
表示第i个身份特征嵌入编码,作为身份特征对比学习中的对比锚点;/>
Figure SMS_37
表示所述一批训练样本中各第一图像对应的身份特征嵌入编码中与/>
Figure SMS_38
身份标签相同的其它身份特征嵌入编码中的一个;/>
Figure SMS_40
表示所述一批训练样本中各第一图像对应的身份特征嵌入编码中除了/>
Figure SMS_41
以外的其它身份特征嵌入编码;/>
Figure SMS_35
为第p个身份标签的权重;/>
Figure SMS_42
是身份特征的温度参数。
可作为优选的实施方案,面部运动单元嵌入编码的对比损失可表示为:
Figure SMS_44
其中,C表示面部运动单元的标签类别数量,
Figure SMS_46
表示所述一批样本中各第一图像对应的面部运动单元标签为c的面部运动单元嵌入编码中与第i个训练样本的面部运动单元标签相同的其它面部运动单元嵌入编码的下标集合,/>
Figure SMS_50
表示下标集合的基数,/>
Figure SMS_52
表示第i个训练样本的标签为c的面部运动单元嵌入编码,其作为面部运动单元特征对比学习中的对比锚点,/>
Figure SMS_47
表示所述一批训练样本中各第一图像对应的面部运动单元嵌入编码中与/>
Figure SMS_48
面部运动单元标签相同的其它面部运动嵌入编码,/>
Figure SMS_49
表示所述一批训练样本中各第一图像对应的面部运动单元嵌入编码中除了/>
Figure SMS_53
以外的其它面部运动单元嵌入编码,/>
Figure SMS_45
表示标签为c 的面部运动单元的权重,/>
Figure SMS_51
表示标签为c 的面部运动单元的类别不平衡权重,/>
Figure SMS_54
表示面部运动单元特征对比学习中的温度参数。
进一步,由于面部肌肉解剖结构的限制,面部运动单元存在固有的共生关系和互斥关系,有效利用面部运动单元关系的先验知识,能够有效提升面部运动单元检测的性能。因此,可作为优选的实施方案,在本实施例方法通过多标签面部运动单元检测器建模,隐式地学习面部运动单元的内在关系的同时,还通过引入面部运动单元的先验知识,显式地进一步强化面部运动单元的关系特征学习,提升面部运动单元检测模型的能力。
具体的,提出面部运动单元多标签学习检测网络还包括面部运动检测编码模块和嵌有面部运动单元关系先验知识的关系学习编码模块。分离模块还输出每帧图像的面部运动特征嵌入编码,其中,面部运动特征嵌入编码是由该帧图像对应的所有面部运动单元嵌入编码进行元素级别相加得到;则面部运动检测编码模块用于对分离模块输出的面部运动特征嵌入编码,进行特征提取,得到面部运动检测特征;关系学习编码模块用于向面部运动检测特征引入面部运动单元关系先验知识约束,获得面部运动单元关系一致性,以进行面部运动单元分类,提高分类性能。
可作为优选的实施方案,所采用的检测模型训练方法,使得到面部运动单元检测模型为基于解纠缠的面部运动单元检测模型。
例如,构建辅助训练网络,利用辅助训练网络训练,面部运动单元多标签学习检测网络和辅助训练网络构成的整体结构如图2所示。分离模块包括面部运动编码器
Figure SMS_55
和身份编码器/>
Figure SMS_56
,分别用于编码输出面部运动特征嵌入编码和身份特征嵌入编码;面部运动单元多标签学习检测网络还包括面部运动检测编码模块Fau和嵌有面部运动单元关系先验知识的关系学习编码模块,辅助训练网络包括:面部图像生成器G,面部图像判别器/>
Figure SMS_57
,几何特征检测器/>
Figure SMS_58
,身份特征判别器/>
Figure SMS_59
,以及几何特征判别器/>
Figure SMS_60
。采用辅助训练网络训练预测模型的训练方式具体为:
S1、将选择得到的各图像分别输入至分离模块之前,可以将选取的各图像分别剪裁为预设尺寸且包含人脸的人脸图像,并将剪裁后得到的人脸图像分别输入至分离模块,分别生成各自的特征嵌入编码。预设尺寸例如为224*224。
每个第一图像编码后生成的特征图分为两个特征嵌入编码,其中
Figure SMS_66
表示面部运动特征嵌入编码,/>
Figure SMS_63
表示面部运动特征嵌入编码。面部运动特征嵌入编码生成中,首先面部运动编码器/>
Figure SMS_70
生成C个相互独立的面部运动单元嵌入编码/>
Figure SMS_67
,/>
Figure SMS_76
表示第c个面部运动单元嵌入编码,然后有/>
Figure SMS_72
个面部运动单元编码通过元素级别对应相加得到面部运动嵌入编码/>
Figure SMS_75
,即/>
Figure SMS_68
=/>
Figure SMS_74
。例如第一帧第一图像/>
Figure SMS_61
对应的特征图分别为/>
Figure SMS_69
、/>
Figure SMS_65
,对应C个面部运动单元嵌入编码,/>
Figure SMS_73
表示第一帧图像对应的第c个面部运动单元嵌入编码。第二帧第一图像/>
Figure SMS_62
对应的特征图分别为/>
Figure SMS_71
、/>
Figure SMS_64
,对应C个面部运动单元嵌入编码,/>
Figure SMS_77
表示第二帧图像对应的第c个面部运动单元嵌入编码。
S2、将S1中第一图像
Figure SMS_79
的面部运动特征嵌入编码和身份特征嵌入编码对(/>
Figure SMS_84
,和/>
Figure SMS_87
的面部运动特征嵌入编码和身份特征嵌入编码(/>
Figure SMS_81
相互交换、拼接,获得交换后的第一帧嵌入编码对/>
Figure SMS_82
和第二帧嵌入编码对/>
Figure SMS_86
,分别将拼接获得的嵌入编码对送入面部图像生成器G,重建生成交换了面部运动特征的两帧第二图像,分别为图像/>
Figure SMS_89
和/>
Figure SMS_78
;图像/>
Figure SMS_90
和/>
Figure SMS_91
分别送入面部图像判别器/>
Figure SMS_92
,由面部图像判别器/>
Figure SMS_80
判别生成图像/>
Figure SMS_83
和/>
Figure SMS_85
是否符合输入样本的数据分布。面部图像生成器G和面部图像判别器/>
Figure SMS_88
形成对抗学习模块引导所述分离模块编码面部运动特征和身份特征边缘独立的有效对应信息,提升分离模块对面部运动特征编码和身份特征编码的有效信息提取能力,也就使得面部运动特征编码器学习到跨身份一致的面部运动特征,并使得面部图像生成器G生成符合输入样本数据分布的面部图像。
具体地,S1得到的第一帧第一图像的特征嵌入编码为(
Figure SMS_94
,第二帧第一图像的特征嵌入编码为/>
Figure SMS_96
。交换后,第一帧第一图像的特征嵌入编码为/>
Figure SMS_97
,第二帧第一图像的特征嵌入编码为/>
Figure SMS_95
。交换后的特征嵌入编码分别送入面部图像生成器G中,生成第一帧第二图像/>
Figure SMS_101
和第二帧第二图像/>
Figure SMS_102
。面部图像生成器G与面部图像判别器/>
Figure SMS_103
形成对抗模块,面部图像判别器/>
Figure SMS_93
的训练目标是使得/>
Figure SMS_98
能够正确判别输入的图像是面部图像生成器G生成的图像还是输入的样本。面部图像生成器G的训练目标是根据能够编码到有效的对应信息的面部运动特征编码器和身份特征编码器获得的面部运动特征嵌入编码和身份特征嵌入编码,学习到输入样本的数据分布,生成与输入样本数据分布一致的面部图像,同时包含第一帧的身份信息和第二帧的面部运动信息,或者包括第二帧的身份信息和第一帧的面部运动信息。训练中首先更新面部图像判别器/>
Figure SMS_99
,其目的是为了使得面部图像判别器/>
Figure SMS_100
学习到能够准确判别输入样本是来自输入的面部图像样本还是生成的面部图像样本。面部图像对抗的判别损失为:
Figure SMS_104
Figure SMS_105
然后在训练中更新面部图像生成器G,其目标是使得面部图像判别器
Figure SMS_106
无法判断是输入的样本还是生成的面部图像。对抗训练中面部图像生成器G的面部图像对抗的生成损失为:
Figure SMS_107
其中,
Figure SMS_108
表示最小二乘损失。不影响公式说明的前提下简化公式,将输入的两帧图像/>
Figure SMS_109
和/>
Figure SMS_110
的下标移除,变为x,生成的两帧图像/>
Figure SMS_111
和/>
Figure SMS_112
的下标移除,变成/>
Figure SMS_113
S3、将S2阶段重构生成的两帧人脸图像
Figure SMS_114
和/>
Figure SMS_115
,分别输入至面部运动编码器和身份编码器,生成图像/>
Figure SMS_116
的面部运动特征嵌入编码和身份特征嵌入编码对为/>
Figure SMS_117
,生成图像/>
Figure SMS_118
的面部运动特征嵌入编码和身份特征嵌入编码对为/>
Figure SMS_119
,/>
Figure SMS_120
在本实施例中,为了生成图像保持与对应输入图像相同的信息,输入图像
Figure SMS_121
的面部运动特征嵌入编码和身份特征嵌入编码,应该分别与/>
Figure SMS_122
的面部运动特征嵌入编码和/>
Figure SMS_123
的身份特征嵌入编码一致;输入图像/>
Figure SMS_124
面部运动特征嵌入编码和身份特征嵌入编码,应该分别与/>
Figure SMS_125
的面部运动特征嵌入编码和/>
Figure SMS_126
的身份特征嵌入编码一致。因此,引入嵌入编码一致性损失为:
Figure SMS_127
式中,
Figure SMS_130
表示最小二乘损失。/>
Figure SMS_135
和/>
Figure SMS_136
分别为第一图像的第一帧和第二帧的身份特征嵌入编码,/>
Figure SMS_129
和/>
Figure SMS_132
分别为第一图像的第一帧和第二帧的面部运动特征嵌入编码。/>
Figure SMS_133
和/>
Figure SMS_134
分别为第二图像的第一帧和第二帧的身份特征嵌入编码,/>
Figure SMS_128
和/>
Figure SMS_131
分别为第二图像的第一帧和第二帧的面部运动特征嵌入编码。
S4、将S1阶段得到的将各第一图像对应的面部运动特征嵌入编码输入几何特征检测器
Figure SMS_137
;通过几何特征检测器/>
Figure SMS_138
,预测面部关键点的位置,通过面部关键点形成的面部重要几何结构特征引导面部运动特征嵌入编码的训练过程。
面部关键点描述的是人类面部的结构的关键信息,描述面部外部轮廓的关键点与头部姿态密切相关,而面部运动是面部内部外观变化,与面部内部的关键点相关。因此,本实施例中,面部关键点选取的是仅描述面部内部信息而不包含面部轮廓的49个面部关键点,采用分类的方式预测面部关键点的位置。将对应的面部运动特征嵌入编码输入到几何特征检测器
Figure SMS_139
,生成面部关键点的响应图。面部关键点的分类损失为:
Figure SMS_140
式中,n为面部关键点的个数,d为面部关键点响应图的边长,
Figure SMS_141
为softmax激活函数,X为模型样本输入,Y为关键点标签,/>
Figure SMS_142
是第y个面部关键点的标签。不影响公式说明的前提下简化公式,将输入的两帧图像/>
Figure SMS_143
和/>
Figure SMS_144
的下标移除,变为x。/>
S5、将S1得到的各第一图像对应的面部运动特征嵌入编码,输入到面部运动检测编码模块Fau,得到面部运动检测特征,输入嵌有面部运动单元关系先验知识的关系学习编码模块,得到各第一图像对应的各面部运动单元的分类结果。通过各第一图像对应的面部运动单元的分类标签来引导面部运动编码模块EA、面部运动检测编码模块Fau和嵌有面部运动单元关系先验知识的关系学习编码模块的训练过程。
在该优选方案中,嵌有面部运动单元关系先验知识的关系学习编码模块采用双层图神经网络GCN编码面部运动单元关系先验知识。面部运动单元关系先验知识是根据训练数据中统计获得的面部运动单元出现概率的协方差矩阵表示的。面部运动单元的分类损失为:
Figure SMS_145
式中,
Figure SMS_146
是第j个面部运动单元的预测概率,/>
Figure SMS_147
是第j个面部运动单元的标签,当第j个面部运动单元出现时,/>
Figure SMS_148
,当第j个面部运动单元不存在时,/>
Figure SMS_149
。/>
Figure SMS_150
为第j个面部运动单元的权重,该权重用于解决训练中面部运动单元数据不平衡问题。C表示共有C个面部运动单元。
S6、将S1得到的各第一图像对应的面部运动特征嵌入编码输入身份特征判别器
Figure SMS_151
,由身份特征判别器/>
Figure SMS_152
判别输入的两帧是否来自同一个身份的样本。面部运动编码器EA与身份特征判别器/>
Figure SMS_153
形成对抗学习,面部运动编码器EA的目标是编码输入的面部图像的面部运动信息,使得获得身份特征编码器不能根据面部运动嵌入编码判断输入的两帧是否来自同一身份。面部运动的身份对抗的判别损失为:
Figure SMS_154
面部运动的身份对抗的生成损失为:
Figure SMS_155
S7、将S1得到的各第一图像对应的身份特征嵌入编码输入几何特征判别器
Figure SMS_156
。身份编码器/>
Figure SMS_157
和几何特征判别器/>
Figure SMS_158
形成对抗,其目的是使得身份编码器能够编码使几何特征判别器无法根据其身份特征判别其几何信息。身份特征嵌入编码的几何特征对抗的判别损失为:
Figure SMS_159
;/>
身份特征嵌入编码的几何特征对抗的生成损失为:
Figure SMS_160
式中,
Figure SMS_161
表示最小二乘损失,n为面部关键点的个数,d为响应正方形响应图的边长。本实施例中几何特征判别器采用面部关键点检测方式完成。选取的是49个面部关键点,采用分类的方式预测面部关键点的位置的概率。对抗学习过程期望学习到的身份特征嵌入编码输入几何特征判别器/>
Figure SMS_162
获得处处为/>
Figure SMS_163
的几何特征响应图。
S8、将S1得到的各第一图像对应的身份特征嵌入编码送入对比学习模块,也就是进行对比损失计算,其目的是使得身份编码器对于相同身份的身份特征嵌入编码在空间中距离相近,对于不同身份的身份特征嵌入编码在空间中距离远离。
Figure SMS_164
和/>
Figure SMS_165
为S1由身份编码器生成的身份特征嵌入编码。在本操作中,在不影响表述的前提下简化表达,将/>
Figure SMS_166
和/>
Figure SMS_167
统称z,并使用/>
Figure SMS_168
表示第i个样本的身份嵌入编码。将输入的第一帧和第二帧同时输入对比学习模块,将当前次迭代训练所输入的一批样本作为对比学习模块的对比样本,具体设当前第i个样本为对比锚点,/>
Figure SMS_169
为与第i个样本身份标签相同的其它所有样本。对比模块的损失使得对比锚点的身份嵌入编码和与对比锚点标签相同的样本的身份嵌入编码相似,而使得与对比锚点标签不相同的样本的身份嵌入编码不相似,增强相同身份样本的身份嵌入编码的类内紧凑型和类间可判别性,获得与身份语义相关的信息。该对比损失的计算方式损为:
Figure SMS_170
其中,
Figure SMS_173
表示所述一批训练样本中各第一图像对应的身份特征嵌入编码中与第i个身份特征嵌入编码的身份标签相同的其它身份特征嵌入编码的下标集合;/>
Figure SMS_178
表示其基数;/>
Figure SMS_179
表示第i个身份特征嵌入编码,作为身份特征对比学习中的对比锚点;/>
Figure SMS_172
表示所述一批训练样本中各第一图像对应的身份特征嵌入编码中与/>
Figure SMS_174
身份标签相同的其它身份特征嵌入编码中的一个;/>
Figure SMS_176
表示所述一批训练样本中各第一图像对应的身份特征嵌入编码中除了/>
Figure SMS_177
以外的其它身份特征嵌入编码;/>
Figure SMS_171
为第p个身份标签的权重;/>
Figure SMS_175
是身份特征的温度参数。
S9、将S1得到的各第一图像对应的面部运动单元特征嵌入编码送入对比学习模块,进行对比损失计算,其目的是使得面部运动编码器对于相同面部运动单元标签的面部运动单元特征嵌入编码在空间中距离相近,对于不同面部运动单元标签的面部运动单元特征嵌入编码在空间中距离远离。
将第一帧第一图像和第二帧第一图像的面部运动单元嵌入编码同时输入对比学习模块,所有面部运动单元嵌入编码作为对比学习模块的对比样本。设当前第i个样本的第c个面部运动单元嵌入编码为对比锚点,
Figure SMS_180
为与第i个样本面部运动单元标签相同的其他所有面部运动单元嵌入编码。对比模块的损失使得对比锚点的面部运动单元嵌入编码和与对比锚点标签相同的样本的面部运动单元嵌入编码相似,而使得与对比锚点面部运动单元标签不相同的样本的面部运动单元嵌入编码不相似,增强相同标签的面部运动单元嵌入编码的类内紧凑型和类间可判别性,使得获得的面部运动单元嵌入编码能够有效编码对应面部运动单元标签的语义相关的信息,获得基于面部运动单元语义定义的跨身份一致性特征。该对比损失的计算方式为:
Figure SMS_181
其中,C表示面部运动单元的标签类别数量,
Figure SMS_183
表示所述一批样本中各第一图像对应的面部运动单元标签为c的面部运动单元嵌入编码中与第i个训练样本的面部运动单元标签相同的其它面部运动单元嵌入编码的下标集合,/>
Figure SMS_185
表示下标集合的基数,/>
Figure SMS_189
表示第i个训练样本的标签为c的面部运动单元嵌入编码,其作为面部运动单元特征对比学习中的对比锚点,/>
Figure SMS_184
表示所述一批训练样本中各第一图像对应的面部运动单元嵌入编码中与/>
Figure SMS_187
面部运动单元标签相同的其它面部运动嵌入编码,/>
Figure SMS_190
表示所述一批训练样本中各第一图像对应的面部运动单元嵌入编码中除了/>
Figure SMS_191
以外的其它面部运动单元嵌入编码,/>
Figure SMS_182
表示标签为c 的面部运动单元的权重,/>
Figure SMS_186
表示标签为c 的面部运动单元的类别不平衡权重,/>
Figure SMS_188
表示面部运动单元特征对比学习中的温度参数。
S10、将S3中图像
Figure SMS_194
的面部运动特征嵌入编码和身份特征嵌入编码对(/>
Figure SMS_197
,和
Figure SMS_205
的面部运动特征嵌入编码和身份特征嵌入编码/>
Figure SMS_195
,/>
Figure SMS_201
相互交换、拼接,获得交换后的第一帧嵌入编码对(/>
Figure SMS_202
和第二帧嵌入编码对/>
Figure SMS_204
,/>
Figure SMS_192
,分别将拼接获得的嵌入编码对送入面部图像生成器G,重建生成交换了面部运动特征的两帧图像,分别为第一帧第三图像
Figure SMS_198
和第二帧第三图像/>
Figure SMS_199
。输入的两帧图像经过S3和S10中两次面部运动嵌入编码和身份特征嵌入编码的交换后,生成的第一帧第三图像/>
Figure SMS_200
应该与/>
Figure SMS_193
相同,第二帧第三图像/>
Figure SMS_196
应该与
Figure SMS_203
相同,从而形成循环一致性,约束面部运动特征编码器和身份特征编码器学习到有效的面部运动特征和身份特征的编码。通过图像的循环一致性损失约束:
Figure SMS_206
式中,
Figure SMS_207
表示L1范数损失,/>
Figure SMS_208
和/>
Figure SMS_209
分别为第二图像的第一帧和第二帧的身份特征嵌入编码,/>
Figure SMS_210
和/>
Figure SMS_211
分别为第二图像的第一帧和第二帧的面部运动特征嵌入编码,/>
Figure SMS_212
Figure SMS_213
分别为第一图像的第一帧和第二帧图像。/>
在面向跨身份一致性的面部运动单元检测模型训练过程中对比学习的方式如图1所示。
S11、为了进一步使得模型训练过程稳定,以S10所述重构的人脸图像与S1中选取的两帧图像分别相似度最高为目标,训练面部运动单元多标签学习检测网络。添加的损失为:
Figure SMS_214
式中,
Figure SMS_215
表示L1范数损失,/>
Figure SMS_216
和/>
Figure SMS_217
分别为第一图像的第一帧和第二帧的身份特征嵌入编码,/>
Figure SMS_218
和/>
Figure SMS_219
分别为第一图像的第一帧和第二帧的面部运动特征嵌入编码,/>
Figure SMS_220
和/>
Figure SMS_221
分别为第一图像的第一帧和第二帧图像。
需要说明的是,在每次迭代训练中,先更新各对抗学习的判别器的参数,再综合各损失函数更新面部运动单元多标签学习检测网络的参数以及辅助训练网络中除各判别器以外其它部分的参数。
进一步地,为了引导面部运动特征编码器和身份特征编码器编码边缘独立的有效对应信息从而使得面部运动特征编码器学习到跨身份一致的面部运动特征,可作为优选的实施方案,提出一种特征编码正交损失,进一步使得面部运动特征与身份特征分离。特征编码正交损失损失定义为:
Figure SMS_222
其中,
Figure SMS_225
表示矩阵或者嵌入编码的模长;/>
Figure SMS_228
表示所述分离模块中用于面部运动特征嵌入编码提取的面部运动特征编码器的最后一层参数矩阵;/>
Figure SMS_230
表示/>
Figure SMS_224
的转置,/>
Figure SMS_227
表示所述分离模块中用于身份特征嵌入编码提取的身份特征嵌入编码器的最后一层参数矩阵,
Figure SMS_229
和/>
Figure SMS_231
分别表示第i个面部运动特征嵌入编码和第i个身份特征嵌入编码,/>
Figure SMS_223
表示
Figure SMS_226
的转置,N表示所述一批样本中图像的总帧数。
实施例二
一种面部运动单元预测方法,包括:
采用如上所述的一种面向跨身份一致性的面部运动单元检测模型构建方法所构建的面部运动单元检测模型,基于待检测人脸图像,预测识别人脸的多个面部运动单元。
相关技术方案同实施例一,在此不再赘述。
实施例三
一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如上所述的一种面向跨身份一致性的面部运动单元检测模型构建方法和/或如上所述的一种面部运动单元预测方法。
相关技术方案同实施例一和实施例二,在此不再赘述。
本方法可以用于驾驶员情绪检测、师生情绪监督、抑郁症治疗、康复患者情绪安抚、金融面签监督、讯问监督、安保访客情绪分析、面试情绪监督等应用场合。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种面向跨身份一致性的面部运动单元检测模型构建方法,其特征在于,包括:构建训练样本集,训练包括用于分离面部运动特征和身份特征的分离模块的面部运动单元多标签学习检测网络,得到面部运动单元检测模型;
其中,每个训练样本包括两帧包含人脸的第一图像,并采用如下两两训练样本成对构建的方式构建训练样本集:从训练视频中,首先随机选取一帧图像作为锚点样本,继续选取与所述锚点样本身份相同且无相同面部运动单元标签的另一帧图像,作为所述锚点样本的困难负样本,与所述锚点样本构成一个训练样本;继续选取与所述锚点样本身份不同且相同面部运动单元标签数量占总面部运动单元总数量的比例大于预设值的另一帧图像,作为所述锚点样本的困难正样本,接着选择与所述困难正样本身份相同且无相同面部运动单元标签的另一帧图像,作为所述困难正样本的困难负样本,与所述困难正样本构成另一个训练样本,完成一对训练样本的构建;
所述分离模块用于编码每帧图像的身份特征嵌入编码和面部运动单元嵌入编码;在训练过程的参数更新中所基于的损失计算包括:分别将当前次迭代所输入的一批训练样本中各第一图像对应的身份特征嵌入编码中,每个身份特征嵌入编码作为对比锚点,将与对比锚点身份标签一致的其它身份特征嵌入编码作为正样本,剩余身份特征嵌入编码作为负样本,进行身份特征嵌入编码的对比损失计算,用于实现身份特征嵌入编码的类内紧凑型和类间可判别性;分别将所述一批训练样本中各第一图像对应的所有面部运动单元嵌入编码中,每个面部运动单元嵌入编码作为对比锚点,与该对比锚点标签相同的其它所有面部运动单元嵌入编码作为正样本,剩余的面部运动单元嵌入编码作为负样本,进行面部运动单元嵌入编码的对比损失计算,用于实现面部运动单元嵌入编码的类内紧凑型和类间可判别性。
2.根据权利要求1所述的面部运动单元检测模型构建方法,其特征在于,所述困难正样本的选取方式具体为:
根据相同身份的短时间隔相似性和长时间隔不相似性的面部视频信号时域特性进行选取,其中,若锚点样本的面部运动单元标签有多个,选取至少包含两个面部运动单元标签与锚点样本的相同的视频帧,作为锚点样本的困难正样本;若锚点样本的面部运动单元标签只有一个,则选择与描点样本的面部运动单元标签相同的视频帧,作为锚点样本的困难正样本;或者,根据面部运动引起的面部外观变化远比不同身份引起的外观变化微弱的面部视频信号外观变化特性,在锚点样本的前后预设时间范围内,以预设的概率随机采样选择另一帧图像,作为锚点样本的困难正样本;
所述困难负样本的选取方式具体为:
根据相同身份的短时间隔相似性和长时间隔不相似性的面部视频信号时域特性,设定时间间隔为预设时间,从距离锚点样本的预设时间之前或者预设时间之后随机选取另一帧图像,作为锚点样本的困难负样本。
3.根据权利要求1所述的面部运动单元检测模型构建方法,其特征在于,身份特征嵌入编码的对比损失计算方式为:
Figure QLYQS_1
其中,
Figure QLYQS_4
表示所述一批训练样本中各第一图像对应的身份特征嵌入编码中与第i个身份特征嵌入编码的身份标签相同的其它身份特征嵌入编码的下标集合;/>
Figure QLYQS_6
表示其基数;/>
Figure QLYQS_8
表示第i个身份特征嵌入编码,作为身份特征对比学习中的对比锚点;/>
Figure QLYQS_3
表示所述一批训练样本中各第一图像对应的身份特征嵌入编码中与/>
Figure QLYQS_7
身份标签相同的其它身份特征嵌入编码中的一个;/>
Figure QLYQS_9
表示所述一批训练样本中各第一图像对应的身份特征嵌入编码中除了/>
Figure QLYQS_10
以外的其它身份特征嵌入编码;/>
Figure QLYQS_2
为第p个身份标签的权重;/>
Figure QLYQS_5
是身份特征的温度参数。
4.根据权利要求1所述的面部运动单元检测模型构建方法,其特征在于,面部运动单元嵌入编码的对比损失表示为:
Figure QLYQS_11
其中,C表示面部运动单元的标签类别数量,
Figure QLYQS_14
表示所述一批样本中各第一图像对应的面部运动单元标签为c的面部运动单元嵌入编码中与第i个训练样本的面部运动单元标签相同的其它面部运动单元嵌入编码的下标集合,/>
Figure QLYQS_17
表示下标集合的基数,/>
Figure QLYQS_20
表示第i个训练样本的标签为c的面部运动单元嵌入编码,其作为面部运动单元特征对比学习中的对比锚点,/>
Figure QLYQS_13
表示所述一批训练样本中各第一图像对应的面部运动单元嵌入编码中与/>
Figure QLYQS_16
面部运动单元标签相同的其它面部运动嵌入编码,/>
Figure QLYQS_19
表示所述一批训练样本中各第一图像对应的面部运动单元嵌入编码中除了/>
Figure QLYQS_21
以外的其它面部运动单元嵌入编码,/>
Figure QLYQS_12
表示标签为c 的面部运动单元的权重,/>
Figure QLYQS_15
表示标签为c 的面部运动单元的类别不平衡权重,/>
Figure QLYQS_18
表示面部运动单元特征对比学习中的温度参数。
5.根据权利要求1所述的面部运动单元检测模型构建方法,其特征在于,所述面部运动单元多标签学习检测网络还包括面部运动检测编码模块和嵌有面部运动单元关系先验知识的关系学习编码模块;
所述分离模块还输出每帧图像的面部运动特征嵌入编码,其中,所述面部运动特征嵌入编码是由该帧图像对应的所有面部运动单元嵌入编码进行元素级别相加得到;
所述面部运动检测编码模块用于对所述分离模块输出的面部运动特征嵌入编码,进行特征提取,得到面部运动检测特征;
所述关系学习编码模块用于向所述面部运动检测特征引入面部运动单元关系先验知识约束,以进行面部运动单元分类。
6.根据权利要求1所述的面部运动单元检测模型构建方法,其特征在于,所述训练的方法使得到面部运动单元检测模型为基于解纠缠的面部运动单元检测模型。
7.根据权利要求6所述的面部运动单元检测模型构建方法,其特征在于,方法还包括:建立包括面部图像生成器G的辅助训练网络;
所述分离模块还输出每帧图像的面部运动特征嵌入编码,其中,所述面部运动特征嵌入编码是由该帧图像对应的所有面部运动单元嵌入编码进行元素级别相加得到;则所述训练的过程包括:
对每个训练样本的两帧第一图像的面部运动特征嵌入编码交换,将每帧第一图像的身份特征嵌入编码与交换后的面部运动特征嵌入编码拼接并输入面部图像生成器G进行解码重构,生成第二图像;将两帧所述第二图像均输入用于分离面部运动特征和身份特征的分离模块,得到与各第二图像对应的面部运动特征嵌入编码和身份特征嵌入编码;同时将两帧第二图像输入面部图像判别器
Figure QLYQS_22
,所述分离模块和所述面部图像生成器G与所述面部图像判别器/>
Figure QLYQS_23
形成对抗学习,引导所述分离模块编码面部运动特征和身份特征边缘独立的有效对应信息,并使得面部图像生成器G生成符合输入样本数据分布的面部图像。
8.根据权利要求6所述的面部运动单元检测模型构建方法,其特征在于,所述训练的过程还包括:基于所述一批样本中各第一图像对应的面部运动特征嵌入编码和身份特征嵌入编码,计算特征编码正交损失,计算方式为:
Figure QLYQS_24
其中,
Figure QLYQS_27
表示矩阵或者嵌入编码的模长;/>
Figure QLYQS_29
表示所述分离模块中用于面部运动特征嵌入编码提取的面部运动特征编码器的最后一层参数矩阵;表示/>
Figure QLYQS_31
的转置,/>
Figure QLYQS_26
表示所述分离模块中用于身份特征嵌入编码提取的身份特征嵌入编码器的最后一层参数矩阵,/>
Figure QLYQS_28
和/>
Figure QLYQS_30
分别表示第i个面部运动特征嵌入编码和第i个身份特征嵌入编码,/>
Figure QLYQS_32
表示/>
Figure QLYQS_25
的转置,N表示所述一批样本中图像的总帧数。
9.一种面部运动单元预测方法,其特征在于,包括:
采用如权利要求1至8任一项所述的一种面向跨身份一致性的面部运动单元检测模型构建方法所构建的面部运动单元检测模型,基于待检测人脸图像,预测识别人脸的多个面部运动单元。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如权利要求1至8任一项所述的一种面向跨身份一致性的面部运动单元检测模型构建方法和/或如权利要求9所述的一种面部运动单元预测方法。
CN202310543543.7A 2023-05-15 2023-05-15 一种面向跨身份一致性的面部运动单元检测模型构建方法 Active CN116311477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310543543.7A CN116311477B (zh) 2023-05-15 2023-05-15 一种面向跨身份一致性的面部运动单元检测模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310543543.7A CN116311477B (zh) 2023-05-15 2023-05-15 一种面向跨身份一致性的面部运动单元检测模型构建方法

Publications (2)

Publication Number Publication Date
CN116311477A true CN116311477A (zh) 2023-06-23
CN116311477B CN116311477B (zh) 2023-08-01

Family

ID=86801643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310543543.7A Active CN116311477B (zh) 2023-05-15 2023-05-15 一种面向跨身份一致性的面部运动单元检测模型构建方法

Country Status (1)

Country Link
CN (1) CN116311477B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117576765A (zh) * 2024-01-15 2024-02-20 华中科技大学 一种基于分层特征对齐的面部动作单元检测模型构建方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100172581A1 (en) * 2008-12-19 2010-07-08 Tandberg Telecom As Method, system, and computer readable medium for face detection
CN105205460A (zh) * 2015-09-17 2015-12-30 电子科技大学 基于最大方向编码的人脸表情特征提取及识别方法
CN108399370A (zh) * 2018-02-02 2018-08-14 达闼科技(北京)有限公司 表情识别的方法及云系统
US20180232662A1 (en) * 2017-02-14 2018-08-16 Microsoft Technology Licensing, Llc Parsers for deriving user intents
WO2020000908A1 (zh) * 2018-06-29 2020-01-02 汉王科技股份有限公司 一种人脸活体检测方法及装置
WO2020173117A1 (zh) * 2019-02-26 2020-09-03 北京市商汤科技开发有限公司 人脸识别方法、神经网络训练方法、装置及电子设备
WO2021096192A1 (en) * 2019-11-12 2021-05-20 Samsung Electronics Co., Ltd. Neural facial expressions and head poses reenactment with latent pose descriptors
CN113392822A (zh) * 2021-08-18 2021-09-14 华中科技大学 基于特征分离表征学习的面部运动单元检测方法及系统
CN113780099A (zh) * 2021-08-18 2021-12-10 华中科技大学 一种基于对抗学习的半监督面部运动单元检测方法和系统
CN114022739A (zh) * 2021-11-17 2022-02-08 南京邮电大学 一种基于对齐变分自编码器与三元组结合的零样本学习方法
CN114283482A (zh) * 2021-12-29 2022-04-05 江西师范大学 基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型
US20220147765A1 (en) * 2020-11-10 2022-05-12 Nec Laboratories America, Inc. Face recognition from unseen domains via learning of semantic features
CN115063858A (zh) * 2022-06-23 2022-09-16 科大讯飞股份有限公司 视频人脸表情识别模型训练方法、装置、设备及存储介质
CN115100709A (zh) * 2022-06-23 2022-09-23 北京邮电大学 一种特征分离的图像人脸识别与年龄估计方法
CN115346664A (zh) * 2022-08-30 2022-11-15 青岛大学 基于深度学习的面瘫诊断评级方法及其系统
CN115424310A (zh) * 2022-07-08 2022-12-02 西北工业大学 一种面向人脸重演中表情分离任务的弱标注学习方法
CN115862120A (zh) * 2023-02-21 2023-03-28 天度(厦门)科技股份有限公司 可分离变分自编码器解耦的面部动作单元识别方法及设备

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100172581A1 (en) * 2008-12-19 2010-07-08 Tandberg Telecom As Method, system, and computer readable medium for face detection
CN105205460A (zh) * 2015-09-17 2015-12-30 电子科技大学 基于最大方向编码的人脸表情特征提取及识别方法
US20180232662A1 (en) * 2017-02-14 2018-08-16 Microsoft Technology Licensing, Llc Parsers for deriving user intents
CN108399370A (zh) * 2018-02-02 2018-08-14 达闼科技(北京)有限公司 表情识别的方法及云系统
WO2020000908A1 (zh) * 2018-06-29 2020-01-02 汉王科技股份有限公司 一种人脸活体检测方法及装置
WO2020173117A1 (zh) * 2019-02-26 2020-09-03 北京市商汤科技开发有限公司 人脸识别方法、神经网络训练方法、装置及电子设备
WO2021096192A1 (en) * 2019-11-12 2021-05-20 Samsung Electronics Co., Ltd. Neural facial expressions and head poses reenactment with latent pose descriptors
US20220147765A1 (en) * 2020-11-10 2022-05-12 Nec Laboratories America, Inc. Face recognition from unseen domains via learning of semantic features
CN113780099A (zh) * 2021-08-18 2021-12-10 华中科技大学 一种基于对抗学习的半监督面部运动单元检测方法和系统
CN113392822A (zh) * 2021-08-18 2021-09-14 华中科技大学 基于特征分离表征学习的面部运动单元检测方法及系统
CN114022739A (zh) * 2021-11-17 2022-02-08 南京邮电大学 一种基于对齐变分自编码器与三元组结合的零样本学习方法
CN114283482A (zh) * 2021-12-29 2022-04-05 江西师范大学 基于自注意力特征过滤分类器的双分支生成对抗网络的面部表情识别模型
CN115063858A (zh) * 2022-06-23 2022-09-16 科大讯飞股份有限公司 视频人脸表情识别模型训练方法、装置、设备及存储介质
CN115100709A (zh) * 2022-06-23 2022-09-23 北京邮电大学 一种特征分离的图像人脸识别与年龄估计方法
CN115424310A (zh) * 2022-07-08 2022-12-02 西北工业大学 一种面向人脸重演中表情分离任务的弱标注学习方法
CN115346664A (zh) * 2022-08-30 2022-11-15 青岛大学 基于深度学习的面瘫诊断评级方法及其系统
CN115862120A (zh) * 2023-02-21 2023-03-28 天度(厦门)科技股份有限公司 可分离变分自编码器解耦的面部动作单元识别方法及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HUIJUAN ZHAO ET AL.: "CDRL: Contrastive Disentangled Representation Learning Scheme for Facial Action Unit Detection", 《2022 IEEE 34TH INTERNATIONAL CONFERENCE ON TOOLS WITH ARTIFICIAL INTELLIGENCE》, pages 652 - 659 *
孙洁: "基于图像融合的表情识别研究", 《基于图像融合的表情识别研究》, vol. 41, no. 12, pages 72 - 76 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117576765A (zh) * 2024-01-15 2024-02-20 华中科技大学 一种基于分层特征对齐的面部动作单元检测模型构建方法
CN117576765B (zh) * 2024-01-15 2024-03-29 华中科技大学 一种基于分层特征对齐的面部动作单元检测模型构建方法

Also Published As

Publication number Publication date
CN116311477B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
Canal et al. A survey on facial emotion recognition techniques: A state-of-the-art literature review
Hu et al. Video facial emotion recognition based on local enhanced motion history image and CNN-CTSLSTM networks
Diaz et al. A perspective analysis of handwritten signature technology
Huang et al. Spontaneous facial micro-expression analysis using spatiotemporal completed local quantized patterns
Liu et al. SAANet: Siamese action-units attention network for improving dynamic facial expression recognition
Rui et al. Segmenting visual actions based on spatio-temporal motion patterns
Nasfi et al. A novel approach for modeling positive vectors with inverted dirichlet-based hidden markov models
Ogiela et al. Cognitive keys in personalized cryptography
CN102622590B (zh) 基于人脸-指纹协同的身份识别方法
Zhang Advances in Face Image Analysis: Techniques and Technologies: Techniques and Technologies
Dudul et al. Emotion recognition from facial expression using neural networks
CN116311477B (zh) 一种面向跨身份一致性的面部运动单元检测模型构建方法
Praveen et al. Audio-visual fusion for emotion recognition in the valence-arousal space using joint cross-attention
Pan et al. Hierarchical support vector machine for facial micro-expression recognition
Han et al. Internet of emotional people: Towards continual affective computing cross cultures via audiovisual signals
Kekre et al. Iris recognition using texture features extracted from haarlet pyramid
Kim et al. Attended relation feature representation of facial dynamics for facial authentication
Chowdhury et al. Lip as biometric and beyond: a survey
Gao Application of convolutional neural network in emotion recognition of ideological and political teachers in colleges and universities
Zhao et al. Facial Micro-expressions: an overview
Zhao et al. Episode-based personalization network for gaze estimation without calibration
Sajid et al. Hybrid generative–discriminative approach to age-invariant face recognition
Le et al. On approaching 2D-FPCA technique to improve image representation in frequency domain
Abdulabas et al. Face information forensics analysis based on facial aging: A Survey
Wang Pattern recognition and machine vision

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant