CN114882578B - 一种多域对抗学习的小样本条件下复合表情识别方法 - Google Patents

一种多域对抗学习的小样本条件下复合表情识别方法 Download PDF

Info

Publication number
CN114882578B
CN114882578B CN202210812089.6A CN202210812089A CN114882578B CN 114882578 B CN114882578 B CN 114882578B CN 202210812089 A CN202210812089 A CN 202210812089A CN 114882578 B CN114882578 B CN 114882578B
Authority
CN
China
Prior art keywords
expression
face
compound
composite
subdomain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210812089.6A
Other languages
English (en)
Other versions
CN114882578A (zh
Inventor
喻莉
何双江
赵慧娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202210812089.6A priority Critical patent/CN114882578B/zh
Publication of CN114882578A publication Critical patent/CN114882578A/zh
Application granted granted Critical
Publication of CN114882578B publication Critical patent/CN114882578B/zh
Priority to US18/346,760 priority patent/US11837021B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了多域对抗学习的小样本条件下复合表情识别方法,属于计算机视觉人脸表情识别领域。为了在小样本条件下提取多样性和复杂性的复合表情特征,融合多个小样本数据集,并划分表情子域,利用多域对抗学习提高识别复合表情的性能。基于生成对抗网络框架,将人脸域、轮廓无关的复合表情域融合在生成网络中以增强多样性和复杂性,设计了两个鉴别器引导生成器。人脸鉴别器使用人脸域,引导并鉴别生成器生成表情无关的人脸身份属性,让生成器具有身份多样性;复合表情融合鉴别器分别将基础表情域和轮廓相关的复合表情域融合在一起,引导并鉴别生成器生成的表情具有复杂性。从而获得兼具多样性和复杂性的高性能鉴别器,提高复合表情的识别性能。

Description

一种多域对抗学习的小样本条件下复合表情识别方法
技术领域
本发明属于计算机视觉人脸表情识别技术领域,更具体地,涉及一种多域对抗学习的小样本条件下复合表情识别方法。
背景技术
自然条件下人类的表情往往具有多样性和复杂性的特点。目前大多数表情数据集都以六种基础表情分类为主,很难细腻的刻画人类的真实情感状态。而具有高精度标签的复合表情数据集样本很少,无法在现有深度学习方法中获得良好的性能。
复合表情识别目前可采用通用卷积神经网络方法,如:MobileNet、VGG16、Inception-ResNet等通用网络直接使用。虽然可以获得一定效果,但受两大制约。首先,需要大量的训练样本,否则模型的通用性较差。其次,有方法使用15个ResNet分别检测15种复合表情,6个ResNet分别检测6种基础表情,这样会导致网络参数过大效率低下的问题。
也可采用MSAU-Net,MSAU-Net是一种二阶段的细粒度面部表情识别方法。采用二阶段多标签分类,第一阶段使用DRML基于粗粒度AU检测识别出16个AU特征图,第二阶段将16个AU特征图精细化输出,最后通过多标签分类实现AU特征到多标签组合,根据多个AU的标签组合识别复合表情。训练和推理在一个二阶段网络中进行,因此导致其推理识别阶段的参数规模过大。
因此,需要研究一种适用于小样本条件,且对复合表情识别性能更强的网络结构和识别方法。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种多域对抗学习的小样本条件下复合表情识别方法,其目的在于实现适用于小样本、网络参数规模小且识别精度高的复合表情识别。
为实现上述目的,本发明提供了一种多域对抗学习的小样本条件下复合表情识别方法,包括:
S1.收集复合表情的小样本数据集;
S2.针对复合表情的小样本数据集,划分人脸子域、轮廓无关的复合表情子域、轮廓相关的复合表情子域和基础表情子域;
其中,人脸子域指的是与表情无关的人脸身份;轮廓无关的复合表情子域指的是人脸复合表情中的不包含人脸轮廓的能够表征复合表情的五官部分;轮廓相关的复合表情子域指的包括人脸轮廓部分和复合表情五官部分;基础表情子域,指的是六种基础表情,包括高兴、悲伤、惊讶、生气、愤怒和厌恶;
S3.构建生成器、复合表情鉴别器和人脸身份鉴别器;
生成器,用于融合人脸子域和轮廓无关的复合表情子域,生成兼具身份多样性和复合表情复杂性的合成图像;
复合表情融合鉴别器,用于混合轮廓相关的复合表情子域和基础表情子域,计算交叉过渡空间,引导并判别生成器生成的复合表情图像具有表情复杂性;
人脸鉴别器,用于判断生成器输出的复合表情图像是否符合人脸子域中的人脸特征分布,引导并判别生成器生成的复合表情具有身份多样性;
S4.利用人脸子域、轮廓无关的复合表情子域训练生成器;利用人脸子域训练人脸鉴别器;利用轮廓相关的复合表情子域和基础表情子域训练复合表情融合鉴别器;
S5.将包括人脸的图片输入训练好的复合表情融合鉴别器,输出多种复合表情的分类向量,选择其中softmax值最高的分量向量,得到符合表情分类结果。
进一步地,生成器包括人脸编码器、轮廓无关的复合表情编码器、噪声混合模块、嵌入配对混合域编码模块和混合解码模块;
人脸编码器,用于编码与表情无关的人脸身份信息;
复合表情编码器,用于编码轮廓无关的复合表情特征;
噪声混合模块,用于将人脸特征编码
Figure 118740DEST_PATH_IMAGE001
、轮廓无关的复合表情特征编码
Figure 426094DEST_PATH_IMAGE002
与随 机噪声
Figure 736989DEST_PATH_IMAGE003
混合;
嵌入配对混合域编码模块,将人脸特征编码
Figure 397778DEST_PATH_IMAGE004
、轮廓无关的复合表情特征编码
Figure 353095DEST_PATH_IMAGE005
和随机噪声
Figure 706716DEST_PATH_IMAGE006
嵌入融合构成配对混合域的特征编码
Figure 239329DEST_PATH_IMAGE007
混合解码模块,用于对配对混合域的特征编码
Figure 85232DEST_PATH_IMAGE008
解码生成图像
Figure 19690DEST_PATH_IMAGE009
进一步地,生成器的处理过程为:
Figure 278633DEST_PATH_IMAGE010
Figure 173908DEST_PATH_IMAGE011
Figure 442078DEST_PATH_IMAGE012
是控制参数,分别用于控制嵌入编码中的特征
Figure 231043DEST_PATH_IMAGE013
Figure 51100DEST_PATH_IMAGE014
强度,
Figure 558305DEST_PATH_IMAGE015
,con表示channel-wise的连接操作,Emb表示嵌入编码。
进一步地,复合表情融合鉴别器包括复合表情识别模块、基础表情识别模块、复合表情全连接层、基础表情全连接层和交叉计算模块;
复合表情识别模块,用于提取轮廓相关的复合表情特征;
基础表情识别模块,用于提取基础表情特征;
复合表情全连接层,用于对轮廓相关的复合表情特征做全连接;
基础表情全连接层,用于对基础表情特征做全连接;
交叉计算模块,用于计算全连接后的复合表情特征向量和基础表情特征向量的交集,根据交集选择其中softmax值最高的分量作为分类结果。
进一步地,复合表情识别模块采用如下公式进行谱归一化;
Figure 99008DEST_PATH_IMAGE016
Figure 8058DEST_PATH_IMAGE017
表示基础表情识别模块的参数,
Figure 749749DEST_PATH_IMAGE018
表示复合表情识别模块,
Figure 744250DEST_PATH_IMAGE019
表示权重矩阵 的标准谱范数。
进一步地,轮廓无关的复合表情子域利用AU先验知识、人脸地标68以及位于前额中心区域地标进行划分。
进一步地,生成器损失函数为:
Figure 88643DEST_PATH_IMAGE020
Figure 976834DEST_PATH_IMAGE021
表示人脸身份分类和复合表情分类损失,
Figure 279639DEST_PATH_IMAGE022
表示双交集域损失函数,
Figure 495857DEST_PATH_IMAGE023
Figure 519308DEST_PATH_IMAGE024
是控制参数,
Figure 137371DEST_PATH_IMAGE025
表示
Figure 345498DEST_PATH_IMAGE026
服从
Figure 49012DEST_PATH_IMAGE027
的分布下的信息熵,
Figure 859842DEST_PATH_IMAGE028
表示人脸标签,
Figure 863570DEST_PATH_IMAGE029
表示生成 器生成假人脸图像,
Figure 242599DEST_PATH_IMAGE030
复合表情输入图像,
Figure 308775DEST_PATH_IMAGE031
表示复合表情输入图像的标签,
Figure 798662DEST_PATH_IMAGE032
表示复合 表情融合鉴别器,
Figure 125738DEST_PATH_IMAGE033
表示复合表情识别模块,
Figure 68811DEST_PATH_IMAGE034
表示基础表情识别模块。
进一步地,人脸鉴别器的损失函数
Figure 746917DEST_PATH_IMAGE035
为:
Figure 40495DEST_PATH_IMAGE036
Figure 487657DEST_PATH_IMAGE037
表示人脸鉴别器,
Figure 83855DEST_PATH_IMAGE038
表示生成图像的人脸和复合表情标签。
进一步地,复合表情融合鉴别器的损失函数
Figure 249257DEST_PATH_IMAGE039
为:
Figure 80946DEST_PATH_IMAGE040
Figure 772828DEST_PATH_IMAGE041
表示复合表情的分布。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果。
本发明基于已知的AU先验知识,认为复合表情存在于基础表情的迁移过程;因此,复合表情是存在于两个基础表情之间的交叉空间中的;并且,AU的局部特征是能够和轮廓整体特征编码融合的,产生多样性的复合表情,实现对小样本数据集的数据增强;具体地,本发明为了获得身份多样性和表情复杂性的模型,在生成器中使用了人脸域和轮廓无关的复合表情域,分别提取特征并融合生成兼具多样性和复杂性的图像。
同时在复合表情的鉴别上,通过两个鉴别器分别鉴别身份和表情,从而减少两组特征的相互影响。本发明认为基础表情和复合表情的交集能够提高复合表情的鉴别能力,因此,采用了融合的方式,将轮廓相关的复合表情和基础表情特征进行融合并计算交叉空间,从而获得复合表情识别性能更强的鉴别器;具体地,在表情鉴别器中使用了复合表情识别模块提取复合表情子域的特征,基础表情识别模块提取基础表情子域的特征;分别对两组特征做全连接,通过将两组全连接结果构造并计算交集空间,从而获得复合表情的识别结果;本发明能够在小样本数据集上获得泛化性强的小尺寸识别模型。
附图说明
图1是训练网络框架示意图。
图2是轮廓无关的复合表情特征AU区域定义。
图3是推理识别流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的一种多域对抗学习的小样本条件下复合表情识别方法,包括以下步骤:
S1.收集复合表情的小样本数据集;
S2.针对复合表情的小样本数据集,划分人脸子域、轮廓无关的复合表情子域、轮廓相关的复合表情子域和基础表情子域;
具体地,本发明使用的小样本复合表情数据集是为了解人类复合情绪的面部表情反应而创建的,具有22个分类,其中6个为基础表情(高兴、愤怒、悲伤、厌恶、惊讶、害怕),1个平静表情,15个复合表情。
数据集共有230个样本,22个表情类别,6670张表情图片,本发明根据多域学习的需求对其划分为四个子集。其中,1号子集是平静表情共计230个样本,被本发明用于构造人脸域。2号子集包括6个基础表情分类共计1610张图片,被文本定义为基础表情域。其余15个复合表情共计5060张图片,被文本定义为复合表情域。15个复合表情被复制为两个副本,一个副本不做预处理直接作为轮廓相关的复合表情子域,另一个副本划分并构造了轮廓无关的复合表情子域;
后续配对的目的是划分轮廓无关的AU(action unit)区域局部信息便于和包含轮廓的面部全局区域进行融合,从而扩大复合表情的数据多样性。为了生成多样性和复杂性的假脸图像,本发明预处理使用了AU区域的硬编码。使用硬编码会随机丢失一些局部信息,但由于可以在训练阶段将来自基础表情域和轮廓相关的复合表情域的交叉信息进行补充,防止了因为小样本下的单一特征过拟合。
因此,本发明预处理使用了基于AU先验知识的区域划分的硬编码方式。首先,本发明使用传统的人脸地标68定位人脸区域。然后,利用 AU 先验知识来划分 5 个 AU 区域,见图1所示,并在表1中进行了AU区域的说明。 为了获得由额叶和皱眉肌肉块产生的AU 变化,本发明还定义了位于前额中心区域的第 69 号地标。 AU 区域 1 和 2 的定位和获取将取决于第 69 号地标。由于个体差异,个体的复合表情并不会都具有完全一致的AU编码组合,因此个体的AU区域会出现随机丢失局部信息的情况,这也是本发明产生多样性的前提因素,
Figure 398981DEST_PATH_IMAGE042
本发明选择的宏表情数据集,主要涵盖6个基础表情分类,由123个样本组成,总共包含1236个表情序列,使用表情峰值帧作为基础表情,则可以使用1236张图像。
两个数据集中共有 353 个人脸身份信息作为人脸域,作为网络的配对输入人脸,其中所包含 2846 个基础表情符号都用作训练集和测试集。两个小样本数据集合计353个人脸身份,2846个基础表情,5060个复合表情,5060个轮廓无关的复合表情,总计7906张图片。
相比其他数十万级的大型表情数据集,本发明所选数据集样本空间极小,便于开展小样本条件下的多域对抗实验。本发明小样本处理特征为以上数据数值边界条件。
S3.构建生成器、复合表情鉴别器和人脸身份鉴别器;
不同于其他生成对抗网络,本发明在生成器中融合人脸子域和轮廓无关的复合表情子域生成身份多样性的复合表情图像;构造人脸鉴别器和复合表情鉴别器,并在复合表情鉴别器混合了轮廓相关的表情子域和基础表情子域计算交叉过渡空间,从而指导生成器生成的复合表情具有复杂性。最终,获得的复合表情鉴别器兼具多样性和复杂性的稳定鉴别能力。
网络的框架如图 2所示,其中,图2中的符号如表2所示;
Figure 51679DEST_PATH_IMAGE043
Figure 828006DEST_PATH_IMAGE044
生成器:生成器的目标是生成兼具身份多样性和复合表情复杂性的合成图像。生 成器根据两组输入分别编码轮廓无关的复合表情
Figure 984180DEST_PATH_IMAGE045
和人脸
Figure 46814DEST_PATH_IMAGE046
。轮廓无关的复合表情特 征编码模块
Figure 921229DEST_PATH_IMAGE047
负责编码复合表情,人脸特征编码模块
Figure 750514DEST_PATH_IMAGE048
编码与表情无关的人脸身份信息, 例如:轮廓和纹理等。嵌入配对混合域编码模块将人脸特征编码
Figure 26775DEST_PATH_IMAGE049
,轮廓无关的复合表情特 征编码
Figure 260310DEST_PATH_IMAGE050
和随机噪声
Figure 497387DEST_PATH_IMAGE051
嵌入融合构成配对混合域的特征编码
Figure 740150DEST_PATH_IMAGE052
公式(1)定义了生成器的整个计算过程,通过控制人脸和表情特征融入噪声,在Channel-wise上执行的连接操作,再被嵌入编码形成生成特征。然后,对生成特征进行解码还原,最后生成了包含了人脸特征和复合表情特征的合成图像,
Figure 870917DEST_PATH_IMAGE053
通过混合解码模块
Figure 399987DEST_PATH_IMAGE054
解码嵌入配对混合域的特征编码生成图像
Figure 248994DEST_PATH_IMAGE055
,con表 示矩阵加法,Emb表示嵌入编码。其中
Figure 29869DEST_PATH_IMAGE056
Figure 156088DEST_PATH_IMAGE057
是控制参数,用于控制嵌入编码中的特征强度
Figure 731425DEST_PATH_IMAGE058
Figure 67729DEST_PATH_IMAGE059
。 即
Figure 386715DEST_PATH_IMAGE056
Figure 619637DEST_PATH_IMAGE057
分别用于控制复合表情的假人脸的多样效果,如果
Figure 631456DEST_PATH_IMAGE060
则生成的 特征趋于
Figure 189476DEST_PATH_IMAGE061
的人脸身份特征,反之则倾向于
Figure 187519DEST_PATH_IMAGE062
复合表情特征。 由于
Figure 147385DEST_PATH_IMAGE063
需要控制了轮廓 相关信息,并且为了通过鉴别器
Figure 330104DEST_PATH_IMAGE064
确认身份一致性,
Figure 765634DEST_PATH_IMAGE065
至少大于0.8;
Figure 426422DEST_PATH_IMAGE066
更强调五官局部 复合表情特征,用于控制生成多样性和复杂性,不建议低于1。因此,式(1)满足
Figure 240795DEST_PATH_IMAGE067
Figure 594416DEST_PATH_IMAGE068
的边界约束条件。
鉴别器:本发明方法与基础的生成对抗网络框架有所不同,本发明方法包含两个 鉴别器,其中人脸鉴别器
Figure 267973DEST_PATH_IMAGE069
负责鉴别与表情无关的身份特征,以帮助生成器生成多样性的 身份信息;复合表情融合鉴别器
Figure 732453DEST_PATH_IMAGE070
负责鉴别与表情相关的特征,其是将轮廓相关的复合 表情特征
Figure 401332DEST_PATH_IMAGE071
的特征与基础表情特征
Figure 50488DEST_PATH_IMAGE072
融合到鉴别器中计算表情的交集特征,以引导生成 器生成多样性和复杂性的复合表情。
Figure 70396DEST_PATH_IMAGE032
的鉴别效果,也是本发明的最终目标,推理验证 阶段主要使用
Figure 72987DEST_PATH_IMAGE073
的识别能力,其性能决定了小样本条件下训练的复合表情识别效果。
复合表情融合鉴别器
Figure 861952DEST_PATH_IMAGE074
的结果矩阵使用
Figure 698321DEST_PATH_IMAGE075
输出的15个复合表情的分类结果进 行初始化。然后,将6个基础表情填充到相应的位置。复合表情融合鉴别器合并两个鉴别模 块,产生最终的复合表达分类结果,可表述为:
Figure 939946DEST_PATH_IMAGE076
其中,i,j分别表示ij的表情分类位置,即表情的两两组合。
Figure 746228DEST_PATH_IMAGE077
表示复合表情 融合鉴别器的分类结果,
Figure 779912DEST_PATH_IMAGE078
表示复合表情识别模块的分类结果,
Figure 380658DEST_PATH_IMAGE079
表示基础表情的分类 结果,其中 init 表示复合表情矩阵的初始化值。 其中θ和μ是可调节的参数,控制复合表 情和基础分类对融合结果产生影响。式(2)中目标是在融合矩阵中计算最可能的表情交集, 交集中既包含了复合表情本身的结果,也包含了基础表情的影响。由于基础表情不可能出 现互斥的组合关系(例如:同时在脸上出现高兴和悲伤两组动作),因此也避免了不可能的 表情交集组合。
生成器决定了样本的多样性,这是提高复合表达识别性能的关键因素。 稳定的生 成器将有助于稳定地生成样本,避免因样本较少而导致的多样性损失。 本发明采用谱范数 (Spectral Norm,SN)约束鉴别器,它控制生成器的边界以降低不稳定性。 由于鉴别器融合 了两个子鉴别器
Figure 375159DEST_PATH_IMAGE080
Figure 719552DEST_PATH_IMAGE081
,鉴别器的训练样本来自轮廓相关的复合表情域和基础表情域。 因此,存在两组独立的网络。通常而言,标准的SN使用幂次迭代来估计网络每一层的激活矩 阵的阈值范数,然后将网络的权重矩阵除以谱范数得到一个边界约束,近似约束为 Lipschitz常数 ,从而规避模块级别的不稳定性。
如果都是用标准普归一化,根据实验发现
Figure 624054DEST_PATH_IMAGE082
Figure 395701DEST_PATH_IMAGE083
更快地接近 Lipschitz 常数。 并且实验证明,使用
Figure 877498DEST_PATH_IMAGE084
的SN 范数作为标准谱归一化的乘数,有助于平衡两组参数的归一 化速度,由式(3)定义。 具体来说,本发明使用以下更新规则进行谱归一化,其中
Figure 153146DEST_PATH_IMAGE085
表示权 重矩阵的标准谱范数:
Figure 771209DEST_PATH_IMAGE086
其中,
Figure 244916DEST_PATH_IMAGE087
表示基础表情识别模块的参数,
Figure 823796DEST_PATH_IMAGE088
表示复合表情识别模块,
Figure 509992DEST_PATH_IMAGE089
Figure 248141DEST_PATH_IMAGE090
有 各自独立的参数和全连接(Fully Connected,FC)层,而SN主要控制FC层和上一层的参数, 所以它们使用各自网络范围内的独立SN分别控制。
S4.利用人脸子域、轮廓无关的复合表情子域训练生成器;利用人脸子域训练人脸鉴别器;利用轮廓相关的复合表情子域和基础表情子域训练复合表情融合鉴别器;
训练损失;训练鉴别器的总体目标是区分复合表情和人脸,同时通过一致性约束 验证复合表情和人脸的特征是否正确分离。复合表情融合鉴别器
Figure 361591DEST_PATH_IMAGE091
处理复合表情识别 任务,其中复合表情共有15类,即
Figure 677034DEST_PATH_IMAGE092
Figure 166922DEST_PATH_IMAGE093
。人脸鉴别器处理人脸识别任务,
Figure 759577DEST_PATH_IMAGE094
Figure 450452DEST_PATH_IMAGE095
表示
Figure 128558DEST_PATH_IMAGE096
个人脸和1个非集合人脸的类任务。人脸鉴别器的损失函数
Figure 156557DEST_PATH_IMAGE097
考 虑了真实人脸和假的人脸的联合情况。复合表情融合鉴别器的损失函数
Figure 603719DEST_PATH_IMAGE098
则包含了复合表 情鉴别、基础表情鉴别和两者的融合鉴别。可以定义为如下公式:
Figure 449184DEST_PATH_IMAGE099
Figure 614586DEST_PATH_IMAGE100
表示
Figure 711855DEST_PATH_IMAGE101
服从
Figure 154469DEST_PATH_IMAGE102
的分布下的信息熵,
Figure 46202DEST_PATH_IMAGE103
表示人脸标签,
Figure 698900DEST_PATH_IMAGE104
表示
Figure 193335DEST_PATH_IMAGE105
服 从
Figure 615089DEST_PATH_IMAGE106
的分布下的信息熵,
Figure 677723DEST_PATH_IMAGE107
表示生成图像的人脸和复合表情标签,
Figure 552138DEST_PATH_IMAGE108
表示
Figure 866576DEST_PATH_IMAGE109
服 从
Figure 408416DEST_PATH_IMAGE110
的分布下的信息熵,
Figure 376372DEST_PATH_IMAGE111
表示复合表情输入图像,
Figure 142945DEST_PATH_IMAGE112
表示复合表情输入图像的标签,
Figure 854549DEST_PATH_IMAGE113
表示复合表情的分布,
Figure 250895DEST_PATH_IMAGE114
表示
Figure 655331DEST_PATH_IMAGE115
服从
Figure 379705DEST_PATH_IMAGE116
的分布下的信息熵,
Figure 160579DEST_PATH_IMAGE117
表示
Figure 411432DEST_PATH_IMAGE118
服 从
Figure 111404DEST_PATH_IMAGE119
的分布下的信息熵,
Figure 447707DEST_PATH_IMAGE120
表示
Figure 766693DEST_PATH_IMAGE121
服从
Figure 12998DEST_PATH_IMAGE122
的分布下的信息熵,
Figure 759237DEST_PATH_IMAGE123
通过人脸域的 分布指导生成器生成多样性的身份。
Figure 317257DEST_PATH_IMAGE124
的训练主要引导生成器生成假人脸图像
Figure 830147DEST_PATH_IMAGE125
,由于
Figure 790013DEST_PATH_IMAGE125
Figure 707153DEST_PATH_IMAGE126
获得真实标签,因此可以直接被鉴别。由于
Figure 18049DEST_PATH_IMAGE127
包含
Figure 554203DEST_PATH_IMAGE128
Figure 634155DEST_PATH_IMAGE129
,因此
Figure 987776DEST_PATH_IMAGE130
的训练是 通过复合表情的轮廓相关域进行的,其中包含 15 个类,而
Figure 645022DEST_PATH_IMAGE129
的训练是通过基础表情域进 行训练的。虽然,基础表情域只包含6个基本标签但是可以通过式 (2) 可以计算出15个分 类。因此,保持了与
Figure 843922DEST_PATH_IMAGE131
的训练结果的尺寸一致。在
Figure 778380DEST_PATH_IMAGE132
中包含了复合表情、基础表情和生 成假表情的鉴别损失。式(4)用于
Figure 443848DEST_PATH_IMAGE133
的训练,式(5)用于
Figure 932598DEST_PATH_IMAGE134
的训练。
生成器的目标是为了欺骗两个鉴别器产生多样性和复杂性的结果。因此,需要尽可能多地提取与面部特征和轮廓无关的复合表情特征。它需要分类损失,分类由人脸身份分类和复合表情分类组成,定义见式(6)。损失函数公式定义如下:
Figure 466347DEST_PATH_IMAGE135
(6)
其中
Figure 255312DEST_PATH_IMAGE136
Figure 812720DEST_PATH_IMAGE137
是控制参数,用于控制生成方向是倾向于面对特征还是倾向于 复合表情特征,因为复合表情特征是硬编码的局部信息,所以鉴别器需要给予更多的支持, 因为
Figure 319924DEST_PATH_IMAGE138
还包含很多域的基础表情信息。因此,本发明推荐
Figure 126206DEST_PATH_IMAGE139
由于
Figure 910623DEST_PATH_IMAGE140
使用复合表情轮廓相关域和基础表情域,但生成器是使用面部域和复 合表情轮廓无关域的配对生成的,因此,两组域之间存在一定的差异,本发明的目标是找到 两组域的交集域作为训练目标,使用Wasserstein 距离作为生成对抗的交叉熵。为此,针对 融合域的特点改进了 Wasserstein 距离,并设计了一个双交集域损失函数来帮助生成器 达到其目标,如下所示:
Figure 776948DEST_PATH_IMAGE142
Figure 505869DEST_PATH_IMAGE144
表示
Figure 115842DEST_PATH_IMAGE145
Figure 4033DEST_PATH_IMAGE146
的样本分布,也就是样本中复合表情和基础表情的分 布;
Figure 775679DEST_PATH_IMAGE147
表示生成图像
Figure 257476DEST_PATH_IMAGE148
的分布;
联合式(6)和式(7),可以定义为生成器的损失函数如下:
Figure 546506DEST_PATH_IMAGE149
(8)
通过式(8),能够在生成器训练过程更新参数;
训练网络配置;网络的默认超参数:
Figure 164570DEST_PATH_IMAGE150
,
Figure 107118DEST_PATH_IMAGE151
,
Figure 810632DEST_PATH_IMAGE152
,
Figure 887041DEST_PATH_IMAGE153
,
Figure 359610DEST_PATH_IMAGE154
,
Figure 4218DEST_PATH_IMAGE155
S5.将包括人脸的图片输入训练好的复合表情融合鉴别器,输出多种复合表情的分类向量,选择其中softmax值最高的分量向量,得到符合表情分类结果。
本发明在推理的时候仅仅使用
Figure 70395DEST_PATH_IMAGE156
鉴别器,模型大约2930万个参数,其优势在于 推理时的网络参数复杂度小,同时复合表情的识别精度高。在完成网络训练后,获得
Figure 560282DEST_PATH_IMAGE156
鉴别器模型后将用于推理识别流程见图3。输出的分类结果为softmax值最大的对应向量编 号,向量编号转化为复合表情标签,通过分类结果与表情映射关系表进行映射,见表3,
Figure 152937DEST_PATH_IMAGE157
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种多域对抗学习的小样本条件下复合表情识别方法,其特征在于,包括:
S1.收集复合表情的小样本数据集;
S2.针对复合表情的小样本数据集,划分人脸子域、轮廓无关的复合表情子域、轮廓相关的复合表情子域和基础表情子域;
其中,人脸子域指的是与表情无关的人脸身份;轮廓无关的复合表情子域指的是人脸复合表情中的不包含人脸轮廓的能够表征复合表情的五官部分;轮廓相关的复合表情子域指的包括人脸轮廓部分和复合表情五官部分;基础表情子域,指的是六种基础表情,包括高兴、悲伤、惊讶、生气、愤怒和厌恶;
S3.构建生成器、复合表情鉴别器和人脸身份鉴别器;
生成器,用于融合人脸子域和轮廓无关的复合表情子域,生成兼具身份多样性和复合表情复杂性的合成图像;
复合表情融合鉴别器,用于混合轮廓相关的复合表情子域和基础表情子域,计算交叉过渡空间,引导并判别生成器生成的复合表情图像具有表情复杂性;
人脸鉴别器,用于判断生成器输出的复合表情图像是否符合人脸子域中的人脸特征分布,引导并判别生成器生成的复合表情具有身份多样性;
S4.利用人脸子域、轮廓无关的复合表情子域训练生成器;利用人脸子域训练人脸鉴别器;利用轮廓相关的复合表情子域和基础表情子域训练复合表情融合鉴别器;
S5.将包括人脸的图片输入训练好的复合表情融合鉴别器,输出多种复合表情的分类向量,选择其中softmax值最高的分量向量,得到符合表情分类结果。
2.根据权利要求1所述的一种多域对抗学习的小样本条件下复合表情识别方法,其特征在于,生成器包括人脸编码器、轮廓无关的复合表情编码器、噪声混合模块、嵌入配对混合域编码模块和混合解码模块;
人脸编码器,用于编码与表情无关的人脸身份信息;
复合表情编码器,用于编码轮廓无关的复合表情特征;
噪声混合模块,用于将人脸特征编码
Figure DEST_PATH_IMAGE001
、轮廓无关的复合表情特征编码
Figure 216992DEST_PATH_IMAGE002
与随机 噪声
Figure DEST_PATH_IMAGE003
混合;
嵌入配对混合域编码模块,将人脸特征编码
Figure 337394DEST_PATH_IMAGE004
、轮廓无关的复合表情特征编码
Figure DEST_PATH_IMAGE005
和随机噪声
Figure 320394DEST_PATH_IMAGE006
嵌入融合构成配对混合域的特征编码
Figure 699291DEST_PATH_IMAGE007
混合解码模块,用于对配对混合域的特征编码
Figure DEST_PATH_IMAGE008
解码生成图像
Figure 716926DEST_PATH_IMAGE009
3.根据权利要求2所述的一种多域对抗学习的小样本条件下复合表情识别方法,其特征在于,生成器的处理过程为:
Figure DEST_PATH_IMAGE010
Figure 8230DEST_PATH_IMAGE011
Figure 744105DEST_PATH_IMAGE012
是控制参数,分别用于控制嵌入编码中的特征
Figure DEST_PATH_IMAGE013
Figure 661114DEST_PATH_IMAGE014
强度,
Figure DEST_PATH_IMAGE015
,con表示channel-wise的连接操作,Emb表示嵌入编 码。
4.根据权利要求2所述的一种多域对抗学习的小样本条件下复合表情识别方法,其特征在于,复合表情融合鉴别器包括复合表情识别模块、基础表情识别模块、复合表情全连接层、基础表情全连接层和交叉计算模块;
复合表情识别模块,用于提取轮廓相关的复合表情特征;
基础表情识别模块,用于提取基础表情特征;
复合表情全连接层,用于对轮廓相关的复合表情特征做全连接;
基础表情全连接层,用于对基础表情特征做全连接;
交叉计算模块,用于计算全连接后的复合表情特征向量和基础表情特征向量的交集,根据交集选择其中softmax值最高的分量作为分类结果。
5.根据权利要求4所述的一种多域对抗学习的小样本条件下复合表情识别方法,其特征在于,复合表情识别模块采用如下公式进行谱归一化;
Figure 533255DEST_PATH_IMAGE016
Figure 261040DEST_PATH_IMAGE017
表示基础表情识别模块的参数,
Figure DEST_PATH_IMAGE018
表示复合表情识别模块,
Figure 467899DEST_PATH_IMAGE019
表示权重矩阵的 标准谱范数。
6.根据权利要求1所述的一种多域对抗学习的小样本条件下复合表情识别方法,其特征在于,轮廓无关的复合表情子域利用AU先验知识、人脸地标68以及位于前额中心区域地标进行划分。
7.根据权利要求1所述的一种多域对抗学习的小样本条件下复合表情识别方法,其特征在于,生成器损失函数为:
Figure 939332DEST_PATH_IMAGE020
Figure 931559DEST_PATH_IMAGE021
表示人脸身份分类和复合表情分类损失,
Figure DEST_PATH_IMAGE022
表示双交集域损失函数,
Figure 830244DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE024
是控制参数,
Figure 521470DEST_PATH_IMAGE025
表示
Figure DEST_PATH_IMAGE026
服从
Figure 999856DEST_PATH_IMAGE027
的分布下的信息熵,
Figure DEST_PATH_IMAGE028
表示人脸标 签,
Figure 112168DEST_PATH_IMAGE029
表示生成器生成假人脸图像,
Figure 916176DEST_PATH_IMAGE030
复合表情输入图像,
Figure DEST_PATH_IMAGE031
表示复合表情输入图像 的标签,
Figure 363207DEST_PATH_IMAGE032
表示复合表情融合鉴别器,
Figure DEST_PATH_IMAGE033
表示复合表情识别模块,
Figure 645284DEST_PATH_IMAGE034
表示基础表情 识别模块。
8.根据权利要求7所述的一种多域对抗学习的小样本条件下复合表情识别方法,其特 征在于,人脸鉴别器的损失函数
Figure DEST_PATH_IMAGE035
为:
Figure 346524DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
表示人脸鉴别器,
Figure 836280DEST_PATH_IMAGE038
表示生成图像的人脸和复合表情标签。
9.根据权利要求8所述的一种多域对抗学习的小样本条件下复合表情识别方法,其特 征在于,复合表情融合鉴别器的损失函数
Figure DEST_PATH_IMAGE039
为:
Figure 724601DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE041
表示复合表情的分布。
CN202210812089.6A 2022-07-12 2022-07-12 一种多域对抗学习的小样本条件下复合表情识别方法 Active CN114882578B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210812089.6A CN114882578B (zh) 2022-07-12 2022-07-12 一种多域对抗学习的小样本条件下复合表情识别方法
US18/346,760 US11837021B1 (en) 2022-07-12 2023-07-03 Compound expression recognition method with few samples of multi-domain adversarial learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210812089.6A CN114882578B (zh) 2022-07-12 2022-07-12 一种多域对抗学习的小样本条件下复合表情识别方法

Publications (2)

Publication Number Publication Date
CN114882578A CN114882578A (zh) 2022-08-09
CN114882578B true CN114882578B (zh) 2022-09-06

Family

ID=82683567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210812089.6A Active CN114882578B (zh) 2022-07-12 2022-07-12 一种多域对抗学习的小样本条件下复合表情识别方法

Country Status (2)

Country Link
US (1) US11837021B1 (zh)
CN (1) CN114882578B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117978838A (zh) * 2024-03-28 2024-05-03 武汉烽火信息集成技术有限公司 一种数字身份下的自动编解码可信合约验证及交互方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657554A (zh) * 2018-11-21 2019-04-19 腾讯科技(深圳)有限公司 一种基于微表情的图像识别方法、装置以及相关设备
US10504268B1 (en) * 2017-04-18 2019-12-10 Educational Testing Service Systems and methods for generating facial expressions in a user interface
CN112364705A (zh) * 2020-10-16 2021-02-12 天津大学 基于多层次特征融合的轻量型cnn的表情识别方法
CN112990078A (zh) * 2021-04-02 2021-06-18 深圳先进技术研究院 一种基于生成式对抗网络的人脸表情生成方法
CN113743389A (zh) * 2021-11-08 2021-12-03 武汉烽火信息集成技术有限公司 一种面部表情识别的方法、装置和电子设备
CN114333027A (zh) * 2021-12-31 2022-04-12 之江实验室 基于联合和交替学习框架的跨域新类人脸表情识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633677B (zh) * 2019-09-18 2023-05-26 威盛电子股份有限公司 人脸识别的方法及装置
CN111652121B (zh) * 2020-06-01 2023-11-03 腾讯科技(深圳)有限公司 一种表情迁移模型的训练方法、表情迁移的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10504268B1 (en) * 2017-04-18 2019-12-10 Educational Testing Service Systems and methods for generating facial expressions in a user interface
CN109657554A (zh) * 2018-11-21 2019-04-19 腾讯科技(深圳)有限公司 一种基于微表情的图像识别方法、装置以及相关设备
CN112364705A (zh) * 2020-10-16 2021-02-12 天津大学 基于多层次特征融合的轻量型cnn的表情识别方法
CN112990078A (zh) * 2021-04-02 2021-06-18 深圳先进技术研究院 一种基于生成式对抗网络的人脸表情生成方法
CN113743389A (zh) * 2021-11-08 2021-12-03 武汉烽火信息集成技术有限公司 一种面部表情识别的方法、装置和电子设备
CN114333027A (zh) * 2021-12-31 2022-04-12 之江实验室 基于联合和交替学习框架的跨域新类人脸表情识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Emotion-Preserving Representation Learning via Generative Adversarial Network for Multi-View Facial Expression Recognition;Ying-Hsiu Lai 等;《2018 13th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018)》;20180519;263-270 *
基于领域适应的跨角度面部表情图像生成和识别;卢情义;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20220315;I138-2042 *

Also Published As

Publication number Publication date
CN114882578A (zh) 2022-08-09
US11837021B1 (en) 2023-12-05

Similar Documents

Publication Publication Date Title
Kim et al. Efficient facial expression recognition algorithm based on hierarchical deep neural network structure
CN108875818B (zh) 基于变分自编码机与对抗网络结合的零样本图像分类方法
Huang et al. Generative dual adversarial network for generalized zero-shot learning
Dash et al. A review of Generative Adversarial Networks (GANs) and its applications in a wide variety of disciplines: From Medical to Remote Sensing
Rudolph et al. Structuring autoencoders
Hu et al. A novel visual representation on text using diverse conditional gan for visual recognition
CN114882578B (zh) 一种多域对抗学习的小样本条件下复合表情识别方法
Li et al. Diversified text-to-image generation via deep mutual information estimation
CN114972016A (zh) 图像处理方法、装置、计算机设备、存储介质及程序产品
Saleem et al. Efficient Facial Recognition Authentication Using Edge and Density Variant Sketch Generator.
Roy et al. Tips: Text-induced pose synthesis
Boutros et al. Exfacegan: Exploring identity directions in gan’s learned latent space for synthetic identity generation
CN113222002A (zh) 一种基于生成式鉴别性对比优化的零样本分类方法
Padala et al. Effect of input noise dimension in GANs
Saqlain et al. Evolution and effectiveness of loss functions in generative adversarial networks
Boutros et al. SFace2: Synthetic-Based Face Recognition With w-Space Identity-Driven Sampling
Meng et al. Adversarial transformers for weakly supervised object localization
Zeno et al. IP-GAN: learning identity and pose disentanglement in generative adversarial networks
Kemmer et al. Face aging using generative adversarial networks
Tang et al. Few-sample generation of amount in figures for financial multi-bill scene based on GAN
Manisha et al. Effect of input noise dimension in gans
Agrawal et al. Directional GAN: A novel conditioning strategy for generative networks
Daryani et al. IRL-Net: Inpainted Region Localization Network via Spatial Attention
Balasubramanian et al. ExAgt: Expert-guided augmentation for representation learning of traffic scenarios
Osahor Multimodal Adversarial Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant