CN114882578A - 一种多域对抗学习的小样本条件下复合表情识别方法 - Google Patents
一种多域对抗学习的小样本条件下复合表情识别方法 Download PDFInfo
- Publication number
- CN114882578A CN114882578A CN202210812089.6A CN202210812089A CN114882578A CN 114882578 A CN114882578 A CN 114882578A CN 202210812089 A CN202210812089 A CN 202210812089A CN 114882578 A CN114882578 A CN 114882578A
- Authority
- CN
- China
- Prior art keywords
- expression
- compound
- face
- composite
- subdomain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 293
- 150000001875 compounds Chemical class 0.000 title claims abstract description 116
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000002131 composite material Substances 0.000 claims abstract description 90
- 230000004927 fusion Effects 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 12
- 241000282414 Homo sapiens Species 0.000 claims description 10
- 230000001815 facial effect Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000003595 spectral effect Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 210000001061 forehead Anatomy 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 210000000056 organ Anatomy 0.000 claims description 2
- 230000008921 facial expression Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 210000000887 face Anatomy 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 3
- 101150052583 CALM1 gene Proteins 0.000 description 2
- 101150095793 PICALM gene Proteins 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 101150014174 calm gene Proteins 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 241000764238 Isis Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013329 compounding Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 210000001652 frontal lobe Anatomy 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Geometry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了多域对抗学习的小样本条件下复合表情识别方法,属于计算机视觉人脸表情识别领域。为了在小样本条件下提取多样性和复杂性的复合表情特征,融合多个小样本数据集,并划分表情子域,利用多域对抗学习提高识别复合表情的性能。基于生成对抗网络框架,将人脸域、轮廓无关的复合表情域融合在生成网络中以增强多样性和复杂性,设计了两个鉴别器引导生成器。人脸鉴别器使用人脸域,引导并鉴别生成器生成表情无关的人脸身份属性,让生成器具有身份多样性;复合表情融合鉴别器分别将基础表情域和轮廓相关的复合表情域融合在一起,引导并鉴别生成器生成的表情具有复杂性。从而获得兼具多样性和复杂性的高性能鉴别器,提高复合表情的识别性能。
Description
技术领域
本发明属于计算机视觉人脸表情识别技术领域,更具体地,涉及一种多域对抗学习的小样本条件下复合表情识别方法。
背景技术
自然条件下人类的表情往往具有多样性和复杂性的特点。目前大多数表情数据集都以六种基础表情分类为主,很难细腻的刻画人类的真实情感状态。而具有高精度标签的复合表情数据集样本很少,无法在现有深度学习方法中获得良好的性能。
复合表情识别目前可采用通用卷积神经网络方法,如:MobileNet、VGG16、Inception-ResNet等通用网络直接使用。虽然可以获得一定效果,但受两大制约。首先,需要大量的训练样本,否则模型的通用性较差。其次,有方法使用15个ResNet分别检测15种复合表情,6个ResNet分别检测6种基础表情,这样会导致网络参数过大效率低下的问题。
也可采用MSAU-Net,MSAU-Net是一种二阶段的细粒度面部表情识别方法。采用二阶段多标签分类,第一阶段使用DRML基于粗粒度AU检测识别出16个AU特征图,第二阶段将16个AU特征图精细化输出,最后通过多标签分类实现AU特征到多标签组合,根据多个AU的标签组合识别复合表情。训练和推理在一个二阶段网络中进行,因此导致其推理识别阶段的参数规模过大。
因此,需要研究一种适用于小样本条件,且对复合表情识别性能更强的网络结构和识别方法。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种多域对抗学习的小样本条件下复合表情识别方法,其目的在于实现适用于小样本、网络参数规模小且识别精度高的复合表情识别。
为实现上述目的,本发明提供了一种多域对抗学习的小样本条件下复合表情识别方法,包括:
S1.收集复合表情的小样本数据集;
S2.针对复合表情的小样本数据集,划分人脸子域、轮廓无关的复合表情子域、轮廓相关的复合表情子域和基础表情子域;
其中,人脸子域指的是与表情无关的人脸身份;轮廓无关的复合表情子域指的是人脸复合表情中的不包含人脸轮廓的能够表征复合表情的五官部分;轮廓相关的复合表情子域指的包括人脸轮廓部分和复合表情五官部分;基础表情子域,指的是六种基础表情,包括高兴、悲伤、惊讶、生气、愤怒和厌恶;
S3.构建生成器、复合表情鉴别器和人脸身份鉴别器;
生成器,用于融合人脸子域和轮廓无关的复合表情子域,生成兼具身份多样性和复合表情复杂性的合成图像;
复合表情融合鉴别器,用于混合轮廓相关的复合表情子域和基础表情子域,计算交叉过渡空间,引导并判别生成器生成的复合表情图像具有表情复杂性;
人脸鉴别器,用于判断生成器输出的复合表情图像是否符合人脸子域中的人脸特征分布,引导并判别生成器生成的复合表情具有身份多样性;
S4.利用人脸子域、轮廓无关的复合表情子域训练生成器;利用人脸子域训练人脸鉴别器;利用轮廓相关的复合表情子域和基础表情子域训练复合表情融合鉴别器;
S5.将包括人脸的图片输入训练好的复合表情融合鉴别器,输出多种复合表情的分类向量,选择其中softmax值最高的分量向量,得到符合表情分类结果。
进一步地,生成器包括人脸编码器、轮廓无关的复合表情编码器、噪声混合模块、嵌入配对混合域编码模块和混合解码模块;
人脸编码器,用于编码与表情无关的人脸身份信息;
复合表情编码器,用于编码轮廓无关的复合表情特征;
进一步地,生成器的处理过程为:
进一步地,复合表情融合鉴别器包括复合表情识别模块、基础表情识别模块、复合表情全连接层、基础表情全连接层和交叉计算模块;
复合表情识别模块,用于提取轮廓相关的复合表情特征;
基础表情识别模块,用于提取基础表情特征;
复合表情全连接层,用于对轮廓相关的复合表情特征做全连接;
基础表情全连接层,用于对基础表情特征做全连接;
交叉计算模块,用于计算全连接后的复合表情特征向量和基础表情特征向量的交集,根据交集选择其中softmax值最高的分量作为分类结果。
进一步地,复合表情识别模块采用如下公式进行谱归一化;
进一步地,轮廓无关的复合表情子域利用AU先验知识、人脸地标68以及位于前额中心区域地标进行划分。
进一步地,生成器损失函数为:
表示人脸身份分类和复合表情分类损失,表示双交集域损失函数, 和
是控制参数,表示服从的分布下的信息熵,表示人脸标签,表
示生成器生成假人脸图像,复合表情输入图像,表示复合表情输入图像的标签,
表示复合表情融合鉴别器,表示复合表情识别模块,表示基础表情识别模块。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果。
本发明基于已知的AU先验知识,认为复合表情存在于基础表情的迁移过程;因此,复合表情是存在于两个基础表情之间的交叉空间中的;并且,AU的局部特征是能够和轮廓整体特征编码融合的,产生多样性的复合表情,实现对小样本数据集的数据增强;具体地,本发明为了获得身份多样性和表情复杂性的模型,在生成器中使用了人脸域和轮廓无关的复合表情域,分别提取特征并融合生成兼具多样性和复杂性的图像。
同时在复合表情的鉴别上,通过两个鉴别器分别鉴别身份和表情,从而减少两组特征的相互影响。本发明认为基础表情和复合表情的交集能够提高复合表情的鉴别能力,因此,采用了融合的方式,将轮廓相关的复合表情和基础表情特征进行融合并计算交叉空间,从而获得复合表情识别性能更强的鉴别器;具体地,在表情鉴别器中使用了复合表情识别模块提取复合表情子域的特征,基础表情识别模块提取基础表情子域的特征;分别对两组特征做全连接,通过将两组全连接结果构造并计算交集空间,从而获得复合表情的识别结果;本发明能够在小样本数据集上获得泛化性强的小尺寸识别模型。
附图说明
图1是训练网络框架示意图。
图2是轮廓无关的复合表情特征AU区域定义。
图3是推理识别流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的一种多域对抗学习的小样本条件下复合表情识别方法,包括以下步骤:
S1.收集复合表情的小样本数据集;
S2.针对复合表情的小样本数据集,划分人脸子域、轮廓无关的复合表情子域、轮廓相关的复合表情子域和基础表情子域;
具体地,本发明使用的小样本复合表情数据集是为了解人类复合情绪的面部表情反应而创建的,具有22个分类,其中6个为基础表情(高兴、愤怒、悲伤、厌恶、惊讶、害怕),1个平静表情,15个复合表情。
数据集共有230个样本,22个表情类别,6670张表情图片,本发明根据多域学习的需求对其划分为四个子集。其中,1号子集是平静表情共计230个样本,被本发明用于构造人脸域。2号子集包括6个基础表情分类共计1610张图片,被文本定义为基础表情域。其余15个复合表情共计5060张图片,被文本定义为复合表情域。15个复合表情被复制为两个副本,一个副本不做预处理直接作为轮廓相关的复合表情子域,另一个副本划分并构造了轮廓无关的复合表情子域;
后续配对的目的是划分轮廓无关的AU(action unit)区域局部信息便于和包含轮廓的面部全局区域进行融合,从而扩大复合表情的数据多样性。为了生成多样性和复杂性的假脸图像,本发明预处理使用了AU区域的硬编码。使用硬编码会随机丢失一些局部信息,但由于可以在训练阶段将来自基础表情域和轮廓相关的复合表情域的交叉信息进行补充,防止了因为小样本下的单一特征过拟合。
因此,本发明预处理使用了基于AU先验知识的区域划分的硬编码方式。首先,本发明使用传统的人脸地标68定位人脸区域。然后,利用 AU 先验知识来划分 5 个 AU 区域,见图1所示,并在表1中进行了AU区域的说明。 为了获得由额叶和皱眉肌肉块产生的AU 变化,本发明还定义了位于前额中心区域的第 69 号地标。 AU 区域 1 和 2 的定位和获取将取决于第 69 号地标。由于个体差异,个体的复合表情并不会都具有完全一致的AU编码组合,因此个体的AU区域会出现随机丢失局部信息的情况,这也是本发明产生多样性的前提因素,
本发明选择的宏表情数据集,主要涵盖6个基础表情分类,由123个样本组成,总共包含1236个表情序列,使用表情峰值帧作为基础表情,则可以使用1236张图像。
两个数据集中共有 353 个人脸身份信息作为人脸域,作为网络的配对输入人脸,其中所包含 2846 个基础表情符号都用作训练集和测试集。两个小样本数据集合计353个人脸身份,2846个基础表情,5060个复合表情,5060个轮廓无关的复合表情,总计7906张图片。
相比其他数十万级的大型表情数据集,本发明所选数据集样本空间极小,便于开展小样本条件下的多域对抗实验。本发明小样本处理特征为以上数据数值边界条件。
S3.构建生成器、复合表情鉴别器和人脸身份鉴别器;
不同于其他生成对抗网络,本发明在生成器中融合人脸子域和轮廓无关的复合表情子域生成身份多样性的复合表情图像;构造人脸鉴别器和复合表情鉴别器,并在复合表情鉴别器混合了轮廓相关的表情子域和基础表情子域计算交叉过渡空间,从而指导生成器生成的复合表情具有复杂性。最终,获得的复合表情鉴别器兼具多样性和复杂性的稳定鉴别能力。
网络的框架如图 2所示,其中,图2中的符号如表2所示;
生成器:生成器的目标是生成兼具身份多样性和复合表情复杂性的合成图像。生
成器根据两组输入分别编码轮廓无关的复合表情 和人脸 。轮廓无关的复合表情
特征编码模块负责编码复合表情,人脸特征编码模块编码与表情无关的人脸身份信
息,例如:轮廓和纹理等。嵌入配对混合域编码模块将人脸特征编码,轮廓无关的复合表
情特征编码和随机噪声 嵌入融合构成配对混合域的特征编码 。
公式(1)定义了生成器的整个计算过程,通过控制人脸和表情特征融入噪声,在Channel-wise上执行的连接操作,再被嵌入编码形成生成特征。然后,对生成特征进行解码还原,最后生成了包含了人脸特征和复合表情特征的合成图像,
通过混合解码模块 解码嵌入配对混合域的特征编码生成图像 ,con
表示矩阵加法,Emb表示嵌入编码。其中 和 是控制参数,用于控制嵌入编码中的特征
强度 和 。 即 和 分别用于控制复合表情的假人脸的多样效果,如果
则生成的特征趋于 的人脸身份特征,反之则倾向于 复合表情特征。 由于 需要控
制了轮廓相关信息,并且为了通过鉴别器 确认身份一致性, 至少大于0.8; 更强调
五官局部复合表情特征,用于控制生成多样性和复杂性,不建议低于1。因此,式(1)满足 且 的边界约束条件。
鉴别器:本发明方法与基础的生成对抗网络框架有所不同,本发明方法包含两个
鉴别器,其中人脸鉴别器 负责鉴别与表情无关的身份特征,以帮助生成器生成多样性的
身份信息;复合表情融合鉴别器 负责鉴别与表情相关的特征,其是将轮廓相关的复合
表情特征 的特征与基础表情特征 融合到鉴别器中计算表情的交集特征,以引导生
成器生成多样性和复杂性的复合表情。 的鉴别效果,也是本发明的最终目标,推理验
证阶段主要使用 的识别能力,其性能决定了小样本条件下训练的复合表情识别效
果。
其中,i,j分别表示i和j的表情分类位置,即表情的两两组合。 表示复合表情
融合鉴别器的分类结果, 表示复合表情识别模块的分类结果, 表示基础表情的分
类结果,其中 init 表示复合表情矩阵的初始化值。 其中θ和μ是可调节的参数,控制复合
表情和基础分类对融合结果产生影响。式(2)中目标是在融合矩阵中计算最可能的表情交
集,交集中既包含了复合表情本身的结果,也包含了基础表情的影响。由于基础表情不可能
出现互斥的组合关系(例如:同时在脸上出现高兴和悲伤两组动作),因此也避免了不可能
的表情交集组合。
生成器决定了样本的多样性,这是提高复合表达识别性能的关键因素。 稳定的生
成器将有助于稳定地生成样本,避免因样本较少而导致的多样性损失。 本发明采用谱范数
(Spectral Norm,SN)约束鉴别器,它控制生成器的边界以降低不稳定性。 由于鉴别器融合
了两个子鉴别器 和 ,鉴别器的训练样本来自轮廓相关的复合表情域和基础表情域。
因此,存在两组独立的网络。通常而言,标准的SN使用幂次迭代来估计网络每一层的激活矩
阵的阈值范数,然后将网络的权重矩阵除以谱范数得到一个边界约束,近似约束为
Lipschitz常数 ,从而规避模块级别的不稳定性。
如果都是用标准普归一化,根据实验发现 比 更快地接近 Lipschitz 常
数。并且实验证明,使用 的SN 范数作为标准谱归一化的乘数,有助于平衡两组参数的归
一化速度,由式(3)定义。 具体来说,本发明使用以下更新规则进行谱归一化,其中 表
示权重矩阵的标准谱范数:
其中, 表示基础表情识别模块的参数,表示复合表情识别模块, 和
有各自独立的参数和全连接(Fully Connected,FC)层,而SN主要控制FC层和上一层的参
数,所以它们使用各自网络范围内的独立SN分别控制。
S4.利用人脸子域、轮廓无关的复合表情子域训练生成器;利用人脸子域训练人脸鉴别器;利用轮廓相关的复合表情子域和基础表情子域训练复合表情融合鉴别器;
训练损失;训练鉴别器的总体目标是区分复合表情和人脸,同时通过一致性约束
验证复合表情和人脸的特征是否正确分离。复合表情融合鉴别器 处理复合表情识别
任务,其中复合表情共有15类,即 , 。人脸鉴别器处理人脸识别任
务, , 表示 个人脸和1个非集合人脸的类任务。人脸鉴别器的损失
函数考虑了真实人脸和假的人脸的联合情况。复合表情融合鉴别器的损失函数则包
含了复合表情鉴别、基础表情鉴别和两者的融合鉴别。可以定义为如下公式:
表示服从的分布下的信息熵,表示人脸标签,表示服从的分布下的信息熵,表示生成图像的人脸和复合表情标签,表
示 服从 的分布下的信息熵,表示复合表情输入图像,表示复合表情输入
图像的标签,表示复合表情的分布,表示服从 的分布下的信息熵,表示 服从 的分布下的信息熵,表示 服从的分布
下的信息熵,通过人脸域的分布指导生成器生成多样性的身份。 的训练主要引导
生成器生成假人脸图像,由于 从 获得真实标签,因此可以直接被鉴别。由于
包含 和,因此 的训练是通过复合表情的轮廓相关域进行的,其中包含 15 个类,
而 的训练是通过基础表情域进行训练的。虽然,基础表情域只包含6个基本标签但是可
以通过式 (2) 可以计算出15个分类。因此,保持了与 的训练结果的尺寸一致。在中包含了复合表情、基础表情和生成假表情的鉴别损失。式(4)用于的训练,式(5)用
于的训练。
生成器的目标是为了欺骗两个鉴别器产生多样性和复杂性的结果。因此,需要尽可能多地提取与面部特征和轮廓无关的复合表情特征。它需要分类损失,分类由人脸身份分类和复合表情分类组成,定义见式(6)。损失函数公式定义如下:
其中 和 是控制参数,用于控制生成方向是倾向于面对特征还是倾向
于复合表情特征,因为复合表情特征是硬编码的局部信息,所以鉴别器需要给予更多的支
持,因为 还包含很多域的基础表情信息。因此,本发明推荐。
由于 使用复合表情轮廓相关域和基础表情域,但生成器是使用面部域和复
合表情轮廓无关域的配对生成的,因此,两组域之间存在一定的差异,本发明的目标是找到
两组域的交集域作为训练目标,使用Wasserstein 距离作为生成对抗的交叉熵。为此,针对
融合域的特点改进了 Wasserstein 距离,并设计了一个双交集域损失函数来帮助生成器
达到其目标,如下所示:
联合式(6)和式(7),可以定义为生成器的损失函数如下:
通过式(8),能够在生成器训练过程更新参数;
S5.将包括人脸的图片输入训练好的复合表情融合鉴别器,输出多种复合表情的分类向量,选择其中softmax值最高的分量向量,得到符合表情分类结果。
本发明在推理的时候仅仅使用鉴别器,模型大约2930万个参数,其优势在于
推理时的网络参数复杂度小,同时复合表情的识别精度高。在完成网络训练后,获得
鉴别器模型后将用于推理识别流程见图3。输出的分类结果为softmax值最大的对应向量编
号,向量编号转化为复合表情标签,通过分类结果与表情映射关系表进行映射,见表3,
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种多域对抗学习的小样本条件下复合表情识别方法,其特征在于,包括:
S1.收集复合表情的小样本数据集;
S2.针对复合表情的小样本数据集,划分人脸子域、轮廓无关的复合表情子域、轮廓相关的复合表情子域和基础表情子域;
其中,人脸子域指的是与表情无关的人脸身份;轮廓无关的复合表情子域指的是人脸复合表情中的不包含人脸轮廓的能够表征复合表情的五官部分;轮廓相关的复合表情子域指的包括人脸轮廓部分和复合表情五官部分;基础表情子域,指的是六种基础表情,包括高兴、悲伤、惊讶、生气、愤怒和厌恶;
S3.构建生成器、复合表情鉴别器和人脸身份鉴别器;
生成器,用于融合人脸子域和轮廓无关的复合表情子域,生成兼具身份多样性和复合表情复杂性的合成图像;
复合表情融合鉴别器,用于混合轮廓相关的复合表情子域和基础表情子域,计算交叉过渡空间,引导并判别生成器生成的复合表情图像具有表情复杂性;
人脸鉴别器,用于判断生成器输出的复合表情图像是否符合人脸子域中的人脸特征分布,引导并判别生成器生成的复合表情具有身份多样性;
S4.利用人脸子域、轮廓无关的复合表情子域训练生成器;利用人脸子域训练人脸鉴别器;利用轮廓相关的复合表情子域和基础表情子域训练复合表情融合鉴别器;
S5.将包括人脸的图片输入训练好的复合表情融合鉴别器,输出多种复合表情的分类向量,选择其中softmax值最高的分量向量,得到符合表情分类结果。
4.根据权利要求2所述的一种多域对抗学习的小样本条件下复合表情识别方法,其特征在于,复合表情融合鉴别器包括复合表情识别模块、基础表情识别模块、复合表情全连接层、基础表情全连接层和交叉计算模块;
复合表情识别模块,用于提取轮廓相关的复合表情特征;
基础表情识别模块,用于提取基础表情特征;
复合表情全连接层,用于对轮廓相关的复合表情特征做全连接;
基础表情全连接层,用于对基础表情特征做全连接;
交叉计算模块,用于计算全连接后的复合表情特征向量和基础表情特征向量的交集,根据交集选择其中softmax值最高的分量作为分类结果。
6.根据权利要求1所述的一种多域对抗学习的小样本条件下复合表情识别方法,其特征在于,轮廓无关的复合表情子域利用AU先验知识、人脸地标68以及位于前额中心区域地标进行划分。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210812089.6A CN114882578B (zh) | 2022-07-12 | 2022-07-12 | 一种多域对抗学习的小样本条件下复合表情识别方法 |
US18/346,760 US11837021B1 (en) | 2022-07-12 | 2023-07-03 | Compound expression recognition method with few samples of multi-domain adversarial learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210812089.6A CN114882578B (zh) | 2022-07-12 | 2022-07-12 | 一种多域对抗学习的小样本条件下复合表情识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114882578A true CN114882578A (zh) | 2022-08-09 |
CN114882578B CN114882578B (zh) | 2022-09-06 |
Family
ID=82683567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210812089.6A Active CN114882578B (zh) | 2022-07-12 | 2022-07-12 | 一种多域对抗学习的小样本条件下复合表情识别方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11837021B1 (zh) |
CN (1) | CN114882578B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117978838A (zh) * | 2024-03-28 | 2024-05-03 | 武汉烽火信息集成技术有限公司 | 一种数字身份下的自动编解码可信合约验证及交互方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657554A (zh) * | 2018-11-21 | 2019-04-19 | 腾讯科技(深圳)有限公司 | 一种基于微表情的图像识别方法、装置以及相关设备 |
US10504268B1 (en) * | 2017-04-18 | 2019-12-10 | Educational Testing Service | Systems and methods for generating facial expressions in a user interface |
CN112364705A (zh) * | 2020-10-16 | 2021-02-12 | 天津大学 | 基于多层次特征融合的轻量型cnn的表情识别方法 |
US20210081653A1 (en) * | 2019-09-18 | 2021-03-18 | Via Technologies, Inc. | Method and device for facial image recognition |
CN112990078A (zh) * | 2021-04-02 | 2021-06-18 | 深圳先进技术研究院 | 一种基于生成式对抗网络的人脸表情生成方法 |
CN113743389A (zh) * | 2021-11-08 | 2021-12-03 | 武汉烽火信息集成技术有限公司 | 一种面部表情识别的方法、装置和电子设备 |
CN114333027A (zh) * | 2021-12-31 | 2022-04-12 | 之江实验室 | 基于联合和交替学习框架的跨域新类人脸表情识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652121B (zh) * | 2020-06-01 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 一种表情迁移模型的训练方法、表情迁移的方法及装置 |
-
2022
- 2022-07-12 CN CN202210812089.6A patent/CN114882578B/zh active Active
-
2023
- 2023-07-03 US US18/346,760 patent/US11837021B1/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10504268B1 (en) * | 2017-04-18 | 2019-12-10 | Educational Testing Service | Systems and methods for generating facial expressions in a user interface |
CN109657554A (zh) * | 2018-11-21 | 2019-04-19 | 腾讯科技(深圳)有限公司 | 一种基于微表情的图像识别方法、装置以及相关设备 |
US20210081653A1 (en) * | 2019-09-18 | 2021-03-18 | Via Technologies, Inc. | Method and device for facial image recognition |
CN112364705A (zh) * | 2020-10-16 | 2021-02-12 | 天津大学 | 基于多层次特征融合的轻量型cnn的表情识别方法 |
CN112990078A (zh) * | 2021-04-02 | 2021-06-18 | 深圳先进技术研究院 | 一种基于生成式对抗网络的人脸表情生成方法 |
CN113743389A (zh) * | 2021-11-08 | 2021-12-03 | 武汉烽火信息集成技术有限公司 | 一种面部表情识别的方法、装置和电子设备 |
CN114333027A (zh) * | 2021-12-31 | 2022-04-12 | 之江实验室 | 基于联合和交替学习框架的跨域新类人脸表情识别方法 |
Non-Patent Citations (2)
Title |
---|
YING-HSIU LAI 等: "Emotion-Preserving Representation Learning via Generative Adversarial Network for Multi-View Facial Expression Recognition", 《2018 13TH IEEE INTERNATIONAL CONFERENCE ON AUTOMATIC FACE & GESTURE RECOGNITION (FG 2018)》 * |
卢情义: "基于领域适应的跨角度面部表情图像生成和识别", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117978838A (zh) * | 2024-03-28 | 2024-05-03 | 武汉烽火信息集成技术有限公司 | 一种数字身份下的自动编解码可信合约验证及交互方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114882578B (zh) | 2022-09-06 |
US11837021B1 (en) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875818B (zh) | 基于变分自编码机与对抗网络结合的零样本图像分类方法 | |
Dash et al. | A review of generative adversarial networks (GANs) and its applications in a wide variety of disciplines: from medical to remote sensing | |
Huang et al. | Generative dual adversarial network for generalized zero-shot learning | |
CN109492662B (zh) | 一种基于对抗自编码器模型的零样本图像分类方法 | |
Hu et al. | A novel visual representation on text using diverse conditional gan for visual recognition | |
Rudolph et al. | Structuring autoencoders | |
CN114882578B (zh) | 一种多域对抗学习的小样本条件下复合表情识别方法 | |
Padala et al. | Effect of input noise dimension in GANs | |
Ghatas et al. | Gankin: generating kin faces using disentangled gan | |
Li et al. | Diversified text-to-image generation via deep mutual information estimation | |
CN114972016A (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 | |
Boutros et al. | Exfacegan: Exploring identity directions in gan’s learned latent space for synthetic identity generation | |
Meng et al. | Adversarial transformers for weakly supervised object localization | |
Saqlain et al. | Evolution and effectiveness of loss functions in generative adversarial networks | |
Boutros et al. | Sface2: Synthetic-based face recognition with w-space identity-driven sampling | |
Padala et al. | Effect of input noise dimension in GANs | |
Zeno et al. | IP-GAN: learning identity and pose disentanglement in generative adversarial networks | |
Shamshad et al. | Evading Forensic Classifiers with Attribute-Conditioned Adversarial Faces | |
Liu et al. | Unstoppable Attack: Label-Only Model Inversion via Conditional Diffusion Model | |
Tang et al. | Few-sample generation of amount in figures for financial multi-bill scene based on GAN | |
Daryani et al. | IRL-Net: Inpainted Region Localization Network via Spatial Attention | |
Manisha et al. | Effect of input noise dimension in gans | |
Gomes et al. | Realistic Facial Deep Fakes Detection Through Self-Supervised Features Generated by a Self-Distilled Vision Transformer | |
Habib et al. | GAC-Text-to-Image Synthesis with Generative Models using Attention Mechanisms with Contrastive Learning | |
Muneer et al. | Deep Learning Approach For Facial Age Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |