CN113239833B - 一种基于双分支干扰分离网络的人脸表情识别方法 - Google Patents
一种基于双分支干扰分离网络的人脸表情识别方法 Download PDFInfo
- Publication number
- CN113239833B CN113239833B CN202110551957.5A CN202110551957A CN113239833B CN 113239833 B CN113239833 B CN 113239833B CN 202110551957 A CN202110551957 A CN 202110551957A CN 113239833 B CN113239833 B CN 113239833B
- Authority
- CN
- China
- Prior art keywords
- interference
- branch
- features
- expression
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000008921 facial expression Effects 0.000 title claims abstract description 36
- 238000000926 separation method Methods 0.000 title claims abstract description 16
- 230000014509 gene expression Effects 0.000 claims abstract description 90
- 230000008447 perception Effects 0.000 claims abstract description 21
- 230000002452 interceptive effect Effects 0.000 claims abstract description 17
- 235000021170 buffet Nutrition 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000001815 facial effect Effects 0.000 claims description 5
- 230000007935 neutral effect Effects 0.000 claims description 4
- 206010063659 Aversion Diseases 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000013526 transfer learning Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 2
- 238000004088 simulation Methods 0.000 claims 1
- 238000013508 migration Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000005012 migration Effects 0.000 abstract description 2
- 238000007430 reference method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 101100136092 Drosophila melanogaster peng gene Proteins 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 108010014172 Factor V Proteins 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
一种基于双分支干扰分离网络的人脸表情识别方法,涉及计算机视觉技术。提供可以处理表情图像中多种干扰因素的一种基于双分支干扰分离网络的人脸表情识别方法。首先设计一个双分支网络来分开学习表情特征和干扰特征,再根据干扰特征的不同类型在干扰分支中设计标签感知子分支和无标签子分支。在标签感知子分支中,利用辅助数据集的标签信息和迁移学习的方式学习常见干扰特征。在无标签子分支中,引入印度自助餐过程理论学习潜在干扰特征。最后,通过对抗学习,进一步分离干扰特征和表情特征,从而获得更有判别力的表情特征进行分类预测,有效地提升表情识别的性能。
Description
技术领域
本发明涉及计算机视觉技术,尤其是涉及一种基于双分支干扰分离网络的人脸表情识别方法。
背景技术
近年来,基于深度学习的人脸表情识别算法取得重大进展。但是,人脸表情图像中存在许多种干扰因素,例如身份、头部姿态、光照等。这些干扰因素严重影响表情特征的提取,降低表情识别算法的性能。因此,分离干扰因素对提升表情识别的性能非常重要。
表情图像中存在一些常见的干扰因素,例如身份和头部姿态变换。因为部分数据集包含这些因素的标注,所以大多数算法利用现有的标签信息来显式地学习常见干扰特征。比如Can Wang等人(Can Wang,Shangfei Wang,and Guang Liang.2019.Identity-andpose-robust facial expression recognition through adversarial featurelearning.In Proceedings of the ACM International Conference onMultimedia.238–246.)利用身份和姿态的标签信息来抑制身份变换和姿态变换的影响;Jiawei Chen等人(Jiawei Chen,Janusz Konrad,and Prakash Ishwar.2018.Vgan-basedimage representation learning for privacy-preserving facial expressionrecognition.In Proceedings of the IEEE Conference on Computer Vision andPattern Recognition Workshops.1570–1579.)利用生成对抗网络来合成不同身份和姿态的图像,进而帮助模型学习身份不变特征和姿态不变特征;Delian Ruan等人(DelianRuan,Yan Yan,Si Chen,Jing-Hao Xue,and Hanzi Wang.2020.Deep disturbance-disentangled learning for facial expression recognition.In Proceedings of theACM International Conference on Multimedia.2833–2841)采用对抗迁移学习的方式,同时学习多种干扰因素。但是这些方法需要借助干扰因素的标签,导致学到的常见干扰因素类型是有限的,因此忽略一些潜在的干扰因素,例如发型、遮挡和配饰等。近年来,有些方法不使用干扰因素的标签信息,隐式地分离干扰因素。比如Marah Halawa等人(MarahHalawa,ManuelEduardo Vellasques,Urko SánchezSanz,and OlafHellwich.2020.Learning disentangled expression representations from facialimages.arXiv preprint arXiv:2008.07001(2020).)使用对抗学习来区分干扰特征和表情特征;Huiyuan Yang等人(Huiyuan Yang,Umur Ciftci,and Lijun Yin.2018.Facialexpression recognition by de-expression residue learning.In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition.2168–2177)通过学习中性脸图像和表情图像之间的差异信息作为表情相关信息,排除表情无关的干扰特征。但是这些方法没有对常见干扰因素和潜在干扰因素加以区分,而是用相同的方式来学习。对于常见干扰因素而言,由于缺少先验信息,导致它们的学习效果不够理想。
发明内容
本发明的目的在于针对现有技术存在的上述难题,提供可以处理表情图像中多种干扰因素的一种基于双分支干扰分离网络的人脸表情识别方法。
本发明包括以下步骤:
1)收集人脸表情识别数据集,并划分为训练集和测试集,然后进行图像预处理;
2)预训练骨干网络,提取共享特征,再分别送入干扰分支和表情分支;
3)将干扰分支细化成两个子分支,对不同类型的干扰因素进行特征提取;
4)在干扰分支的标签感知子分支中,利用迁移学习的方式提取常见干扰特征;
5)在干扰分支的无标签子分支中,利用印度自助餐过程的理论模拟潜在干扰特征的分布,学习潜在干扰特征;
6)将步骤4)和步骤5)得到的干扰特征,分别送入相应的对抗分类器中进行对抗学习,扩大两类干扰特征与表情特征的差异性;
7)将步骤2)中所得到的共享特征送入表情分支提取表情特征,对表情特征进行分类,得到最后的分类结果,即预测所属类别。
在步骤1)中,所述人脸表情识别数据集采用公开数据集RAF-DB和SFEW。RAF-DB数据集采集互联网中29672张不同的人脸图像,其中15339张图像标注7种不同的表情类别,7种不同的表情为中性、高兴、愤怒、悲伤、惊讶、害怕和厌恶;将标注7种表情类别的图像进行划分,得到12271张训练样本和3068张测试样本;SFEW数据集采集真实场景下的人脸图像,标注7种表情类别,含有958张图像的训练集和436张图像的验证集,通常在测试中使用验证集,然后对训练样本进行随机剪裁、随机翻转、规范化等预处理操作,进一步扩充训练样本的丰富性。
在步骤2)中,所述骨干网络采用ResNet-18网络进行改造;ResNet-18由一个卷积层、八个残差模块、一个平均池化操作和一个全连接层组成;但由于骨干网络只涉及共享特征的提取,不涉及分类操作;为使其适用于表情识别任务,修改ResNet-18最后的平均池化和全连接操作,使其输出2048维的特征向量作为共享特征;所述骨干网络利用大型人脸数据集MS-Celeb-1M进行预训练,有利于提高模型性能;骨干网络提取的共享特征分别输入到干扰分支和表情分支中。
在步骤3)中,将干扰分支细化成标签感知子分支和无标签子分支;在标签感知子分支中利用常见干扰因素的标签信息作为辅助,学习常见干扰特征;在无标签子分支中,对没有标签信息辅助学习的潜在干扰因素,用无监督的方式学习潜在干扰特征。
在步骤4)中,引入含有M种常见干扰因素标签的辅助数据集,预训练一个参考干扰特征提取网络,可以输出参考干扰特征;然后将步骤2)中得到的共享特征送入干扰分支中的标签感知子分支,提取常见干扰特征;最小化常见干扰特征与参考干扰特征的差异性,让常见干扰特征与参考干扰特征尽可能地相像,使辅助数据集中常见干扰因素的先验知识能够迁移到标签感知子分支中,缓解训练样本缺少常见干扰因素标签的困难。
在步骤5)中,在干扰分支的无标签子分支中,利用印度自助餐过程的理论模拟潜在干扰特征的分布,学习潜在干扰特征,进一步包含以下子步骤:
5.1首先假设用一个存在矩阵和一个权重矩阵来构成潜在干扰特征;假设在N张图像中一共有K种潜在干扰因素,用一个存在矩阵D∈{0,1}N×K来表示潜在干扰因素在图像中存在的情况,1表示存在,0表示不存在;引入印度自助餐过程(Indian buffet process,IBP)的理论来学习存在矩阵,假设第k种潜在干扰因素出现的概率为πk,D中的第k列元素值服从概率为πk的伯努利分布,πk的计算如下:
其中,vj来自一组服从贝塔分布的随机向量v,其先验概率密度如下:
p(vj)=Beta(α,1) (公式2)
其中,Beta(·)表示贝塔函数,α为其参数;
因此,存在矩阵中关于第i张图像的行向量Di的先验概率密度为:
5.2假设一个权重矩阵对第i张图像,权重行向量Wi的先验概率密度服从均值为0,方差为1的标准高斯分布,可如下表示:
其中,表示高斯分布,/>表示单位矩阵;
5.3将步骤2)中提取的共享特征送入干扰分支中的无标签子分支,对第i张图像输出均值/>方差/>和噪声/>在后验估计中,分别用Kumaraswamy分布和Concrete分布来近似估计贝塔分布和伯努利分布;因此,随机向量v的后验概率密度计算如下:
q(vj|aj,bj)=Kumaraswamy(aj,bj) (公式5)
其中,aj和bj是网络中的可学习参数;
Di的后验概率密度为:
其中,π=[π1,π2,…,πK],λq是温度参数;
5.4根据均值μi和方差进行高斯采样得到权重向量Wi,所有图像的权重向量构成权重矩阵W;此时,Wi的后验概率密度计算如下:
5.5对v、D和W分别最小化它们各自后验概率密度和先验概率密度之间的差异,约束网络的无标签分支学到近似先验假设的分布,从而实现D和W的准确采样;
5.6通过采样得到D和W,学到的潜在干扰特征可表示为:
fu=D⊙W (公式8)
在步骤6)中,分别用两个对抗分类器与标签感知子分支和无标签子分支进行对抗训练;以无标签子分支为例,先将潜在干扰特征送入对抗分类器中,与表情标签计算交叉熵损失,更新对抗分类器的参数,使它能正确预测表情类别;再固定对抗分类器,将潜在干扰特征送入对抗分类器中,最大化分类器输出的熵,更新无标签子分支的参数,目的是使生成的干扰特征无法让对抗分类器正确预测表情标签,从而与表情特征得以区分;标签感知子分支的对抗训练与无标签子分支类似。
在步骤7)中,将步骤2)中得到的共享特征送入表情分支中,提取表情特征;然后将表情特征送入最后的分类层,预测所属的表情类别;在测试阶段,将图像裁剪成与训练样本一致的尺寸,送入双分支干扰分离网络预测表情类别,最后计算预测准确率作为评估结果。
本发明首先设计一个双分支网络来分开学习表情特征和干扰特征,再根据干扰特征的不同类型在干扰分支中设计标签感知子分支和无标签子分支。在标签感知子分支中,利用辅助数据集的标签信息和迁移学习的方式学习常见干扰特征。在无标签子分支中,引入印度自助餐过程理论学习潜在干扰特征。最后,通过对抗学习,进一步分离干扰特征和表情特征,从而获得更有判别力的表情特征进行分类预测,有效地提升表情识别的性能。
本发明采用多任务框架设计双分支网络,包括干扰分支和表情分支;首先利用预训练的骨干网络提取耦合的共享特征;然后将共享特征分别送入干扰分支和表情分支进行解耦;接着将干扰分支细化成标签感知子分支和无标签子分支,分别对常见的干扰因素和潜在的干扰因素进行特征提取;再通过对抗训练,扩大两类干扰特征和表情特征的差异性,从而分离干扰特征;最后对表情特征进行分类,得到最终的预测结果。本发明采用不同的子分支来分离干扰特征,可以抑制更多类型的干扰因素,有利于学习到更有效的表情特征,从而提升表情识别的性能。
附图说明
图1为本发明实施例的整个网络结构图。
图2为在人脸表情识别数据集SFEW上,原始样本的类别分布图。
图3为在人脸表情识别数据集SFEW上,本发明提出的方法即双分支干扰分离网络与基准方法的样本类别分布效果对比图。在图3中,a为基准方法,b为本发明的方法。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明,本实施例在以本发明技术方案为前提下进行实施,给出实施方式和具体操作过程,但本发明的保护范围不限于下述的实施例。
本发明实施例的实施方式包括以下步骤:
1)收集人脸表情识别数据集,并划分为训练集和测试集,然后进行图像预处理。
所用的人脸表情识别数据集采用公开数据集RAF-DB和SFEW。RAF-DB数据集采集互联网中29672张不同的人脸图像,其中15339张图像标注7种不同的表情类别。将标注7种表情类别的图像进行划分,得到12271张训练样本和3068张测试样本。SFEW数据集采集真实场景下的人脸图像,标注7种表情类别,含有958张图像的训练集和436张图像的验证集,通常在测试中使用验证集。两个数据集的7种表情类别分别为中性、高兴、愤怒、悲伤、惊讶、害怕和厌恶。然后对训练样本进行随机剪裁、随机翻转、规范化等预处理操作,进一步扩充训练样本的丰富性。
2)预训练骨干网络,提取共享特征,分别送入干扰分支和表情分支。
骨干网络采用ResNet-18图像分类网络进行改造。ResNet-18由一个卷积层、八个残差模块、一个平均池化操作和一个全连接层组成。在残差模块中,采用跳跃连接结构,有利于保护信息的完整性。但由于骨干网络只涉及共享特征的提取,不涉及分类操作,为使其适用于表情识别任务,修改ResNet-18最后的平均池化和全连接操作,使其输出2048维的特征向量作为共享特征。该骨干网络利用大型人脸数据集MS-Celeb-1M进行预训练,有利于提高模型对人脸关键区域的特征提取能力。骨干网络提取的共享特征随后输入到干扰分支和表情分支中。
3)将干扰分支细化成两个子分支,对不同类型的干扰因素进行特征提取。
因为共享特征是耦合的,除表情信息以外,还包含常见干扰因素和潜在干扰因素的信息,所以将干扰分支细化成标签感知子分支和无标签子分支,来处理不同类型的干扰因素。在标签感知子分支中利用常见干扰因素的标签信息作为辅助,学习常见干扰特征。在无标签子分支中,对没有标签信息辅助学习的潜在干扰因素,用无监督的方式学习潜在干扰特征。
4)在干扰分支的标签感知子分支中,利用迁移学习的方式提取常见干扰特征。
对于一些常见的干扰因素,比如身份、姿态、光照等,如果利用一些先验知识,会帮助模型更好地学到常见干扰特征。首先,引入含有M种常见干扰因素标签的辅助数据集,预训练一个参考干扰特征提取网络,可以输出参考干扰特征。然后将步骤2)中得到的共享特征送入干扰分支中的标签感知子分支,提取常见干扰特征。最小化常见干扰特征与参考干扰特征的差异性,让常见干扰特征与参考干扰特征尽可能地相像,使辅助数据集中常见干扰因素的先验知识能够迁移到标签感知子分支中,缓解训练样本缺少常见干扰因素标签的困难。
5)在干扰分支的无标签子分支中,利用印度自助餐过程的理论来模拟潜在干扰特征的分布,学习潜在干扰特征。
5.1首先假设用一个存在矩阵和一个权重矩阵来构成潜在干扰特征。假设在N张图像中一共有K种潜在干扰因素,用一个存在矩阵D∈{0,1}N×K来表示潜在干扰因素在图像中存在的情况,1表示存在,0表示不存在。引入印度自助餐过程的理论来学习存在矩阵。假设第k种潜在干扰因素出现的概率为πk,D中的第k列元素值服从概率为πk的伯努利分布。πk的计算如下:
其中,vj来自一组服从贝塔分布的随机向量v,其先验概率密度如下:
p(vj)=Beta(α,1) (公式2)
其中,Beta(·)表示贝塔函数,α为其参数。
因此,存在矩阵中关于第i张图像的行向量Di的先验概率密度为:
5.2假设一个权重矩阵对第i张图像,权重行向量Wi的先验概率密度服从均值为0,方差为1的标准高斯分布,可如下表示:
其中,表示高斯分布,/>表示单位矩阵。
5.3将步骤2)中提取的共享特征送入干扰分支中的无标签子分支,对第i张图像输出均值/>方差/>和噪声/>在后验估计中,分别用Kumaraswamy分布和Concrete分布来近似估计贝塔分布和伯努利分布。因此,随机向量v的后验概率密度计算如下:
q(vj|aj,bj)=Kumaraswamy(aj,bj) (公式5)
其中,aj和bj是网络中的可学习参数。
Di的后验概率密度为:
其中,π=[π1,π2,…,πK],λq是温度参数。
5.4根据均值μi和方差进行高斯采样得到权重向量Wi,所有图像的权重向量构成权重矩阵W。此时,Wi的后验概率密度计算如下:
5.5对v,D和W,分别最小化它们各自后验概率密度和先验概率密度之间的差异,约束网络的无标签分支学到近似先验假设的分布,从而实现D和W的准确采样。
5.6通过采样得到D和W,最后学到的潜在干扰特征可表示为:
fu=D⊙W (公式8)
6)将步骤4)和步骤5)得到的干扰特征,分别送入相应的对抗分类器中进行对抗学习,扩大两类干扰特征与表情特征的差异性。
如图1所示,为进一步区分干扰特征和表情特征,分别用两个对抗分类器与标签感知子分支和无标签子分支进行对抗训练。以无标签子分支为例,先将潜在干扰特征送入对抗分类器中,与表情标签计算交叉熵损失,更新对抗分类器的参数,使它能正确预测表情类别。再固定对抗分类器,将潜在干扰特征送入对抗分类器中,最大化分类器输出的熵,更新无标签子分支的参数,目的是使生成的干扰特征无法让对抗分类器正确预测表情标签,从而与表情特征得以区分。标签感知子分支的对抗训练与无标签子分支类似。
7)将步骤2)中所得到的共享特征送入表情分支提取表情特征,对表情特征进行分类,得到最后的分类结果,即预测所属类别。
将步骤2)中得到的共享特征送入表情分支中,通过两个全连接层提取表情特征。然后将表情特征送入最后的分类层,预测所属的表情类别。
在测试阶段,将图像裁剪成与训练样本一致的尺寸,送入双分支干扰分离网络预测表情类别,最后计算预测准确率作为评估结果。
如图2所示,在SFEW数据集的原始样本分布中,所有类别混合在一起,难以区分。比较图2、图3a和图3b,可以发现:本发明的方法和基准方法可以区分不同类别的样本,并且本发明的分类效果比基准方法更加准确,有效地拉近同类样本的间距,扩大不同类别样本的距离,减小类间相似性和类内差异性。
表1为本发明与其它一些表情识别方法在RAF-DB和SFEW的测试数据上的准确率对比。
从表1可以看出,本发明在两个数据集上都取得最高的表情识别准确率。
表1
DLP-CNN对应为Shan Li等人提出的方法(Shan Li,Weihong Deng,and JunPingDu.2017.Reliable crowdsourcing and deep locality-preserving learning forexpression recognition in the wild.In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2852–2861.);
IACNN对应为Zibo Meng等人提出的方法(Zibo Meng,Ping Liu,Jie Cai,Shizhong Han,and Yan Tong.2017.Identity-aware convolutional neural networkfor facial expression recognition.In Proceedings of the IEEE InternationalConference on Automatic Face and Gesture Recognition.558–565.);
SPDNet对应于Dinesh Acharya等人提出的方法(Dinesh Acharya,Zhiwu Huang,Danda Pani Paudel,and Luc Van Gool.2018.Covariance pooling for facialexpression recognition.In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition Workshops.367–374.);
IPA2LT对应为Jiabei Zeng等人提出的方法(Jiabei Zeng,Shiguang Shan,andXilin Chen.2018.Facial expression recognition with inconsistently annotateddatasets.In Proceedings of the European Conference on Computer Vision.222–237.);
IPFR对应为Can Wang等人提出的方法(Can Wang,Shangfei Wang,and GuangLiang.2019.Identity-and pose-robust facial expression recognition throughadversarial feature learning.In Proceedings of the ACM InternationalConference on Multimedia.238–246.);
RAN对应为Kai Wang等人提出的方法(Kai Wang,Xiaojiang Peng,Jianfei Yang,Debin Meng,and Yu Qiao.2020.Region attention networks for pose and occlusionrobust facial expression recognition.IEEE Transactions on Image Processing29,1(2020),4057–4069.);
SCN对应为Kai Wang等人提出的方法(Kai Wang,Xiaojiang Peng,Jianfei Yang,Shijian Lu,and Yu Qiao.2020.Suppressing uncertainties for large-scale facialexpression recognition.In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.6896–6905.);
DDL对应为Delian Ruan等人提出的方法(Delian Ruan,Yan Yan,Si Chen,Jing-Hao Xue,and Hanzi Wang.2020.Deep disturbance-disentangled learning for facialexpression recognition.In Proceedings of the ACM International Conference onMultimedia.2833–2841.)。
Claims (6)
1.一种基于双分支干扰分离网络的人脸表情识别方法,其特征在于包括以下步骤:
1)收集人脸表情识别数据集,并划分为训练集和测试集,然后进行图像预处理;
2)预训练骨干网络,提取共享特征,再分别送入干扰分支和表情分支;
3)将干扰分支细化成两个子分支,对不同类型的干扰因素进行特征提取;
将干扰分支细化成标签感知子分支和无标签子分支;在标签感知子分支中利用常见干扰因素的标签信息作为辅助,学习常见干扰特征;在无标签子分支中,对没有标签信息辅助学习的潜在干扰因素,用无监督的方式学习潜在干扰特征;
4)在干扰分支的标签感知子分支中,利用迁移学习的方式提取常见干扰特征;
引入含有M种常见干扰因素标签的辅助数据集,预训练一个参考干扰特征提取网络,输出参考干扰特征;然后将步骤2)中得到的共享特征送入干扰分支中的标签感知子分支,提取常见干扰特征;最小化常见干扰特征与参考干扰特征的差异性,让常见干扰特征与参考干扰特征尽可能地相像,使辅助数据集中常见干扰因素的先验知识能够迁移到标签感知子分支中,缓解训练样本缺少常见干扰因素标签的困难;
5)在干扰分支的无标签子分支中,利用印度自助餐过程的理论模拟潜在干扰特征的分布,学习潜在干扰特征;
所述利用印度自助餐过程的理论模拟潜在干扰特征的分布,学习潜在干扰特征,进一步包含以下子步骤:
5.1假设在N张图像中一共有K种潜在干扰因素,用一个存在矩阵D∈{0,1}N×K来表示潜在干扰因素在图像中存在的情况,1表示存在,0表示不存在;引入印度自助餐过程的理论来学习存在矩阵,假设第k种潜在干扰因素出现的概率为πk,D中的第k列元素值服从概率为πk的伯努利分布,πk的计算如下:
其中,vj来自一组服从贝塔分布的随机向量v,其先验概率密度如下:
p(vj)=Beta(α,1)
其中,Beta(·)表示贝塔函数,α为其参数;
存在矩阵中关于第i张图像的行向量Di的先验概率密度为:
5.2假设一个权重矩阵对第i张图像,权重行向量Wi的先验概率密度服从均值为0,方差为1的标准高斯分布,由下式表示:
其中,表示高斯分布,/>表示单位矩阵;
5.3将步骤2)中提取的共享特征送入干扰分支中的无标签子分支,对第i张图像输出均值/>方差/>和噪声/>在后验估计中,分别用Kumaraswamy分布和Concrete分布来近似估计贝塔分布和伯努利分布;随机向量v的后验概率密度计算如下:
q(vj|aj,bj)=Kumaraswamy(aj,bj)
其中,aj和bj是网络中的学习参数;
Di的后验概率密度为:
其中,π=[π1,π2,…,πK],λq是温度参数;
5.4根据均值μi和方差进行高斯采样得到权重向量Wi,所有图像的权重向量构成权重矩阵W;此时,Wi的后验概率密度计算如下:
5.5对v、D和W分别最小化它们各自后验概率密度和先验概率密度之间的差异,约束网络的无标签分支学到近似先验假设的分布,以实现D和W的准确采样;
5.6通过采样得到D和W,最后学到的潜在干扰特征表示为:
fu=D⊙W
其中,⊙表示点乘;
6)将步骤4)和步骤5)得到的干扰特征,分别送入相应的对抗分类器中进行对抗学习,扩大两类干扰特征与表情特征的差异性;
分别用两个对抗分类器与标签感知子分支和无标签子分支进行对抗训练;以无标签子分支为例,先将潜在干扰特征送入对抗分类器中,与表情标签计算交叉熵损失,更新对抗分类器的参数,使它能正确预测表情类别;再固定对抗分类器,将潜在干扰特征送入对抗分类器中,最大化分类器输出的熵,更新无标签子分支的参数,目的是使生成的干扰特征无法让对抗分类器正确预测表情标签,从而与表情特征得以区分;标签感知子分支的对抗训练与无标签子分支类似;
7)将步骤2)中所得到的共享特征送入表情分支提取表情特征,对表情特征进行分类,得到最后的分类结果,预测所属类别。
2.如权利要求1所述一种基于双分支干扰分离网络的人脸表情识别方法,其特征在于在步骤1)中,所述人脸表情识别数据集采用RAF-DB数据集和SFEW数据集。
3.如权利要求2所述一种基于双分支干扰分离网络的人脸表情识别方法,其特征在于所述RAF-DB数据集采集互联网中29672张不同的人脸图像,其中15339张图像标注7种不同的表情类别,7种不同的表情为中性、高兴、愤怒、悲伤、惊讶、害怕和厌恶;将标注7种表情类别的图像进行划分,得到12271张训练样本和3068张测试样本。
4.如权利要求2所述一种基于双分支干扰分离网络的人脸表情识别方法,其特征在于所述SFEW数据集采集真实场景下的人脸图像,标注7种表情类别,含有958张图像的训练集和436张图像的验证集,通常在测试中使用验证集,然后对训练样本进行随机剪裁、随机翻转、规范化预处理操作,进一步扩充训练样本的丰富性。
5.如权利要求1所述一种基于双分支干扰分离网络的人脸表情识别方法,其特征在于在步骤2)中,所述骨干网络采用ResNet-18网络进行改造;ResNet-18由一个卷积层、八个残差模块、一个平均池化操作和一个全连接层组成;但由于骨干网络只涉及共享特征的提取,不涉及分类操作;为使其适用于表情识别任务,修改ResNet-18最后的平均池化和全连接操作,使其输出2048维的特征向量作为共享特征;所述骨干网络利用大型人脸数据集MS-Celeb-1M进行预训练,有利于提高模型性能;骨干网络提取的共享特征分别输入到干扰分支和表情分支中。
6.如权利要求1所述一种基于双分支干扰分离网络的人脸表情识别方法,其特征在于在步骤7)中,将步骤2)中得到的共享特征送入表情分支中,提取表情特征;然后将表情特征送入最后的分类层,预测所属的表情类别;在测试阶段,将图像裁剪成与训练样本一致的尺寸,送入双分支干扰分离网络预测表情类别,最后计算预测准确率作为评估结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110551957.5A CN113239833B (zh) | 2021-05-20 | 2021-05-20 | 一种基于双分支干扰分离网络的人脸表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110551957.5A CN113239833B (zh) | 2021-05-20 | 2021-05-20 | 一种基于双分支干扰分离网络的人脸表情识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113239833A CN113239833A (zh) | 2021-08-10 |
CN113239833B true CN113239833B (zh) | 2023-08-29 |
Family
ID=77137858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110551957.5A Active CN113239833B (zh) | 2021-05-20 | 2021-05-20 | 一种基于双分支干扰分离网络的人脸表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239833B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508669A (zh) * | 2018-11-09 | 2019-03-22 | 厦门大学 | 一种基于生成式对抗网络的人脸表情识别方法 |
WO2019119396A1 (zh) * | 2017-12-22 | 2019-06-27 | 中国科学院深圳先进技术研究院 | 人脸表情识别方法及装置 |
CN110276248A (zh) * | 2019-05-10 | 2019-09-24 | 杭州电子科技大学 | 一种基于样本权值分配和深度学习的人脸表情识别方法 |
CN111160189A (zh) * | 2019-12-21 | 2020-05-15 | 华南理工大学 | 一种基于动态目标训练的深度神经网络人脸表情识别方法 |
CN111178312A (zh) * | 2020-01-02 | 2020-05-19 | 西北工业大学 | 基于多任务特征学习网络的人脸表情识别方法 |
CN111414862A (zh) * | 2020-03-22 | 2020-07-14 | 西安电子科技大学 | 基于神经网络融合关键点角度变化的表情识别方法 |
CN111652171A (zh) * | 2020-06-09 | 2020-09-11 | 电子科技大学 | 一种基于双分支网络的面部表情识别模型的构建方法 |
US10839269B1 (en) * | 2020-03-20 | 2020-11-17 | King Abdulaziz University | System for fast and accurate visual domain adaptation |
CN112070058A (zh) * | 2020-09-18 | 2020-12-11 | 深延科技(北京)有限公司 | 人脸面部复合情感表情识别方法及系统 |
CN112200110A (zh) * | 2020-10-19 | 2021-01-08 | 厦门大学 | 一种基于深度干扰分离学习的人脸表情识别方法 |
CN112686083A (zh) * | 2019-10-18 | 2021-04-20 | 复旦大学 | 基于组合对抗生成网络的人脸微表情深度学习识别系统 |
WO2021073417A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 表情生成方法、装置、设备及存储介质 |
CN112766134A (zh) * | 2021-01-14 | 2021-05-07 | 江南大学 | 一种强化类间区分的表情识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016145379A1 (en) * | 2015-03-12 | 2016-09-15 | William Marsh Rice University | Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification |
-
2021
- 2021-05-20 CN CN202110551957.5A patent/CN113239833B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019119396A1 (zh) * | 2017-12-22 | 2019-06-27 | 中国科学院深圳先进技术研究院 | 人脸表情识别方法及装置 |
CN109508669A (zh) * | 2018-11-09 | 2019-03-22 | 厦门大学 | 一种基于生成式对抗网络的人脸表情识别方法 |
CN110276248A (zh) * | 2019-05-10 | 2019-09-24 | 杭州电子科技大学 | 一种基于样本权值分配和深度学习的人脸表情识别方法 |
CN112686083A (zh) * | 2019-10-18 | 2021-04-20 | 复旦大学 | 基于组合对抗生成网络的人脸微表情深度学习识别系统 |
WO2021073417A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 表情生成方法、装置、设备及存储介质 |
CN111160189A (zh) * | 2019-12-21 | 2020-05-15 | 华南理工大学 | 一种基于动态目标训练的深度神经网络人脸表情识别方法 |
CN111178312A (zh) * | 2020-01-02 | 2020-05-19 | 西北工业大学 | 基于多任务特征学习网络的人脸表情识别方法 |
US10839269B1 (en) * | 2020-03-20 | 2020-11-17 | King Abdulaziz University | System for fast and accurate visual domain adaptation |
CN111414862A (zh) * | 2020-03-22 | 2020-07-14 | 西安电子科技大学 | 基于神经网络融合关键点角度变化的表情识别方法 |
CN111652171A (zh) * | 2020-06-09 | 2020-09-11 | 电子科技大学 | 一种基于双分支网络的面部表情识别模型的构建方法 |
CN112070058A (zh) * | 2020-09-18 | 2020-12-11 | 深延科技(北京)有限公司 | 人脸面部复合情感表情识别方法及系统 |
CN112200110A (zh) * | 2020-10-19 | 2021-01-08 | 厦门大学 | 一种基于深度干扰分离学习的人脸表情识别方法 |
CN112766134A (zh) * | 2021-01-14 | 2021-05-07 | 江南大学 | 一种强化类间区分的表情识别方法 |
Non-Patent Citations (1)
Title |
---|
Discriminative local difference patterns for robust face recognition;严严;ELECTRONICS LETTERS;第51卷(第25期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113239833A (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108960140B (zh) | 基于多区域特征提取和融合的行人再识别方法 | |
Ye et al. | Augmentation invariant and instance spreading feature for softmax embedding | |
WO2022037233A1 (zh) | 一种基于自监督知识迁移的小样本视觉目标识别方法 | |
Chen et al. | Learning linear regression via single-convolutional layer for visual object tracking | |
CN108764019A (zh) | 一种基于多源深度学习的视频事件检测方法 | |
CN112200245A (zh) | 一种基于半监督的图像分类方法 | |
CN114170410A (zh) | 基于PointNet的图卷积与KNN搜索的点云零件级分割方法 | |
Xu et al. | Task-aware meta-learning paradigm for universal structural damage segmentation using limited images | |
Liu et al. | Disentangled capsule routing for fast part-object relational saliency | |
CN110503113B (zh) | 一种基于低秩矩阵恢复的图像显著性目标检测方法 | |
CN110598022B (zh) | 一种基于鲁棒深度哈希网络的图像检索系统与方法 | |
CN112308128A (zh) | 一种基于注意力机制神经网络的图像匹配方法 | |
Chen et al. | Adversarial learning of object-aware activation map for weakly-supervised semantic segmentation | |
Zhang | Sports action recognition based on particle swarm optimization neural networks | |
Nawaz et al. | Hand written characters recognition via deep metric learning | |
CN112348001A (zh) | 表情识别模型的训练方法、识别方法、装置、设备及介质 | |
CN113239833B (zh) | 一种基于双分支干扰分离网络的人脸表情识别方法 | |
CN113705713B (zh) | 一种基于全局和局部注意力机制的文本识别方法 | |
CN113516118B (zh) | 一种图像与文本联合嵌入的多模态文化资源加工方法 | |
Chen et al. | DVHN: A Deep Hashing Framework for Large-scale Vehicle Re-identification | |
CN114359786A (zh) | 一种基于改进时空卷积网络的唇语识别方法 | |
Du et al. | Inter-domain fusion and intra-domain style normalization network for unsupervised domain adaptive person re-identification | |
Kong et al. | A one-shot learning approach for similarity retrieval of wafer bin maps with unknown failure pattern | |
Yang | Continuous epoch distance integration for unsupervised person Re-identification | |
Boudraa et al. | Combination of local features and deep learning to historical manuscripts dating |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |