CN115482575A - 一种基于标记分布学习的面部表情识别方法 - Google Patents
一种基于标记分布学习的面部表情识别方法 Download PDFInfo
- Publication number
- CN115482575A CN115482575A CN202211216764.5A CN202211216764A CN115482575A CN 115482575 A CN115482575 A CN 115482575A CN 202211216764 A CN202211216764 A CN 202211216764A CN 115482575 A CN115482575 A CN 115482575A
- Authority
- CN
- China
- Prior art keywords
- image
- expression
- classification
- loss
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于标记分布学习的面部表情识别方法,属于深度学习与面部表情识别技术领域。本发明包括:对人脸图像预处理以,进行人脸检测和对齐;输入表情图像,提取表情图像特征;对特征分类并以降低特征分类熵为目标优化特征提取网络;利用高斯函数为表情图像生成标记分布,并将之作为一种ground‑truth;重建网络模型,输入表情图像,提取表情图像特征;对图像进行分类并以降低交叉熵损失和KL散度损失为目标优化特征提取网络;分类损失小于停止迭代阈值,输出分类结果。本发明将样本分类损失转化成为标准差,通过高斯函数为样本生成标记分布,获得的标记分布不仅表示了各类表情描述样本的程度,而且更表示了表情的强度,能够提高模型的识别效果。
Description
技术领域
本发明属于深度学习与面部表情识别技术领域,具体涉及一种基于标记分布学习的面部表情识别方法。
背景技术
面部表情是人类表达情绪状态和意图的最自然、最有力、最普遍的信号之一,是人类沟通交流的重要手段。面部表情识别因其在现实世界应用中的部分重要性而受到越来越多的关注,例如人机交互、医疗保健、驾驶员疲劳检测等。面部表情的自动识别是机器学习领域内的热门研究方向,具有重要的理论研究意义和广泛的实际应用价值。早在二十世纪,Ekman和Friesen就根据跨文化研究定义了六种基本情绪:愤怒(Anger)、厌恶(Disgust)、恐惧(Fear)、快乐(Happiness)、悲伤(Sadness)和惊讶(Surprise)。轻蔑(Contempt)随后被添加为基本情绪之一。在过去的几十年里,相当多的深度学习方法被应用于面部表情识别,这些方法多数使用单个或者某几个基本表情描述一张表情图像。近年来,研究表明真实世界的表情可能是模棱两可的,并且混合了多种基本表情。
基于标记分布学习的方法将多个不同强度的标签作为ground-truth来缓解标签模糊性的问题,很适合解决面部表情识别问题,并且获得了显著的效果。然而,由于大多数现有表情数据集都仅具有One-hot标签而不是标记分布,因此直接应用标记分布学习是不切实际的。一种方法是使用高斯函数为样本生成标记分布。已存的大多数方法将高斯函数中的标准差固定取值(如0.7,3等),这会使得同类表情的标记分布相同,不能真实地表示出不同强度表情之间的差异。因此研究有效的标记分布生成方法为数据集生成更符合事实的标记分布显得尤为重要。
发明内容
本发明公开了一种基于标记分布学习的面部表情识别方法,以提升基于深度学习的面部表情的识别性能。
本发明采用的技术方案为:
一种基于标记分布学习的面部表情识别方法,该方法包括下列步骤:
步骤1,构建面部表情图像数据集,并对面部表情图像数据集进行预处理:对图像数据集中的各图像进人脸检测与对齐处理,再归一化图像尺寸(例如224*224),以与图像分类特征提取网络的输入相匹配,得到一幅图像样本,并为每个图像样本设置对应的面部表情标签;
步骤2,构建图像分类网络模型:在图像分类特征提取网络后依次连接一个全连接层和分类层,其中,全连接层的输出维度和表情类别数量相同,每个神经元均代表一个类,其输出为图像分类网络模型的输入图像(表情图像)属于各表情类别的可能性,即当前输入图像的表情类别概率,分类层将全连接层输出的表情类别概率归一化并使其符合高斯分布;
步骤3,基于一定数量的图像样本对图像分类网络模型进行网络参数训练,直到分类交叉熵损失变化量小于给定阈值时,执行步骤4;
步骤4,计算各图像样本的分类交叉熵损失,并将分类交叉熵损失值转换应用高斯函数计算获得对应表情图像的标记分布;
步骤5,以图像样本的标记分布作为图像样本的ground-truth标签,对步骤2构建的图像分类网络模型重新进行网络参数训练,训练时,以降低分类交叉熵损失和KL(相对熵)散度损失作为目标优化图像分类特征提取网络,即训练时,图像分类网络模型的损失为分类交叉熵与相对熵散度损失的加权和,当图像分类网络模型的损失的变化量小于给定阈值时停止,得到训练好的图像分类网络模型;
步骤6,对待识别人脸图像进行尺寸归一化,以匹配图像分类网络模型的输入,再将尺寸归一化后的待识别人脸图像输入训练好的图像分类网络模型,获取待识别人脸图像的面部表情识别结果:最大表情类别概率所对应的表情。
进一步的,对面部表情图像数据集进行预处理还包括:采用随机裁剪、随机水平翻转和随机擦除以避免过度拟合。
进一步的,图像分类特征提取网络可选取ResNet18的第一层至倒数第二层,并在人脸识别数据集(例如MS-Celeb-1M)上进行预训练。
进一步的,分类层输出的归一化后的表情类别概率为:其中,pij表示归一化后的第i个输入图像属于类别j的概率,e表示自然底数,θk表示全连接层输出的各类别的概率,Y表示类别数,θj表示全连接层输出的类别j的概率。
进一步的,步骤4中,将分类交叉熵损失值转换应用高斯函数计算获得对应表情图像的标记分布,具体为:
利用高斯函数计算标记分布:
进一步的,步骤4中,通过高斯函数计算标记分布时,可采用Mikels’wheel固定表情类别顺序。
进一步的,步骤5中,图像分类网络模型的损失为:
L=(1-λ)LC(x,y)+λLD(x,l)
其中,λ表示预置的权重,交叉熵损失KL损失其中,N表示训练时一轮(epochs)的图像样本数量,C表示类别数,yi表示真实标签,x表示输入图像,y表示x的标签表示,l表示步骤4中计算所得x的标记分布表示。
进一步的,步骤3和步骤5中,给定阈值均设置为0.001。
本发明提供的技术方案至少带来如下有益效果:
(1)基于高斯函数自动为表情数据集生成标记分布,节省人力与时间成本。
(2)基于高斯函数自动生成标记分布,生成的标记分布不仅表示了各类表情描述图像中表情的程度,而且表示了表情的强度,更符合事实,有利于模型学习有意义的特征,提高面部表情识别模型的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种基于标记分布学习的面部表情识别方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明旨在解决现有基于标记分布学习的表情识别模型中,使用固定标准差的单变量高斯函数为表情图像生成标记分布使得同类表情的标记分布相同,不能真实地表示出不同强度表情之间的差异,影响模型识别效果的问题。为此,本发明提出了一种基于标记分布学习的面部表情识别方法,其通过训练深度学习模型学习表情图像特征,考虑将样本分类损失转化成为标准差,通过高斯函数计算其对应的标记分布,依此获得的标记分布不仅表示了各类表情描述样本的程度,而且更表示了表情的强度,更符合事实。后续通过将生成的标记分布作为一种ground-truth,训练模型,使模型学习到更有意义的表情特征。
如图1所示,本发明实施例提供的基于标记分布学习的面部表情识别方法包括:1)对人脸图像预处理,进行人脸检测和对齐,得到表情图像;2)输入表情图像,提取表情图像特征;3)对特征分类并以降低特征分类熵为目标优化特征提取网络;4)利用高斯函数为表情图像生成标记分布,并将之作为一种ground-truth;5)重建网络模型,输入表情图像,提取表情图像特征;6)对图像进行分类并以降低交叉熵损失和KL散度损失为目标优化特征提取网络;7)分类损失小于停止迭代阈值,输出分类结果。
作为一种可能的实现方式,本发明实施例提供的基于标记分布学习的面部表情识别方法包括了以下步骤:
步骤1:构建实验用数据集,按照90%训练集,10%验证集将实验数据集分为训练集和验证集,本实施例选用的数据集为CK+数据集(Extended Cohn-Kanade数据集);
步骤2:进行人脸检测与对齐,处理图像尺寸为224*224时,采用随机裁剪、随机水平翻转和随机擦除以避免过度拟合;
步骤3:建立用于图像特征提取的ResNet18网络模型,修改特征提取网络模型的全连接层和一层用于计算目标分布的分类层,在人脸识别数据集MS-Celeb-1M上进行预训练;
步骤4:将所有训练集样本输入进该模型,输出每个样本属于各个类的概率分布,根据公式:
步骤5:计算分类交叉熵损失,按照反向传播规则优化模型参数;
步骤6:计算本次训练的损失和上一轮训练的损失的变化率:
步骤7:利用高斯函数计算样本标记分布,将步骤5中样本损失值转化成为标准差,计算公式为:
其中,
步骤8:按照步骤3重新构建模型;
步骤9:将所有训练集样本输入进该模型,输出每个样本属于各个类的概率分布;
步骤10:根据模型损失公式:L=(1-λ)LC(x,y)+λLD(x,l),计算模型损失,按照反向传播规则优化模型参数;
步骤12:将验证集输入到训练完成的网络中,输出分类结果。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (7)
1.一种基于标记分布学习的面部表情识别方法,其特征在于,包括下列步骤:
步骤1,构建面部表情图像数据集,并对面部表情图像数据集进行预处理:对图像数据集中的各图像进行人脸检测与对齐处理,再归一化图像尺寸,以与图像分类特征提取网络的输入相匹配,得到一幅图像样本,并为每个图像样本设置对应的面部表情标签;
步骤2,构建图像分类网络模型:在图像分类特征提取网络后依次连接一个全连接层和分类层,其中,全连接层的输出维度和表情类别数量相同,其输出为当前输入图像的表情类别概率,分类层将全连接层输出的表情类别概率归一化并使其符合高斯分布;
步骤3,基于一定数量的图像样本对图像分类网络模型进行网络参数训练,直到分类交叉熵损失变化量小于给定阈值时,执行步骤4;
步骤4,计算各图像样本的分类交叉熵损失,并将分类交叉熵损失值转换应用高斯函数计算获得对应表情图像的标记分布;
步骤5,以图像样本的标记分布作为图像样本的ground-truth标签,对步骤2构建的图像分类网络模型重新进行网络参数训练,训练时,图像分类网络模型的损失为分类交叉熵与相对熵散度损失的加权和,当图像分类网络模型的损失的变化量小于给定阈值时停止,得到训练好的图像分类网络模型;
步骤6,对待识别人脸图像进行尺寸归一化,以匹配图像分类网络模型的输入,再将尺寸归一化后的待识别人脸图像输入训练好的图像分类网络模型,获取待识别人脸图像的面部表情识别结果:最大表情类别概率所对应的表情。
2.如权利要求1所述的方法,其特征在于,对面部表情图像数据集进行预处理还包括:采用随机裁剪、随机水平翻转和随机擦除以避免过度拟合。
3.如权利要求1所述的方法,其特征在于,图像分类特征提取网络选取ResNet18的第一层至倒数第二层,并在人脸识别数据集上进行预训练。
6.如权利要求1所述的方法,其特征在于,步骤5中,损失为分类交叉与相对熵散度损失的权重之和为1。
7.如权利要求1所述的方法,其特征在于,步骤3和步骤5中,给定阈值均设置为0.001。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211216764.5A CN115482575A (zh) | 2022-09-30 | 2022-09-30 | 一种基于标记分布学习的面部表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211216764.5A CN115482575A (zh) | 2022-09-30 | 2022-09-30 | 一种基于标记分布学习的面部表情识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115482575A true CN115482575A (zh) | 2022-12-16 |
Family
ID=84393801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211216764.5A Pending CN115482575A (zh) | 2022-09-30 | 2022-09-30 | 一种基于标记分布学习的面部表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115482575A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116363737A (zh) * | 2023-06-01 | 2023-06-30 | 北京烽火万家科技有限公司 | 一种人脸图像属性编辑方法、系统、电子设备及存储介质 |
-
2022
- 2022-09-30 CN CN202211216764.5A patent/CN115482575A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116363737A (zh) * | 2023-06-01 | 2023-06-30 | 北京烽火万家科技有限公司 | 一种人脸图像属性编辑方法、系统、电子设备及存储介质 |
CN116363737B (zh) * | 2023-06-01 | 2023-07-28 | 北京烽火万家科技有限公司 | 一种人脸图像属性编辑方法、系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
CN113011357B (zh) | 基于时空融合的深度伪造人脸视频定位方法 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN113298151A (zh) | 一种基于多级特征融合的遥感图像语义描述方法 | |
CN113806746A (zh) | 基于改进cnn网络的恶意代码检测方法 | |
CN111540367A (zh) | 语音特征提取方法、装置、电子设备和存储介质 | |
CN111832650A (zh) | 基于生成对抗网络局部聚合编码半监督的图像分类方法 | |
CN112232395B (zh) | 一种基于联合训练生成对抗网络的半监督图像分类方法 | |
CN112766360A (zh) | 一种基于时序二维化和宽度学习的时间序列分类方法和系统 | |
CN114282059A (zh) | 视频检索的方法、装置、设备及存储介质 | |
Ao et al. | Cross-modal prototype learning for zero-shot handwriting recognition | |
CN111563161A (zh) | 一种语句识别方法、语句识别装置及智能设备 | |
CN115482575A (zh) | 一种基于标记分布学习的面部表情识别方法 | |
CN111522963A (zh) | 一种基于公安知识图谱引擎的智能助理应用交互方法 | |
CN114972904A (zh) | 一种基于对抗三元组损失的零样本知识蒸馏方法及系统 | |
Elleuch et al. | The Effectiveness of Transfer Learning for Arabic Handwriting Recognition using Deep CNN. | |
Shen et al. | Multi-scale residual based siamese neural network for writer-independent online signature verification | |
Azawi | Handwritten digits recognition using transfer learning | |
CN117516937A (zh) | 基于多模态特征融合增强的滚动轴承未知故障检测方法 | |
CN116663539A (zh) | 基于RoBERTa和指针网络的中文实体与关系联合抽取方法及系统 | |
CN114548325B (zh) | 基于对偶对比学习的零样本关系抽取方法和系统 | |
CN113761106B (zh) | 一种强化自注意力的债券交易意图识别系统 | |
CN115512357A (zh) | 一种基于部件拆分的零样本汉字识别方法 | |
CN115422945A (zh) | 一种融合情感挖掘的谣言检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |