CN116363733A - 一种基于动态分布融合的人脸表情预测方法 - Google Patents
一种基于动态分布融合的人脸表情预测方法 Download PDFInfo
- Publication number
- CN116363733A CN116363733A CN202310357220.9A CN202310357220A CN116363733A CN 116363733 A CN116363733 A CN 116363733A CN 202310357220 A CN202310357220 A CN 202310357220A CN 116363733 A CN116363733 A CN 116363733A
- Authority
- CN
- China
- Prior art keywords
- distribution
- sample
- category
- branch
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008921 facial expression Effects 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000004927 fusion Effects 0.000 title claims abstract description 40
- 238000003062 neural network model Methods 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000008451 emotion Effects 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000005065 mining Methods 0.000 claims abstract description 9
- 238000007499 fusion processing Methods 0.000 claims abstract description 8
- 230000008901 benefit Effects 0.000 claims abstract description 7
- 230000001815 facial effect Effects 0.000 claims abstract description 7
- 230000010365 information processing Effects 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 7
- 230000015556 catabolic process Effects 0.000 claims description 5
- 238000006731 degradation reaction Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000013434 data augmentation Methods 0.000 claims description 3
- 239000010410 layer Substances 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于动态分布融合的人脸表情预测方法,包括获取人脸表情数据集,针对获取的数据集中的人脸图片进行预处理,获取预处理数据集;构造辅助枝干,并基于辅助枝干设计双分支神经网络模型;采用构造的辅助枝干针对获取的预处理数据集进行提取样本分布处理;构建类别分布,针对获取的样本分布进行挖掘情感信息处理;针对构建的类别分布和提取的样本分布进行动态分布融合处理;构建多任务学习框架,优化双分支神经网络模型;采用优化的双分支神经网络模型实现人脸表情预测;本发明引入标签分布学习,展现了相比单标签学习的优越性;提出动态分布融合,充分发挥了标签分布学习的效用;而且本发明的预测性能好、效率高、误差少。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种基于动态分布融合的人脸表情预测方法。
背景技术
人脸表情识别是计算机视觉领域的一个重要研究方向。作为情感识别的子领域,人脸表情识别可以通过对人脸图像的分析,判断出人脸的表情状态,为人机交互、情感计算、智能监控等领域提供了重要的支持。
人脸表情识别的流程主要包括人脸表情图像获取和预处理,人脸表情特征提取和人脸表情分类。人脸表情预处理是从获取的人脸表情图像,通过人脸检测和人脸对齐,得到人脸的精确位置,排除图片背景的干扰,预处理的成功率主要受图像质量、光线强弱和遮挡等因素的影响。常见的人脸表情特征提取包括几何特征、表观特征、混合特征和深度特征,前三者作为传统手工特征,在人脸表情识别研究的初期被广泛应用,但这些方法往往存在着精度不高、鲁棒性差等问题;近年来,随着深度学习技术的快速发展,通过深度卷积神经网络提取的深度特征在人脸表情识别任务上取得良好的表现。人脸表情分类是人脸表情识别的最后一步,对传统手工特征的分类常常使用K近邻法、支持向量机、随机森林、Adaboost算法、贝叶斯网络和单层感知机等;而在深度学习框架中,则可以采用端到端的形式进行表情识别,即深度神经网络在习得特征后直接对特征进行分类和优化。
人脸表达模型主要分为2D、2.5D和3D:2D人脸是通过普通相机拍摄的RGB人脸图像,或者通过红外相机拍摄的红外图像,是确定视角下表征颜色或纹理的图像,并不包含深度信息;2.5D人脸是某一视角下通过深度相机拍摄的人脸深度图像,曲面信息并不连续,没有被遮挡部分的深度信息;3D人脸是通过多个角度的人脸深度图像合成的点云或网格人脸图像,具有完整的曲面信息,包含深度信息。2D人脸表情识别的研究时间较长,软硬件技术较为完备,已经得广泛应用,但是由于2D人脸只反映二维平面信息而不包含深度信息,并不能完整地表达出真实人脸。相较2D人脸,3D人脸不受光照、遮挡或姿态等因素影响,具有更好的能力,可以更为真实地反映人脸信息,在人脸合成、人脸迁移等任务中得到应用。3D人脸一般通过专业设备获取人脸深度信息,主要包括双目相机、基于结构光原理的RGB-D相机和基于光飞行时间原理的TOF相机。出于2D人脸的易获得性,2D人脸表情识别仍占据主导地位。
目前针对人脸表情预测的大多数方法选择单标签学习方法实现人脸表情预测。尽管这些方法已经取得不错的预测性能,但是由于单标签所包含的情感信息不足,难以描述模糊或错误标记样本,容易造成神经网络的过拟合,导致进一步提升预测精度十分困难。
也有少数方法选择标签分布学习方法实现人脸表情预测。与单标签学习方法不同,这些方法使用标签分布权重代替单标签进行训练。相较单标签,标签分布蕴含更丰富的情感信息,能够在训练过程中有效地避免过拟合现象,因而拥有显著的优势。然而,标签分布标注往往难以获取,因此仅提供单标签标注的人脸表情数据集仍占据主流地位。近年来的标签分布学习方法着重从单标签构造标签分布,但是这些构造的标签分布普遍质量较低,无法完整发挥标签分布学习的优势。
发明内容
本发明的目的在于提供一种预测性能好、效率高、误差少的基于动态分布融合的人脸表情预测方法。
本发明提供的这种基于动态分布融合的人脸表情预测方法,包括如下步骤:
S1.获取人脸表情数据集,针对获取的数据集中的人脸图片进行预处理,获取预处理数据集;
S2.构造辅助枝干,并基于辅助枝干设计双分支神经网络模型;
S3.采用步骤S2构造的辅助枝干针对步骤S1获取的预处理数据集进行提取样本分布处理;
S4.构建类别分布,针对步骤S3获取的样本分布进行挖掘情感信息处理;
S5.针对步骤S4构建的类别分布和步骤S3获取的样本分布进行动态分布融合处理;
S6.构建多任务学习框架,优化步骤S2设计的双分支神经网络模型;
S7.采用步骤S6优化得到的双分支神经网络模型实现人脸表情预测。
步骤S1所述的获取人脸表情数据集,针对获取的数据集中的人脸图片进行预处理,获取预处理数据集,具体包括:
设定人脸表情数据集为且数据集中涵盖C类标签与N个样本,使用MTCNN算法进行人脸对齐处理,输出固定大小的人脸图片;将输出的人脸图片缩放到给定尺寸,并使用RandAugment技术进行数据增广;使用ImageNet数据集的均值与标准差进行人脸图片RGB通道的归一化处理。
步骤S2所述的构造辅助枝干,并基于辅助枝干设计双分支神经网络模型,具体包括:
采用ResNet18网络模型构造双分支神经网络模型。将ResNet18网络模型分为两部分:冻结ResNet18网络模型中的第1层作为特征提取器,使用ResNet18网络模型中的后3层作为特征鉴别器,将该特征鉴别器定义为目标枝干。基于目标枝干构造辅助枝干,辅助枝干的参数、结构同目标枝干一致。基于特征提取器、目标枝干和构造的辅助枝干,设计获得双分支神经网络模型。
步骤S3所述的采用步骤S2构造的辅助枝干针对步骤S1获取的预处理数据集进行提取样本分布处理,具体包括:
将步骤S2构造的辅助枝干输出的概率分布作为样本分布,采用下述公式表示样本分布:
辅助枝干通过交叉熵损失进行训练,以提高并保持辅助枝干提取样本分布的能力,采用下述公式表示交叉熵损失函数:
步骤S4所述的构建类别分布,针对步骤S3获取的样本分布进行挖掘情感信息处理,具体包括:
使用类别分布挖掘来找出样本分布中隐含的情感信息,消除样本分布误差对模型性能的影响,采用下述公式表示类别分布:
设置阈值t来判断输出的类别分布是否满足设定的稳健性要求,如果标签yj对于类别c的描述程度没有达到阈值t,使用阈值分布暂时替代类别分布训练模型,采用下述公式进行描述:
步骤S5所述的针对步骤S4构建的类别分布和步骤S3获取的样本分布进行动态分布融合处理,具体包括:
动态分布融合以类别分布为基础,根据每个样本的注意力权重自适应地融合类别分布与样本分布。动态分布融合分为两个步骤:注意力权重提取和自适应分布融合;
1)注意力权重提取:
对于注意力权重提取,将两个注意力模块分别嵌入到两个枝干的最后一层来获取样本的注意力权重。注意力模块通过一个全连接层和Sigmoid函数构成,每个枝干输出的特征输入到对应的注意力模块提取得到每个样本的注意力权重,注意力权重值用于判断一个样本是否清晰或者模糊,并将该权重值用于自适应分布融合;每个枝干输出的特征与对应的注意力权重相乘后,再输入对应的分类器中;
注意力权重提取的流程如下:
a.对于一批样本,将特征提取器输出的人脸特征同时输入到辅助枝干与目标枝干;
b.对两个注意力模块输出的注意力权重进行求平均处理,以同时受益于两个枝干的样本模糊程度辨别能力,采用下述公式表示平均后的注意力权重:
c.对注意力权重进行排序正则化,以避免注意力模块的辨别能力退化:
LRR=max(0,δ-(wH-wL))
其中,wH和wL分别为高权重的M个样本与低权重的N-M个样本的注意力权重平均值,δ为一个固定差值,δ和M直接使用采用相同注意力模块的方法SCN中的值,LRR是排序正则化的损失函数;
d.对注意力权重进行归一化处理,采用下述公式表示处理过程:
2)自适应分布融合:
采用下述公示表示融合后的混合分布:
步骤S6所述的构建多任务学习框架,优化步骤S2设计的双分支神经网络模型,具体包括:
①目标枝干优化:
采用KL散度损失训练目标枝干,采用下述公式表示训练过程:
②多任务学习框架:
构建多任务学习框架,通过分布预测与表情识别的联合学习最小化联合损失L,从而优化模型的预测性能,采用下述公式表示联合损失函数:
L=α1·Lkld+α2·Lce+LRR
其中,α1和α2为与训练轮次e有关的加权斜率函数,β为训练轮次的阈值,引入α1和α2优化训练过程。
步骤S7所述的采用步骤S6优化得到的双分支神经网络模型实现人脸表情预测,具体包括:
采用步骤S6优化得到的双分支神经网络模型,通过目标枝干输出每个样本的概率分布进行人脸表情的预测,在输出的概率分布中选取其中预测概率最高对应的表情作为样本的预测表情。
本发明提供的这种基于动态分布融合的人脸表情预测方法,通过引入标签分布学习,基于标签分布蕴含的丰富情感信息,在训练过程中有效地避免了过拟合,展现了相比单标签学习的优越性;同时提出动态分布融合,利用提取的样本分布与挖掘的类别分布生成与真实分布接近的高质量混合分布,充分发挥了标签分布学习的效用;而且本发明的预测性能好、效率高、误差少。
附图说明
图1为本发明方法的方法流程示意图;
具体实施方式
如图1所示为本发明方法的方法流程示意图:本发明提供的这种基于动态分布融合的人脸表情预测方法,包括如下步骤:
S1.获取人脸表情数据集,针对获取的数据集中的人脸图片进行预处理,获取预处理数据集;具体包括:
假定人脸表情数据集为S={(xi,yi),i=1,2,…,N},且数据集中涵盖C类标签与N个样本,由于不同数据集中人脸图片的大小不同,使用MTCNN算法进行人脸对齐处理,输出固定大小的人脸图片,本发明输出100×100的人脸图片;将输出的人脸图片缩放到给定尺寸,本发明得到给定尺寸大小为224×224,并使用RandAugment技术进行数据增广;使用ImageNet数据集的均值与标准差进行人脸图片RGB通道的归一化处理;
S2.构造辅助枝干,并基于辅助枝干设计双分支神经网络模型,具体包括:
采用ResNet18网络模型构造双分支神经网络模型。将ResNet18网络模型分为两部分:冻结ResNet18网络模型中的第1层作为特征提取器,使用ResNet18网络模型中的后3层作为特征鉴别器,将该特征鉴别器定义为目标枝干。基于目标枝干构造辅助枝干,辅助枝干的参数、结构同目标枝干一致。基于特征提取器、目标枝干和构造的辅助枝干,设计获得双分支神经网络模型;
S3.采用步骤S2构造的辅助枝干针对步骤S1获取的预处理数据集进行提取样本分布处理,具体包括:
直接使用ResNet18网络模型输出的概率分布训练模型会导致模型性能的退化,将步骤S2构造的辅助枝干输出的概率分布作为样本分布,采用下述公式表示样本分布:
辅助枝干通过交叉熵损失进行训练,以提高并保持辅助枝干提取样本分布的能力,采用下述公式表示交叉熵损失函数:
S4.构建类别分布,针对步骤S3获取的样本分布进行挖掘情感信息处理,具体包括:
基于深度神经网络对模糊或错误标注样本的敏感性,使用类别分布挖掘来找出样本分布中隐含的情感信息,消除样本分布误差对模型性能的影响,采用下述公式表示类别分布:
类别分布挖掘是通过对属于某一类别的所有样本的样本分布进行加和求平均,以获得对应类别的类别分布;由于训练初期辅助枝干的参数不稳定,无法输出满足设定的稳定性要求的类别分布,此时的类别分布不能准确描述每类表情,为了避免错误的类别分布劣化模型的预测性能,设置阈值t来判断输出的类别分布是否满足设定的稳定性要求,如果标签yj对于类别c的描述程度没有达到阈值t,使用阈值分布暂时替代类别分布训练模型,阈值的设置在0~1之间,具体的值需要通过消融实验确定。阈值的设置是基于以下现象:模型提取特征的能力越强,在标签分布中对应的样本标签位置的值就越高。通过设定阈值可以判断模型的特征提取是否到位;采用下述公式进行描述:
S5.针对步骤S4构建的类别分布和步骤S3获取的样本分布进行动态分布融合处理,具体包括:
动态分布融合以类别分布为基础,根据每个样本的注意力权重自适应地融合类别分布与样本分布。动态分布融合分为两个步骤:注意力权重提取和自适应分布融合;
1)注意力权重提取:
对于注意力权重提取,将两个注意力模块分别嵌入到两个枝干的最后一层来获取样本的注意力权重。注意力模块通过一个全连接层和Sigmoid函数构成,每个枝干输出的特征输入到对应的注意力模块提取得到每个样本的注意力权重,注意力权重值可以判断一个样本是否清晰或者模糊,并将该权重值用于自适应分布融合;每个枝干输出的特征与对应的注意力权重相乘后,再输入对应的分类器中;
注意力权重提取的流程如下:
a.对于一批样本,将特征提取器输出的人脸特征同时输入到辅助枝干与目标枝干;
b.对两个注意力模块输出的注意力权重进行求平均处理,以同时受益于两个枝干的样本模糊程度辨别能力,采用下述公式表示平均后的注意力权重:
c.对注意力权重进行排序正则化,以避免注意力模块的辨别能力退化:
LRR=max(0,δ-(wH-wL))
其中,wH和wL分别为高权重的M个样本与低权重的N-M个样本的注意力权重平均值,δ为一个固定差值,为了避免重复实验,δ和M直接使用采用相同注意力模块的方法SCN中的值,在本发明中分别设置为0.07和0.7N,LRR是排序正则化的损失函数;
d.对注意力权重进行归一化处理,采用下述公式表示处理过程:
其中,wmin为注意力权重的下限,是样本xi经过排序正则化后的注意力权重,是样本xi经过归一化处理后的注意力权重,设置超参数wmin是为了防止融合过程中低注意力权重样本的模糊性劣化模型性能,注意力权重越低,样本模糊程度越高。
2)自适应分布融合:
对于自适应分布融合,基于获取的注意力权重自适应地融合类别分布与样本分布,以兼顾类别分布的稳健性与样本分布的多样性,采用下述公示表示融合后的混合分布:
S6.构建多任务学习框架,优化步骤S2设计的双分支神经网络模型,具体包括:
①目标枝干优化:
采用KL散度损失训练目标枝干,采用下述公式表示训练过程:
②多任务学习框架:
构建多任务学习框架,通过分布预测与表情识别的联合学习最小化联合损失L,从而优化模型的预测性能;采用下述公式表示联合损失函数:
L=α1·Lkld+α2·Lce+LRR
其中,α1和α2为与训练轮次e有关的加权斜率函数,β为训练轮次的阈值,引入α1和α2优化训练过程;在训练初期,着重训练辅助枝干,使得辅助枝干能够输出满足设定的稳健性要求的样本分布与类别分布;在训练后期,着重训练目标枝干,并避免辅助枝干过拟合;在推理阶段,辅助枝干会被移除,只有目标枝干用于预测样本的表情;
S7.采用步骤S6优化得到的双分支神经网络模型实现人脸表情预测,具体包括:
采用步骤S6优化得到的双分支神经网络模型,通过目标枝干输出每个样本的概率分布进行人脸表情的预测,在输出的概率分布中选取其中预测概率最高对应的表情作为样本的预测表情。
Claims (8)
1.一种基于动态分布融合的人脸表情预测方法,包括如下步骤:
S1.获取人脸表情数据集,针对获取的数据集中的人脸图片进行预处理,获取预处理数据集;
S2.构造辅助枝干,并基于辅助枝干设计双分支神经网络模型;
S3.采用步骤S2构造的辅助枝干针对步骤S1获取的预处理数据集进行提取样本分布处理;
S4.构建类别分布,针对步骤S3获取的样本分布进行挖掘情感信息处理;
S5.针对步骤S4构建的类别分布和步骤S3获取的样本分布进行动态分布融合处理;
S6.构建多任务学习框架,优化步骤S2设计的双分支神经网络模型;
S7.采用步骤S6优化得到的双分支神经网络模型实现人脸表情预测。
3.根据权利要求2所述的基于动态分布融合的人脸表情预测方法,其特征在于步骤S2所述的构造辅助枝干,并基于辅助枝干设计双分支神经网络模型,具体包括:
采用ResNet18网络模型构造双分支神经网络模型。将ResNet18网络模型分为两部分:冻结ResNet18网络模型中的第1层作为特征提取器,使用ResNet18网络模型中的后3层作为特征鉴别器,将该特征鉴别器定义为目标枝干。基于目标枝干构造辅助枝干,辅助枝干的参数、结构同目标枝干一致。基于特征提取器、目标枝干和构造的辅助枝干,设计获得双分支神经网络模型。
4.根据权利要求3所述的基于动态分布融合的人脸表情预测方法,其特征在于步骤S3所述的采用步骤S2构造的辅助枝干针对步骤S1获取的预处理数据集进行提取样本分布处理,具体包括:
将步骤S2构造的辅助枝干输出的概率分布作为样本分布,采用下述公式表示样本分布:
辅助枝干通过交叉熵损失进行训练,以提高并保持辅助枝干提取样本分布的能力,采用下述公式表示交叉熵损失函数:
5.根据权利要求4所述的基于动态分布融合的人脸表情预测方法,其特征在于步骤S4所述的构建类别分布,针对步骤S3获取的样本分布进行挖掘情感信息处理,具体包括:
使用类别分布挖掘来找出样本分布中隐含的情感信息,消除样本分布误差对模型性能的影响,采用下述公式表示类别分布:
设置阈值t来判断输出的类别分布是否满足设定的稳健性要求,如果标签yj对于类别c的描述程度没有达到阈值t,使用阈值分布暂时替代类别分布训练模型,采用下述公式进行描述:
6.根据权利要求5所述的基于动态分布融合的人脸表情预测方法,其特征在于步骤S5所述的针对步骤S4构建的类别分布和步骤S3获取的样本分布进行动态分布融合处理,具体包括:
动态分布融合以类别分布为基础,根据每个样本的注意力权重自适应地融合类别分布与样本分布。动态分布融合分为两个步骤:注意力权重提取和自适应分布融合;
1)注意力权重提取:
对于注意力权重提取,将两个注意力模块分别嵌入到两个枝干的最后一层来获取样本的注意力权重。注意力模块通过一个全连接层和Sigmoid函数构成,每个枝干输出的特征输入到对应的注意力模块提取得到每个样本的注意力权重,注意力权重值用于判断一个样本是否清晰或者模糊,并将该权重值用于自适应分布融合;每个枝干输出的特征与对应的注意力权重相乘后,再输入对应的分类器中;
注意力权重提取的流程如下:
a.对于一批样本,将特征提取器输出的人脸特征同时输入到辅助枝干与目标枝干;
b.对两个注意力模块输出的注意力权重进行求平均处理,以同时受益于两个枝干的样本模糊程度辨别能力,采用下述公式表示平均后的注意力权重:
c.对注意力权重进行排序正则化,以避免注意力模块的辨别能力退化:
LRR=max(0,δ-(wH-wL))
其中,wH和wL分别为高权重的M个样本与低权重的N-M个样本的注意力权重平均值,δ为一个固定差值,δ和M直接使用采用相同注意力模块的方法SCN中的值,LRR是排序正则化的损失函数;
d.对注意力权重进行归一化处理,采用下述公式表示处理过程:
2)自适应分布融合:
采用下述公示表示融合后的混合分布:
7.根据权利要求6所述的基于动态分布融合的人脸表情预测方法,其特征在于步骤S6所述的构建多任务学习框架,优化步骤S2设计的双分支神经网络模型,具体包括:
①目标枝干优化:
采用KL散度损失训练目标枝干,采用下述公式表示训练过程:
②多任务学习框架:
构建多任务学习框架,通过分布预测与表情识别的联合学习最小化联合损失L,从而优化模型的预测性能,采用下述公式表示联合损失函数:
L=α1·Lkld+α2·Lce+LRR
其中,α1和α2为与训练轮次有关的加权斜率函数,β为训练轮次的阈值,引入α1和α2优化训练过程。
8.根据权利要求7所述的基于动态分布融合的人脸表情预测方法,其特征在于步骤S7所述的采用步骤S6优化得到的双分支神经网络模型实现人脸表情预测,具体包括:
采用步骤S6优化得到的双分支神经网络模型,通过目标枝干输出每个样本的概率分布进行人脸表情的预测,在输出的概率分布中选取其中预测概率最高对应的表情作为样本的预测表情。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310357220.9A CN116363733A (zh) | 2023-04-06 | 2023-04-06 | 一种基于动态分布融合的人脸表情预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310357220.9A CN116363733A (zh) | 2023-04-06 | 2023-04-06 | 一种基于动态分布融合的人脸表情预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116363733A true CN116363733A (zh) | 2023-06-30 |
Family
ID=86920731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310357220.9A Pending CN116363733A (zh) | 2023-04-06 | 2023-04-06 | 一种基于动态分布融合的人脸表情预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116363733A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116738120A (zh) * | 2023-08-11 | 2023-09-12 | 齐鲁工业大学(山东省科学院) | 面向x荧光品位分析仪的铜品位scn建模算法 |
-
2023
- 2023-04-06 CN CN202310357220.9A patent/CN116363733A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116738120A (zh) * | 2023-08-11 | 2023-09-12 | 齐鲁工业大学(山东省科学院) | 面向x荧光品位分析仪的铜品位scn建模算法 |
CN116738120B (zh) * | 2023-08-11 | 2023-11-03 | 齐鲁工业大学(山东省科学院) | 面向x荧光品位分析仪的铜品位scn建模算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shao et al. | Performance evaluation of deep feature learning for RGB-D image/video classification | |
CN107609460B (zh) | 一种融合时空双重网络流和attention机制的人体行为识别方法 | |
Bai et al. | Subset based deep learning for RGB-D object recognition | |
CN111507378A (zh) | 训练图像处理模型的方法和装置 | |
CN109948475B (zh) | 一种基于骨架特征和深度学习的人体动作识别方法 | |
US20160055237A1 (en) | Method for Semantically Labeling an Image of a Scene using Recursive Context Propagation | |
CN110033007B (zh) | 基于深度姿态预估和多特征融合的行人衣着属性识别方法 | |
Yan et al. | Monocular depth estimation with guidance of surface normal map | |
CN113255602A (zh) | 基于多模态数据的动态手势识别方法 | |
CN110991500A (zh) | 一种基于嵌套式集成深度支持向量机的小样本多分类方法 | |
CN114842238A (zh) | 一种嵌入式乳腺超声影像的识别方法 | |
CN116363733A (zh) | 一种基于动态分布融合的人脸表情预测方法 | |
Xu et al. | Weakly supervised facial expression recognition via transferred DAL-CNN and active incremental learning | |
CN115035599A (zh) | 一种融合装备与行为特征的武装人员识别方法和系统 | |
Kuppusamy et al. | Enriching the multi-object detection using convolutional neural network in macro-image | |
Li et al. | SGML: A symmetric graph metric learning framework for efficient hyperspectral image classification | |
Li et al. | IIE-SegNet: Deep semantic segmentation network with enhanced boundary based on image information entropy | |
Poostchi et al. | Feature selection for appearance-based vehicle tracking in geospatial video | |
Lai et al. | Underwater target tracking via 3D convolutional networks | |
Singh et al. | Deep active transfer learning for image recognition | |
Chiu et al. | Real-time monocular depth estimation with extremely light-weight neural network | |
CN113627245B (zh) | Crts目标检测方法 | |
Yamashita et al. | Facial point detection using convolutional neural network transferred from a heterogeneous task | |
CN117523626A (zh) | 伪rgb-d人脸识别法 | |
Girdhar et al. | Gibbs sampling strategies for semantic perception of streaming video data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |