CN116363733A - 一种基于动态分布融合的人脸表情预测方法 - Google Patents

一种基于动态分布融合的人脸表情预测方法 Download PDF

Info

Publication number
CN116363733A
CN116363733A CN202310357220.9A CN202310357220A CN116363733A CN 116363733 A CN116363733 A CN 116363733A CN 202310357220 A CN202310357220 A CN 202310357220A CN 116363733 A CN116363733 A CN 116363733A
Authority
CN
China
Prior art keywords
distribution
sample
category
branch
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310357220.9A
Other languages
English (en)
Inventor
刘姝
许焱
万通明
王科选
奎晓燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202310357220.9A priority Critical patent/CN116363733A/zh
Publication of CN116363733A publication Critical patent/CN116363733A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于动态分布融合的人脸表情预测方法,包括获取人脸表情数据集,针对获取的数据集中的人脸图片进行预处理,获取预处理数据集;构造辅助枝干,并基于辅助枝干设计双分支神经网络模型;采用构造的辅助枝干针对获取的预处理数据集进行提取样本分布处理;构建类别分布,针对获取的样本分布进行挖掘情感信息处理;针对构建的类别分布和提取的样本分布进行动态分布融合处理;构建多任务学习框架,优化双分支神经网络模型;采用优化的双分支神经网络模型实现人脸表情预测;本发明引入标签分布学习,展现了相比单标签学习的优越性;提出动态分布融合,充分发挥了标签分布学习的效用;而且本发明的预测性能好、效率高、误差少。

Description

一种基于动态分布融合的人脸表情预测方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于动态分布融合的人脸表情预测方法。
背景技术
人脸表情识别是计算机视觉领域的一个重要研究方向。作为情感识别的子领域,人脸表情识别可以通过对人脸图像的分析,判断出人脸的表情状态,为人机交互、情感计算、智能监控等领域提供了重要的支持。
人脸表情识别的流程主要包括人脸表情图像获取和预处理,人脸表情特征提取和人脸表情分类。人脸表情预处理是从获取的人脸表情图像,通过人脸检测和人脸对齐,得到人脸的精确位置,排除图片背景的干扰,预处理的成功率主要受图像质量、光线强弱和遮挡等因素的影响。常见的人脸表情特征提取包括几何特征、表观特征、混合特征和深度特征,前三者作为传统手工特征,在人脸表情识别研究的初期被广泛应用,但这些方法往往存在着精度不高、鲁棒性差等问题;近年来,随着深度学习技术的快速发展,通过深度卷积神经网络提取的深度特征在人脸表情识别任务上取得良好的表现。人脸表情分类是人脸表情识别的最后一步,对传统手工特征的分类常常使用K近邻法、支持向量机、随机森林、Adaboost算法、贝叶斯网络和单层感知机等;而在深度学习框架中,则可以采用端到端的形式进行表情识别,即深度神经网络在习得特征后直接对特征进行分类和优化。
人脸表达模型主要分为2D、2.5D和3D:2D人脸是通过普通相机拍摄的RGB人脸图像,或者通过红外相机拍摄的红外图像,是确定视角下表征颜色或纹理的图像,并不包含深度信息;2.5D人脸是某一视角下通过深度相机拍摄的人脸深度图像,曲面信息并不连续,没有被遮挡部分的深度信息;3D人脸是通过多个角度的人脸深度图像合成的点云或网格人脸图像,具有完整的曲面信息,包含深度信息。2D人脸表情识别的研究时间较长,软硬件技术较为完备,已经得广泛应用,但是由于2D人脸只反映二维平面信息而不包含深度信息,并不能完整地表达出真实人脸。相较2D人脸,3D人脸不受光照、遮挡或姿态等因素影响,具有更好的能力,可以更为真实地反映人脸信息,在人脸合成、人脸迁移等任务中得到应用。3D人脸一般通过专业设备获取人脸深度信息,主要包括双目相机、基于结构光原理的RGB-D相机和基于光飞行时间原理的TOF相机。出于2D人脸的易获得性,2D人脸表情识别仍占据主导地位。
目前针对人脸表情预测的大多数方法选择单标签学习方法实现人脸表情预测。尽管这些方法已经取得不错的预测性能,但是由于单标签所包含的情感信息不足,难以描述模糊或错误标记样本,容易造成神经网络的过拟合,导致进一步提升预测精度十分困难。
也有少数方法选择标签分布学习方法实现人脸表情预测。与单标签学习方法不同,这些方法使用标签分布权重代替单标签进行训练。相较单标签,标签分布蕴含更丰富的情感信息,能够在训练过程中有效地避免过拟合现象,因而拥有显著的优势。然而,标签分布标注往往难以获取,因此仅提供单标签标注的人脸表情数据集仍占据主流地位。近年来的标签分布学习方法着重从单标签构造标签分布,但是这些构造的标签分布普遍质量较低,无法完整发挥标签分布学习的优势。
发明内容
本发明的目的在于提供一种预测性能好、效率高、误差少的基于动态分布融合的人脸表情预测方法。
本发明提供的这种基于动态分布融合的人脸表情预测方法,包括如下步骤:
S1.获取人脸表情数据集,针对获取的数据集中的人脸图片进行预处理,获取预处理数据集;
S2.构造辅助枝干,并基于辅助枝干设计双分支神经网络模型;
S3.采用步骤S2构造的辅助枝干针对步骤S1获取的预处理数据集进行提取样本分布处理;
S4.构建类别分布,针对步骤S3获取的样本分布进行挖掘情感信息处理;
S5.针对步骤S4构建的类别分布和步骤S3获取的样本分布进行动态分布融合处理;
S6.构建多任务学习框架,优化步骤S2设计的双分支神经网络模型;
S7.采用步骤S6优化得到的双分支神经网络模型实现人脸表情预测。
步骤S1所述的获取人脸表情数据集,针对获取的数据集中的人脸图片进行预处理,获取预处理数据集,具体包括:
设定人脸表情数据集为
Figure BDA0004163717140000031
且数据集中涵盖C类标签与N个样本,使用MTCNN算法进行人脸对齐处理,输出固定大小的人脸图片;将输出的人脸图片缩放到给定尺寸,并使用RandAugment技术进行数据增广;使用ImageNet数据集的均值与标准差进行人脸图片RGB通道的归一化处理。
步骤S2所述的构造辅助枝干,并基于辅助枝干设计双分支神经网络模型,具体包括:
采用ResNet18网络模型构造双分支神经网络模型。将ResNet18网络模型分为两部分:冻结ResNet18网络模型中的第1层作为特征提取器,使用ResNet18网络模型中的后3层作为特征鉴别器,将该特征鉴别器定义为目标枝干。基于目标枝干构造辅助枝干,辅助枝干的参数、结构同目标枝干一致。基于特征提取器、目标枝干和构造的辅助枝干,设计获得双分支神经网络模型。
步骤S3所述的采用步骤S2构造的辅助枝干针对步骤S1获取的预处理数据集进行提取样本分布处理,具体包括:
将步骤S2构造的辅助枝干输出的概率分布作为样本分布,采用下述公式表示样本分布:
Figure BDA0004163717140000041
Figure BDA0004163717140000042
其中,
Figure BDA0004163717140000043
为样本xi的样本分布,yj为第j类标签,/>
Figure BDA0004163717140000044
为标签yj对于样本xi的描述程度,/>
Figure BDA0004163717140000045
为辅助枝干对样本xi属于标签yj的预测概率;
辅助枝干通过交叉熵损失进行训练,以提高并保持辅助枝干提取样本分布的能力,采用下述公式表示交叉熵损失函数:
Figure BDA0004163717140000046
其中,Lce是交叉熵损失函数,
Figure BDA0004163717140000047
为样本xi的逻辑标签yi的第c个值,
Figure BDA0004163717140000048
是辅助枝干对样本xi属于类别c的预测概率。
步骤S4所述的构建类别分布,针对步骤S3获取的样本分布进行挖掘情感信息处理,具体包括:
使用类别分布挖掘来找出样本分布中隐含的情感信息,消除样本分布误差对模型性能的影响,采用下述公式表示类别分布:
Figure BDA0004163717140000051
其中,
Figure BDA0004163717140000052
为类别c的类别分布,/>
Figure BDA0004163717140000053
为属于类别c的样本xi的类别分布,Nc为属于类别c的样本数量;
设置阈值t来判断输出的类别分布是否满足设定的稳健性要求,如果标签yj对于类别c的描述程度没有达到阈值t,使用阈值分布暂时替代类别分布训练模型,采用下述公式进行描述:
Figure BDA0004163717140000054
Figure BDA0004163717140000055
Figure BDA0004163717140000056
其中,
Figure BDA0004163717140000057
是类别c的类别分布,/>
Figure BDA0004163717140000058
是类别c的阈值分布,/>
Figure BDA0004163717140000059
为标签yj对于类别c的描述程度。
步骤S5所述的针对步骤S4构建的类别分布和步骤S3获取的样本分布进行动态分布融合处理,具体包括:
动态分布融合以类别分布为基础,根据每个样本的注意力权重自适应地融合类别分布与样本分布。动态分布融合分为两个步骤:注意力权重提取和自适应分布融合;
1)注意力权重提取:
对于注意力权重提取,将两个注意力模块分别嵌入到两个枝干的最后一层来获取样本的注意力权重。注意力模块通过一个全连接层和Sigmoid函数构成,每个枝干输出的特征输入到对应的注意力模块提取得到每个样本的注意力权重,注意力权重值用于判断一个样本是否清晰或者模糊,并将该权重值用于自适应分布融合;每个枝干输出的特征与对应的注意力权重相乘后,再输入对应的分类器中;
注意力权重提取的流程如下:
a.对于一批样本,将特征提取器输出的人脸特征同时输入到辅助枝干与目标枝干;
b.对两个注意力模块输出的注意力权重进行求平均处理,以同时受益于两个枝干的样本模糊程度辨别能力,采用下述公式表示平均后的注意力权重:
Figure BDA0004163717140000061
其中,
Figure BDA0004163717140000062
和/>
Figure BDA0004163717140000063
分别为两个枝干的注意力模块输出的样本xi的注意力权重;
c.对注意力权重进行排序正则化,以避免注意力模块的辨别能力退化:
Figure BDA0004163717140000064
LRR=max(0,δ-(wH-wL))
其中,wH和wL分别为高权重的M个样本与低权重的N-M个样本的注意力权重平均值,δ为一个固定差值,δ和M直接使用采用相同注意力模块的方法SCN中的值,LRR是排序正则化的损失函数;
d.对注意力权重进行归一化处理,采用下述公式表示处理过程:
Figure BDA0004163717140000071
其中,wmin为注意力权重的下限,
Figure BDA0004163717140000072
是样本xi经过排序正则化后的注意力权重,
Figure BDA0004163717140000073
是样本xi经过归一化处理后的注意力权重;
2)自适应分布融合:
采用下述公示表示融合后的混合分布:
Figure BDA0004163717140000074
其中,
Figure BDA0004163717140000075
是样本xi融合后的混合分布,/>
Figure BDA0004163717140000076
是样本xi的类别分布,/>
Figure BDA0004163717140000077
是样本xi的标签分布,/>
Figure BDA0004163717140000078
是样本xi经过归一化处理后的注意力权重。
步骤S6所述的构建多任务学习框架,优化步骤S2设计的双分支神经网络模型,具体包括:
①目标枝干优化:
采用KL散度损失训练目标枝干,采用下述公式表示训练过程:
Figure BDA0004163717140000079
其中,Lkld为KL散度损失,
Figure BDA00041637171400000710
为类别c对样本xi的描述程度,/>
Figure BDA00041637171400000711
为目标枝干对于样本xi属于标签yj的预测概率;
②多任务学习框架:
构建多任务学习框架,通过分布预测与表情识别的联合学习最小化联合损失L,从而优化模型的预测性能,采用下述公式表示联合损失函数:
L=α1·Lkld2·Lce+LRR
Figure BDA0004163717140000081
Figure BDA0004163717140000082
其中,α1和α2为与训练轮次e有关的加权斜率函数,β为训练轮次的阈值,引入α1和α2优化训练过程。
步骤S7所述的采用步骤S6优化得到的双分支神经网络模型实现人脸表情预测,具体包括:
采用步骤S6优化得到的双分支神经网络模型,通过目标枝干输出每个样本的概率分布进行人脸表情的预测,在输出的概率分布中选取其中预测概率最高对应的表情作为样本的预测表情。
本发明提供的这种基于动态分布融合的人脸表情预测方法,通过引入标签分布学习,基于标签分布蕴含的丰富情感信息,在训练过程中有效地避免了过拟合,展现了相比单标签学习的优越性;同时提出动态分布融合,利用提取的样本分布与挖掘的类别分布生成与真实分布接近的高质量混合分布,充分发挥了标签分布学习的效用;而且本发明的预测性能好、效率高、误差少。
附图说明
图1为本发明方法的方法流程示意图;
具体实施方式
如图1所示为本发明方法的方法流程示意图:本发明提供的这种基于动态分布融合的人脸表情预测方法,包括如下步骤:
S1.获取人脸表情数据集,针对获取的数据集中的人脸图片进行预处理,获取预处理数据集;具体包括:
假定人脸表情数据集为S={(xi,yi),i=1,2,…,N},且数据集中涵盖C类标签与N个样本,由于不同数据集中人脸图片的大小不同,使用MTCNN算法进行人脸对齐处理,输出固定大小的人脸图片,本发明输出100×100的人脸图片;将输出的人脸图片缩放到给定尺寸,本发明得到给定尺寸大小为224×224,并使用RandAugment技术进行数据增广;使用ImageNet数据集的均值与标准差进行人脸图片RGB通道的归一化处理;
S2.构造辅助枝干,并基于辅助枝干设计双分支神经网络模型,具体包括:
采用ResNet18网络模型构造双分支神经网络模型。将ResNet18网络模型分为两部分:冻结ResNet18网络模型中的第1层作为特征提取器,使用ResNet18网络模型中的后3层作为特征鉴别器,将该特征鉴别器定义为目标枝干。基于目标枝干构造辅助枝干,辅助枝干的参数、结构同目标枝干一致。基于特征提取器、目标枝干和构造的辅助枝干,设计获得双分支神经网络模型;
S3.采用步骤S2构造的辅助枝干针对步骤S1获取的预处理数据集进行提取样本分布处理,具体包括:
直接使用ResNet18网络模型输出的概率分布训练模型会导致模型性能的退化,将步骤S2构造的辅助枝干输出的概率分布作为样本分布,采用下述公式表示样本分布:
Figure BDA0004163717140000091
Figure BDA0004163717140000092
其中,
Figure BDA0004163717140000101
为样本xi的样本分布,yj为第j类标签,/>
Figure BDA0004163717140000102
为标签yj对于样本xi的描述程度,/>
Figure BDA0004163717140000103
为辅助枝干对样本xi属于标签yj的预测概率;
辅助枝干通过交叉熵损失进行训练,以提高并保持辅助枝干提取样本分布的能力,采用下述公式表示交叉熵损失函数:
Figure BDA0004163717140000104
其中,Lce是交叉熵损失函数,
Figure BDA0004163717140000105
为样本xi的逻辑标签yi的第c个值,
Figure BDA0004163717140000106
是辅助枝干对样本xi属于类别c的预测概率;
S4.构建类别分布,针对步骤S3获取的样本分布进行挖掘情感信息处理,具体包括:
基于深度神经网络对模糊或错误标注样本的敏感性,使用类别分布挖掘来找出样本分布中隐含的情感信息,消除样本分布误差对模型性能的影响,采用下述公式表示类别分布:
Figure BDA0004163717140000107
其中,
Figure BDA0004163717140000108
为类别c的分布,/>
Figure BDA0004163717140000109
为属于类别c的样本xi的类别分布,Nc为属于类别c的样本数量;
类别分布挖掘是通过对属于某一类别的所有样本的样本分布进行加和求平均,以获得对应类别的类别分布;由于训练初期辅助枝干的参数不稳定,无法输出满足设定的稳定性要求的类别分布,此时的类别分布不能准确描述每类表情,为了避免错误的类别分布劣化模型的预测性能,设置阈值t来判断输出的类别分布是否满足设定的稳定性要求,如果标签yj对于类别c的描述程度没有达到阈值t,使用阈值分布暂时替代类别分布训练模型,阈值的设置在0~1之间,具体的值需要通过消融实验确定。阈值的设置是基于以下现象:模型提取特征的能力越强,在标签分布中对应的样本标签位置的值就越高。通过设定阈值可以判断模型的特征提取是否到位;采用下述公式进行描述:
Figure BDA0004163717140000111
Figure BDA0004163717140000112
Figure BDA0004163717140000113
其中,
Figure BDA0004163717140000114
是类别c的类别分布,/>
Figure BDA0004163717140000115
是类别c的阈值分布,/>
Figure BDA0004163717140000116
为标签yj对于类别c的描述程度;
S5.针对步骤S4构建的类别分布和步骤S3获取的样本分布进行动态分布融合处理,具体包括:
动态分布融合以类别分布为基础,根据每个样本的注意力权重自适应地融合类别分布与样本分布。动态分布融合分为两个步骤:注意力权重提取和自适应分布融合;
1)注意力权重提取:
对于注意力权重提取,将两个注意力模块分别嵌入到两个枝干的最后一层来获取样本的注意力权重。注意力模块通过一个全连接层和Sigmoid函数构成,每个枝干输出的特征输入到对应的注意力模块提取得到每个样本的注意力权重,注意力权重值可以判断一个样本是否清晰或者模糊,并将该权重值用于自适应分布融合;每个枝干输出的特征与对应的注意力权重相乘后,再输入对应的分类器中;
注意力权重提取的流程如下:
a.对于一批样本,将特征提取器输出的人脸特征同时输入到辅助枝干与目标枝干;
b.对两个注意力模块输出的注意力权重进行求平均处理,以同时受益于两个枝干的样本模糊程度辨别能力,采用下述公式表示平均后的注意力权重:
Figure BDA0004163717140000121
其中,
Figure BDA0004163717140000122
和/>
Figure BDA0004163717140000123
分别为两个枝干的注意力模块输出的样本xi的注意力权重;
c.对注意力权重进行排序正则化,以避免注意力模块的辨别能力退化:
Figure BDA0004163717140000124
LRR=max(0,δ-(wH-wL))
其中,wH和wL分别为高权重的M个样本与低权重的N-M个样本的注意力权重平均值,δ为一个固定差值,为了避免重复实验,δ和M直接使用采用相同注意力模块的方法SCN中的值,在本发明中分别设置为0.07和0.7N,LRR是排序正则化的损失函数;
d.对注意力权重进行归一化处理,采用下述公式表示处理过程:
Figure BDA0004163717140000125
其中,wmin为注意力权重的下限,
Figure BDA0004163717140000126
是样本xi经过排序正则化后的注意力权重,
Figure BDA0004163717140000131
是样本xi经过归一化处理后的注意力权重,设置超参数wmin是为了防止融合过程中低注意力权重样本的模糊性劣化模型性能,注意力权重越低,样本模糊程度越高。
2)自适应分布融合:
对于自适应分布融合,基于获取的注意力权重自适应地融合类别分布与样本分布,以兼顾类别分布的稳健性与样本分布的多样性,采用下述公示表示融合后的混合分布:
Figure BDA0004163717140000132
其中,
Figure BDA0004163717140000133
是样本xi融合后的混合分布,/>
Figure BDA0004163717140000134
是样本xi的类别分布,/>
Figure BDA0004163717140000135
是样本xi的标签分布,/>
Figure BDA0004163717140000136
是样本xi经过归一化处理后的注意力权重;
S6.构建多任务学习框架,优化步骤S2设计的双分支神经网络模型,具体包括:
①目标枝干优化:
采用KL散度损失训练目标枝干,采用下述公式表示训练过程:
Figure BDA0004163717140000137
其中,Lkld为KL散度损失,
Figure BDA0004163717140000138
为类别c对样本xi的描述程度,/>
Figure BDA0004163717140000139
为目标枝干对于样本xi属于标签yj的预测概率;
②多任务学习框架:
构建多任务学习框架,通过分布预测与表情识别的联合学习最小化联合损失L,从而优化模型的预测性能;采用下述公式表示联合损失函数:
L=α1·Lkld2·Lce+LRR
Figure BDA0004163717140000141
Figure BDA0004163717140000142
其中,α1和α2为与训练轮次e有关的加权斜率函数,β为训练轮次的阈值,引入α1和α2优化训练过程;在训练初期,着重训练辅助枝干,使得辅助枝干能够输出满足设定的稳健性要求的样本分布与类别分布;在训练后期,着重训练目标枝干,并避免辅助枝干过拟合;在推理阶段,辅助枝干会被移除,只有目标枝干用于预测样本的表情;
S7.采用步骤S6优化得到的双分支神经网络模型实现人脸表情预测,具体包括:
采用步骤S6优化得到的双分支神经网络模型,通过目标枝干输出每个样本的概率分布进行人脸表情的预测,在输出的概率分布中选取其中预测概率最高对应的表情作为样本的预测表情。

Claims (8)

1.一种基于动态分布融合的人脸表情预测方法,包括如下步骤:
S1.获取人脸表情数据集,针对获取的数据集中的人脸图片进行预处理,获取预处理数据集;
S2.构造辅助枝干,并基于辅助枝干设计双分支神经网络模型;
S3.采用步骤S2构造的辅助枝干针对步骤S1获取的预处理数据集进行提取样本分布处理;
S4.构建类别分布,针对步骤S3获取的样本分布进行挖掘情感信息处理;
S5.针对步骤S4构建的类别分布和步骤S3获取的样本分布进行动态分布融合处理;
S6.构建多任务学习框架,优化步骤S2设计的双分支神经网络模型;
S7.采用步骤S6优化得到的双分支神经网络模型实现人脸表情预测。
2.根据权利要求1所述的基于动态分布融合的人脸表情预测方法,其特征在于步骤S1所述的获取人脸表情数据集,针对获取的数据集中的人脸图片进行预处理,获取预处理数据集,具体包括:
设定人脸表情数据集为
Figure FDA0004163717120000011
且数据集中涵盖C类标签与N个样本,使用MTCNN算法进行人脸对齐处理,输出固定大小的人脸图片;将输出的人脸图片缩放到给定尺寸,并使用RandAugment技术进行数据增广;使用ImageNet数据集的均值与标准差进行人脸图片RGB通道的归一化处理。
3.根据权利要求2所述的基于动态分布融合的人脸表情预测方法,其特征在于步骤S2所述的构造辅助枝干,并基于辅助枝干设计双分支神经网络模型,具体包括:
采用ResNet18网络模型构造双分支神经网络模型。将ResNet18网络模型分为两部分:冻结ResNet18网络模型中的第1层作为特征提取器,使用ResNet18网络模型中的后3层作为特征鉴别器,将该特征鉴别器定义为目标枝干。基于目标枝干构造辅助枝干,辅助枝干的参数、结构同目标枝干一致。基于特征提取器、目标枝干和构造的辅助枝干,设计获得双分支神经网络模型。
4.根据权利要求3所述的基于动态分布融合的人脸表情预测方法,其特征在于步骤S3所述的采用步骤S2构造的辅助枝干针对步骤S1获取的预处理数据集进行提取样本分布处理,具体包括:
将步骤S2构造的辅助枝干输出的概率分布作为样本分布,采用下述公式表示样本分布:
Figure FDA0004163717120000021
Figure FDA0004163717120000022
其中,
Figure FDA0004163717120000028
为样本xi的样本分布,yj为第j类标签,/>
Figure FDA0004163717120000023
为标签yj对于样本xi的描述程度,/>
Figure FDA0004163717120000024
为辅助枝干对样本xi属于标签yj的预测概率;
辅助枝干通过交叉熵损失进行训练,以提高并保持辅助枝干提取样本分布的能力,采用下述公式表示交叉熵损失函数:
Figure FDA0004163717120000025
其中,Lce是交叉熵损失函数,
Figure FDA0004163717120000026
为样本xi的逻辑标签yi的第c个值,/>
Figure FDA0004163717120000027
是辅助枝干对样本xi属于类别c的预测概率。
5.根据权利要求4所述的基于动态分布融合的人脸表情预测方法,其特征在于步骤S4所述的构建类别分布,针对步骤S3获取的样本分布进行挖掘情感信息处理,具体包括:
使用类别分布挖掘来找出样本分布中隐含的情感信息,消除样本分布误差对模型性能的影响,采用下述公式表示类别分布:
Figure FDA0004163717120000031
其中,
Figure FDA0004163717120000032
为类别c的类别分布,/>
Figure FDA0004163717120000033
为属于类别c的样本xi的类别分布,Nc为属于类别c的样本数量;
设置阈值t来判断输出的类别分布是否满足设定的稳健性要求,如果标签yj对于类别c的描述程度没有达到阈值t,使用阈值分布暂时替代类别分布训练模型,采用下述公式进行描述:
Figure FDA0004163717120000034
Figure FDA0004163717120000035
Figure FDA0004163717120000036
其中,
Figure FDA0004163717120000037
是类别c的类别分布,/>
Figure FDA0004163717120000038
是类别c的阈值分布,/>
Figure FDA0004163717120000039
为标签yj对于类别c的描述程度。
6.根据权利要求5所述的基于动态分布融合的人脸表情预测方法,其特征在于步骤S5所述的针对步骤S4构建的类别分布和步骤S3获取的样本分布进行动态分布融合处理,具体包括:
动态分布融合以类别分布为基础,根据每个样本的注意力权重自适应地融合类别分布与样本分布。动态分布融合分为两个步骤:注意力权重提取和自适应分布融合;
1)注意力权重提取:
对于注意力权重提取,将两个注意力模块分别嵌入到两个枝干的最后一层来获取样本的注意力权重。注意力模块通过一个全连接层和Sigmoid函数构成,每个枝干输出的特征输入到对应的注意力模块提取得到每个样本的注意力权重,注意力权重值用于判断一个样本是否清晰或者模糊,并将该权重值用于自适应分布融合;每个枝干输出的特征与对应的注意力权重相乘后,再输入对应的分类器中;
注意力权重提取的流程如下:
a.对于一批样本,将特征提取器输出的人脸特征同时输入到辅助枝干与目标枝干;
b.对两个注意力模块输出的注意力权重进行求平均处理,以同时受益于两个枝干的样本模糊程度辨别能力,采用下述公式表示平均后的注意力权重:
Figure FDA0004163717120000041
其中,
Figure FDA0004163717120000042
和/>
Figure FDA0004163717120000043
分别为两个枝干的注意力模块输出的样本xi的注意力权重;
c.对注意力权重进行排序正则化,以避免注意力模块的辨别能力退化:
Figure FDA0004163717120000044
LRR=max(0,δ-(wH-wL))
其中,wH和wL分别为高权重的M个样本与低权重的N-M个样本的注意力权重平均值,δ为一个固定差值,δ和M直接使用采用相同注意力模块的方法SCN中的值,LRR是排序正则化的损失函数;
d.对注意力权重进行归一化处理,采用下述公式表示处理过程:
Figure FDA0004163717120000051
其中,wmin为注意力权重的下限,
Figure FDA0004163717120000052
是样本xi经过排序正则化后的注意力权重,/>
Figure FDA0004163717120000053
是样本xi经过归一化处理后的注意力权重;
2)自适应分布融合:
采用下述公示表示融合后的混合分布:
Figure FDA0004163717120000054
其中,
Figure FDA0004163717120000055
是样本xi融合后的混合分布,/>
Figure FDA0004163717120000056
是样本xi的类别分布,/>
Figure FDA0004163717120000057
是样本xi的标签分布,/>
Figure FDA0004163717120000058
是样本xi经过归一化处理后的注意力权重。
7.根据权利要求6所述的基于动态分布融合的人脸表情预测方法,其特征在于步骤S6所述的构建多任务学习框架,优化步骤S2设计的双分支神经网络模型,具体包括:
①目标枝干优化:
采用KL散度损失训练目标枝干,采用下述公式表示训练过程:
Figure FDA0004163717120000059
其中,Lkld为KL散度损失,
Figure FDA00041637171200000510
为类别c对样本xi的描述程度,/>
Figure FDA00041637171200000511
为目标枝干对于样本xi属于标签yj的预测概率;
②多任务学习框架:
构建多任务学习框架,通过分布预测与表情识别的联合学习最小化联合损失L,从而优化模型的预测性能,采用下述公式表示联合损失函数:
L=α1·Lkld2·Lce+LRR
Figure FDA0004163717120000061
Figure FDA0004163717120000062
其中,α1和α2为与训练轮次有关的加权斜率函数,β为训练轮次的阈值,引入α1和α2优化训练过程。
8.根据权利要求7所述的基于动态分布融合的人脸表情预测方法,其特征在于步骤S7所述的采用步骤S6优化得到的双分支神经网络模型实现人脸表情预测,具体包括:
采用步骤S6优化得到的双分支神经网络模型,通过目标枝干输出每个样本的概率分布进行人脸表情的预测,在输出的概率分布中选取其中预测概率最高对应的表情作为样本的预测表情。
CN202310357220.9A 2023-04-06 2023-04-06 一种基于动态分布融合的人脸表情预测方法 Pending CN116363733A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310357220.9A CN116363733A (zh) 2023-04-06 2023-04-06 一种基于动态分布融合的人脸表情预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310357220.9A CN116363733A (zh) 2023-04-06 2023-04-06 一种基于动态分布融合的人脸表情预测方法

Publications (1)

Publication Number Publication Date
CN116363733A true CN116363733A (zh) 2023-06-30

Family

ID=86920731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310357220.9A Pending CN116363733A (zh) 2023-04-06 2023-04-06 一种基于动态分布融合的人脸表情预测方法

Country Status (1)

Country Link
CN (1) CN116363733A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738120A (zh) * 2023-08-11 2023-09-12 齐鲁工业大学(山东省科学院) 面向x荧光品位分析仪的铜品位scn建模算法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738120A (zh) * 2023-08-11 2023-09-12 齐鲁工业大学(山东省科学院) 面向x荧光品位分析仪的铜品位scn建模算法
CN116738120B (zh) * 2023-08-11 2023-11-03 齐鲁工业大学(山东省科学院) 面向x荧光品位分析仪的铜品位scn建模算法

Similar Documents

Publication Publication Date Title
Shao et al. Performance evaluation of deep feature learning for RGB-D image/video classification
CN107609460B (zh) 一种融合时空双重网络流和attention机制的人体行为识别方法
Bai et al. Subset based deep learning for RGB-D object recognition
CN111507378A (zh) 训练图像处理模型的方法和装置
CN109948475B (zh) 一种基于骨架特征和深度学习的人体动作识别方法
US20160055237A1 (en) Method for Semantically Labeling an Image of a Scene using Recursive Context Propagation
CN110033007B (zh) 基于深度姿态预估和多特征融合的行人衣着属性识别方法
Yan et al. Monocular depth estimation with guidance of surface normal map
CN113255602A (zh) 基于多模态数据的动态手势识别方法
CN110991500A (zh) 一种基于嵌套式集成深度支持向量机的小样本多分类方法
CN114842238A (zh) 一种嵌入式乳腺超声影像的识别方法
CN116363733A (zh) 一种基于动态分布融合的人脸表情预测方法
Xu et al. Weakly supervised facial expression recognition via transferred DAL-CNN and active incremental learning
CN115035599A (zh) 一种融合装备与行为特征的武装人员识别方法和系统
Kuppusamy et al. Enriching the multi-object detection using convolutional neural network in macro-image
Li et al. SGML: A symmetric graph metric learning framework for efficient hyperspectral image classification
Li et al. IIE-SegNet: Deep semantic segmentation network with enhanced boundary based on image information entropy
Poostchi et al. Feature selection for appearance-based vehicle tracking in geospatial video
Lai et al. Underwater target tracking via 3D convolutional networks
Singh et al. Deep active transfer learning for image recognition
Chiu et al. Real-time monocular depth estimation with extremely light-weight neural network
CN113627245B (zh) Crts目标检测方法
Yamashita et al. Facial point detection using convolutional neural network transferred from a heterogeneous task
CN117523626A (zh) 伪rgb-d人脸识别法
Girdhar et al. Gibbs sampling strategies for semantic perception of streaming video data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination