CN117542105A - 一种课堂教学下低分辨率图像的人脸超分与表情识别方法 - Google Patents

一种课堂教学下低分辨率图像的人脸超分与表情识别方法 Download PDF

Info

Publication number
CN117542105A
CN117542105A CN202410029614.6A CN202410029614A CN117542105A CN 117542105 A CN117542105 A CN 117542105A CN 202410029614 A CN202410029614 A CN 202410029614A CN 117542105 A CN117542105 A CN 117542105A
Authority
CN
China
Prior art keywords
resolution
representing
super
image
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410029614.6A
Other languages
English (en)
Inventor
刘长红
邹奔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Normal University
Original Assignee
Jiangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Normal University filed Critical Jiangxi Normal University
Priority to CN202410029614.6A priority Critical patent/CN117542105A/zh
Publication of CN117542105A publication Critical patent/CN117542105A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种课堂教学下低分辨率图像的人脸超分与表情识别方法,构建面部表情数据集对图像进行尺寸标准化,生成一组低分辨率图像输入至编码器中,将低分辨率图像的特征输入至超分辨率生成器中,得出超分辨率图像,同时将超分辨率生成器生成的高分辨率特征输入至多尺度注意力分类器中,提取有效的表情特征,本发明的有益效果是:通过超分辨率生成器内编码器、解码器,对低分辨率特征进行深度分析和解析,生成超分辨率图像,并为多尺度注意力的分类器提供多尺度特征,通过多尺度注意力分类器对特征进行统一化进行组合,在通过注意力模块可以有效地挖掘和利用特征之间的关联信息,从而提取有效的表情特征。

Description

一种课堂教学下低分辨率图像的人脸超分与表情识别方法
技术领域
本发明涉及人脸识别技术领域,具体为一种课堂教学下低分辨率图像的人脸超分与表情识别方法。
背景技术
面部表情作为一种显著的外在信号,深刻地反映了人类的情绪状态。由人脸肌肉的微妙变化引发的面部特征的变化,构成了丰富多样的人脸表情,人脸表情是一种非语言的重要的表达方式,通过其独特的方式,可以向外界传达个体的情绪、态度、意愿和反应,据心理学家A.Mehrabia的研究表明,人类在日常交流中通过表情传递的信息比通过语言传递的信息多得多,在众多的研究中,研究者们通常将人脸表情分为六种基本类型,即快乐、悲伤、惊讶、恐惧、愤怒和厌恶。
现有的表情识别技术已经由传统的机器学习的方式逐渐转换成以深度学习为主的方式,人脸表情的识别准确率也有了较大幅度的增长,针对实验室数据集的表情识别,现有的大多数的模型都可以做到较高的识别准确率,然而当这些方法应用到真实世界的数据集中的时候,识别准确率都会有较大幅度的下降,由于真实世界的数据通常存在遮挡、姿势扭曲、光照不足、图像分辨率较低等问题,由于摄像头等硬件设备的限制,获取到的人脸图像往往是不清晰的,其中最大的问题就是低分辨率的问题,低分辨率的图片相对于高分辨率的图片信息含量有显著的降低,计算机就很难通过特征分析技术去取得图片中的信息,因此导致不同图片之间的区分度不够大,也很难对其中的表情进行分类。
发明内容
针对现有技术的不足,本发明提供了一种课堂教学下低分辨率图像的人脸超分与表情识别方法,其目的在于通过一个端到端的模型实现了输入低分辨的人脸图片,模型可以得出这张图片人物所展示的表情同时,也能获得这张图片的更清晰的高分辨率版本,并且具有更丰富的表情特征。
为实现上述目的,本发明提供如下技术方案:一种课堂教学下低分辨率图像的人脸超分与表情识别方法,包括以下步骤:
步骤S1,构建面部表情数据集;
步骤S2,对面部表情数据集内将所有图像进行尺寸标准化,生成一组低分辨率图像;
步骤S3,构建超分表情识别模型,由超分辨率生成网络和多尺度注意力分类器组成;
所述超分辨率生成网络包括编码器、超分辨率生成器、解码器;
所述编码器由残差稠密块网络、多层卷积层、全连接层组成;
所述多尺度注意力分类器包括有注意力模块;
步骤S4,将低分辨率图像输入至编码器中得到低分辨率图像的特征;
步骤S5,将低分辨率图像的特征输入至超分辨率生成器中,对低分辨率图像的特征进行分析和解析,得出高分辨率特征;
步骤S6,通过解码器对高分辨率特征进行逐层解码,得出超分辨率图像;
步骤S7,得出超分辨率图像输入至鉴别器中,对面部表情数据集内与超分辨率图像相匹配的高分辨率图像进行判断,同时通过对抗网络反向传播计算减小超分辨率图像与相匹配的高分辨率图像之间差异;
步骤S8,基于步骤S5将得到高分辨率的特征进行统一输入至多尺度注意力分类器中,对统一归化的特征进行挖掘,提取有效的表情特征。
其中,所述步骤S4中获取低分辨率图像的特征过程为:通过残差密块网络提取低 分辨率图像的特征,将提取的最后一个特征输入至组合的多层卷积和全连接层当中,最 终分解为多个包含面部细节的隐编码,为生成的超分辨率图像提供基本的面部细节信息;
编码器表达式用公式(1)表示和隐编码表达式用公式(2)表示:
(1);
(2);
式中,表示编码器中第0个特征,表示编码器中的第i个尺度特征,表示 编码器中的第m个特征,表示编码器,表示低分辨图像,表示第0个隐编码,表示第1 个隐编码,表示第个隐编码的上一个编码,表示第个隐编码,表示隐编码生成 层。
其中,所述步骤S5中对低分辨率图像的特征进行分析和解析,得出不同尺度高分 辨率图像的特征过程为:将编码器的低分辨率图像的特征逐步输入到每个层中,每一层 输出的结果作为后续层的输入,且在每一层中引入表示面部细节特征的隐编码,以约束和 纠正高分辨率特征的生成;
超分辨率生成器生成高分辨率的过程表达式用公式(3)表示:
(3);
式中,表示超分辨率生成器特征,表示超分辨率生成器第0层,表示超分 辨率生成器第i层的时候,表示超分辨率生成器的第i层,表示第i个隐编码,表示高 分辨率特征,表示i-1个低分辨率特征,表示第-1个低分辨率特征。
其中,所述步骤S6中得出超分辨率图像过程为:将得出高分辨率特征被用作解码器前半部每一层输入一部分,结合不同尺度的图像特征信息和逐步解码操作;
得出完整的超分辨率图像,解码操作表达式用公式(4)表示:
(4);
式中,表示是第i层的高分辨率图像,表示编码器的第0,表示编码器第i层,表示最后一个高分特征,表示第i-1个高分辨率,表示m-2+i个高分辨特 征。
其中,所述步骤S7中对超分辨率图像与相匹配的高分辨率图像进行判断,同时通过对抗网络反向传播计算减小超分辨率图像与相匹配的高分辨率图像之间差异过程为;通过鉴别器对输入超分辨率图像与相匹配的高分辨率图像进行判断是否有模型生成,通过超分辨率生成器与鉴别器不断的对抗,使模型逐步提升,提高生成图像的质量;
同时通过对抗网络反向传播计算减小超分辨率图像与匹配的高分辨率图像之间差异过程为:
对抗网络损失的描述表达式用公式(5)表示:
式中,表示对抗网络的生成对抗损失,minG表示对抗网络的最小化生成的图 像与真实图像之间的差异,maxD表示对抗网络的最大化生成的图像与真实图像之间的差 异,表示真实图像的分布,表示真实的图像,表示鉴别器,表示生成图像的分 布,表示超分辨率生成器;
同时引入均方误差损失和感知损失来优化超分辨率网络,均方误差损失表 达式用公式(6)表示,感知损失表达式用公式(7)表示:
(6);
(7);
式中,表示图像的宽度,表示图像的长度,表示感知网络第j层特征图的长 度,表示感知网络第j层特征图的宽度,表示感知网络第j层特征图的通道数,表示 VGG网络的第j层。
其中,所述步骤S9中对超分辨率生成的高分辨率特征进行挖掘,提取有效的表情 特征过程为:从高分辨率特征中进一步提取有效的表情特征,并为不同尺度的高分辨率特 征,构建了不同的特征统一块,将高分辨率特征统一到共同的尺度中;
特征统一由多层卷积和平均池化组成,表达式用公式(8)表示:
(8);
式中,表示映射特征,MeanPooling表示平均池化操作,Conv2d表示二维卷积;
为了捕捉每个尺度包含的表达特征重要性,使用多尺度注意力分类器融合了 不同尺度的特征;
融合后的特征被定义为,表达式用公式(9)表示:
(9);
式中,Z表示所有的串联,表示是归一化指数函数,表示注意力模块 中全连接层的参数;
每个尺度的重要性权重通过全连接层和S型函数获得,融合特征学习每个尺度 的判别性表达特征,随后输入到最终的全连接层和归一化指数函数以获得分类结果,表达 公式用公式(10)表示:
(10);
式中,表示最后的模型结果;表示归一化指数函数,FC表示全连接层;
在基础分类损失上增加了等级正则化损失,训练过程中,对置信度较低的面部表情标签进行了重新标注操作,进一步提高了低光照图像中面部表情识别的鲁棒性,表达式用公式(11)表示:
(11);
式中,表示总的分类损失,表示数权重交叉熵损失,表示模型预测的结 果,表示真实的图像表情分类标签,表示等级正则化损失;
通过将超分辨率生成器中生成的图像与真实图像之间的相似性损失,以及多尺度注意力分类器中的表情识别损失相结合,将所有损失相加并统一的方式将其反向传播,总损失表达式用公式(12)表示:
(12);
式中,式中,表示总损失,α表示损失项的权重值,β表示损失项的权重 值,γ表示损失项的权重值,δ表示损失项的权重值,表示表情分类损失。
与现有的技术相比,本发明具备以下有益效果:
(1)本发明通过实施了一种端到端的模型,该模型在低分辨率的人脸图像上进行了精确的表情识别,相较于现有的两阶段表情识别方法,该模型展现出了更高的运行效率,现有的方法通常需要先进行特征提取,利用这些特征进行表情识别,这种分离的流程可能会导致信息的丢失,然而,通过实施了一种端到端模型可以直接从原始图像中学习到有用的特征,从而提高了识别的准确性。
(2)在低分辨率人脸图像上实现了超分辨率重建,相比于现有的超分辨率算法,本方法能够生成的超分辨率图像包含更丰富的表情特征,且同时模型还关注于恢复高分辨率的细节,也注重于保留和增强原有图像的表情特征,然而在现有的超分辨率算法中往往被忽视。
(3)应用领域非常广泛,特别是在教室环境下的低分辨率表情识别方面,展示出了极大的潜力,具体来说,模型可以用于智慧教育应用,例如,通过分析学生的表情,教师可以实时了解学生的学习状态,从而对教学方法进行调整,不仅能够提高教学效果,同时也为研究学生的学习行为提供了新的视角。
附图说明
图1为本发明的模型整体流程平面结构示意图。
图2为本发明的超分辨率生成器平面结构示意图。
图3为本发明的多尺度注意力分类器结构示意图。
图4为本发明的模型训练流程结构示意图。
图5为本发明的模型应用到教室场景流程结构示意图。
具体实施方式
请参阅图1-图5,本发明提供技术方案:一种课堂教学下低分辨率图像的人脸超分与表情识别方法,包括以下步骤:
步骤S1,构建面部表情数据集;
步骤S2,对面部表情数据集内将所有图像进行尺寸标准化,生成一组低分辨率图像;
步骤S3,构建超分表情识别模型,由超分辨率生成网络和多尺度注意力分类器组成;
所述超分辨率生成网络包括编码器、超分辨率生成器、解码器;
所述编码器由残差稠密块网络、多层卷积层、全连接层组成;
所述多尺度注意力分类器包括有注意力模块;
步骤S4,将低分辨率图像输入至编码器中得到低分辨率图像的特征;
步骤S5,将低分辨率图像的特征输入至超分辨率生成器中,对低分辨率图像的特征进行分析和解析,得出高分辨率特征;
步骤S6,通过解码器对高分辨率特征进行逐层解码,得出超分辨率图像;
步骤S7,得出超分辨率图像输入至鉴别器中,对面部表情数据集内与超分辨率图像相匹配的高分辨率图像进行判断,同时通过对抗网络反向传播计算减小超分辨率图像与相匹配的高分辨率图像之间差异;
步骤S8,基于步骤S5将得到高分辨率的特征进行统一输入至多尺度注意力分类器中,对统一归化的特征进行挖掘,提取有效的表情特征。
其中,所述步骤S1中构建面部表情数据值过程为:
通过采用第一面部表情数据集(RAF-DB)和第二面部表情数据集(AffectNet)作为面部表情识别研究的基础数据源,第一面部表情数据集(RAF-DB)是一个大规模的面部表情数据集,由大约40名标注员进行独立的标注工作,从而提供了丰富的样本来源,且该数据集包含近30,000张包含七种基本面部表情的图像,包括中性、快乐、惊讶、悲伤、愤怒、厌恶和恐惧,图像中,精选了12,271张作为训练集,以及3,068张作为测试集,这样的划分旨在确保模型在训练和测试阶段都能得到充足且平衡的数据支持,且同时第二面部表情数据集(AffectNet)则是一个更为庞大的数据集,从互联网上收集了超过1,000,000张面部图像,提供了极为丰富的数据资源,图像中,选择了287,651张有效的面部表情图像进行训练,以及4,000张进行测试;值得注意的是,第二面部表情数据集(AffectNet)数据集包含的表情种类比第一面部表情数据集(RAF-DB)多一种,即蔑视,增加了额外的复杂性,但也提供了更为全面的表情识别场景,总体而言,通过使用这两个面部表情数据集,能够覆盖大部分的面部表情类型,同时也能够处理各种复杂的面部表情识别任务。
其中,所述步骤S2中将所有图像进行尺寸标准化,生成一组低分辨率图像过程为:
首先对数据集中的所有图像进行了尺寸标准化,将每张图像的长和宽都设置为128像素,以此创建高分辨率的图像集,这一步骤旨在统一输入数据,使其在空间分辨率上保持一致,从而减少模型处理不同尺寸图像时可能产生的变异性,接下进行了一系列的下采样操作,以生成一组低分辨率图像集,具体来说,按照2倍、4倍、8倍、16倍的比例,将原始图像的尺寸分别缩小到64x64、32x32、16x16、8x8像素,这些操作生成的低分辨率图像集将被用于模拟在实际应用中可能遇到的低质量、低分辨率图像输入情况,从而使模型能够在各种分辨率的图像上都表现出良好的性能,值得注意的是,进行预处理步骤时,保持了原始数据集中的表情标签不变,无论是高分辨率图像还是低分辨率图像,都保持了与原始图像相同的表情标签,这样做的目的是保证模型在处理不同分辨率的图像时,都能准确地识别出图像中的表情,从而达到目标。
其中,所述步骤S4中获取低分辨率图像的特征过程为:通过残差密块网络提取低 分辨率图像的特征,将提取的最后一个特征输入至组合的多层卷积和全连接层当中,最 终分解为多个包含面部细节的隐编码,为生成的超分辨率图像提供基本的面部细节信息;
编码器表达式用公式(1)表示和隐编码表达式用公式(2)表示:
(1);
(2);
式中,表示编码器中第0个特征,表示编码器中的第i个尺度特征,表示 编码器中的第m个特征,表示编码器,表示低分辨图像,表示第0个隐编码,表示第1 个隐编码,表示第个隐编码的上一个编码,表示第个隐编码,表示隐编码生成 层;
首先将低分辨率图像作为输入编码器,通过一个多层的编码器进行逐层编码,且编码器的结构设计为多层次,每一层的基本构造大致相同,但参数细节有所差异,为了确保每一层都能有效地提取出图像的不同特征层次,编码器每一层的作用是生成对应参数大小的低分辨率特征,这些特征不仅会作为编码器下一层的输入,以进一步提取更高层次的特征,同时,每一层的特征也会被保留一份,用于输入到下一部分的超分辨率生成器中,这一设计使模型能够在不同的特征层次上进行学习和生成,从而更好地复原低分辨率图像的细节,且在编码器的最后一层,使用全连接层将最后的特征输入分解为多个隐编码,隐编码代表了生成超分辨率人脸图像的各种细节特征,包括但不限于人脸的五官特征、皮肤纹理;隐编码为模型提供了丰富的信息源,使其能够在生成过程中考虑到人脸图像的各种细节,从而生成更高质量、更真实的超分辨率人脸图像。
其中,所述步骤S5中对低分辨率图像的特征进行分析和解析,得出不同尺度高分 辨率图像的特征过程为:将编码器的低分辨率图像的特征逐步输入到每个层中,通过学 习多尺度图像的压缩特征,超分辨率生成器的前半部分已经对要恢复的目标图像有了基本 的理解,在超分辨率生成器的后半部分,模型逐层生成目标图像的高尺度特征,生成的特征 尺度逐渐增大,每一层包含的信息量也随之增加每一层输出的结果作为后续层的输入;然 而,仅靠这些特征还不足以产生清晰且细节丰富的超分辨率图像,因此在每一层中引入表 示面部细节特征的隐编码,以约束和纠正高分辨率特征的生成;
超分辨率生成器生成高分辨率的过程表达式用公式(3)表示:
(3);
式中,表示超分辨率生成器特征,表示超分辨率生成器第0层,表示超分 辨率生成器第i层的时候,表示超分辨率生成器的第i层,表示第i个隐编码,表示高 分辨率特征,表示i-1个低分辨率特征,表示第-1个低分辨率特征;
由编码器生成的低分辨率特征将被逐层输入到超分辨率生成器的前半部分,此外,编码器最后输出的多个隐编码将被输入到超分辨率生成器的每一层中,这一设计策略确保了每一层都可以接收到上一层的输出,从而实现了信息在各层之间的有效传递,使超分辨率生成器的工作是对输入的隐编码、低分辨率特征以及上一层的输出结果进行深度分析和解析,这类过程是通过多步运算实现的,旨在从这些输入中提取出有用的信息,以用于生成高分辨率特征,在生成器的后半部分,每一层都会产生不同尺度的高分辨率特征,这一类特征是后续表情识别和人脸超分任务的基础,包含了图像的多种细节信息,为模型提供了丰富的信息源,在得到这些多尺度高分辨率特征后,模型将同时进行人脸超分和表情识别两个部分的训练;这种并行训练策略可以有效地提高模型的学习效率,同时也让模型能够在两个任务之间共享学习到的特征,从而提高模型的性能和泛化能力。
其中,所述步骤S6中得出超分辨率图像过程为:将得出高分辨率特征被用作解码器前半部每一层输入一部分,结合不同尺度的图像特征信息和逐步解码操作;
得出完整的超分辨率图像,解码操作表达用公式(4)表示:
(4);
式中,表示是第i层的高分辨率图像,表示编码器的第0,表示编码器第i层,表示最后一个高分特征,表示第i-1个高分辨率,表示m-2+i个高分辨特 征;
在人脸超分的部分,模型采用一个解码器进行逐层解码,这一过程与编码器的工作原理相反,解码器的每一层都会接受高分辨率特征作为输入,随后逐层解码以得出完整的超分辨率图像,生成的超分辨率图像与匹配的高分辨率图像会被输入到模型的鉴别器中。
其中,所述步骤S7对超分辨率图像与相匹配的高分辨率图像进行判断,同时通过对抗网络反向传播计算减小超分辨率图像与相匹配的高分辨率图像之间差异过程为;通过鉴别器对输入超分辨率图像与相匹配的高分辨率图像进行判断是否有模型生成,通过超分辨率生成器与鉴别器不断的对抗,使模型逐步提升,提高生成图像的质量;
同时通过对抗网络反向传播计算减小超分辨率图像与匹配的高分辨率图像之间差异过程为:
对抗网络损失的描述表达式用公式(5)表示:
式中,表示对抗网络的生成对抗损失,minG表示对抗网络的最小化生成的图像 与真实图像之间的差异,maxD表示对抗网络的最大化生成的图像与真实图像之间的差异,表示真实图像的分布,表示真实的图像,表示鉴别器,表示生成图像的分布, 表示超分辨率生成器;
利用了均方误差损失和感知损失来优化超分辨率网络,均方误差损失确保图 像在空间特征方面具有相似的内容,同时对较大的误差进行更严重的惩罚,使生成的图像 更加平滑,然而并不能准确反映人类对高分辨率图像的感知,因此,通过结合这两种损失, 在超分辨率任务中获得更好的视觉结果,两种损失公式为均方误差损失表达式用公式 (6)表示,感知损失表达式用公式(7)表示:
(6);
(7);
式中,表示图像的宽度,表示图像的长度,表示感知网络第j层特征图的长 度,表示感知网络第j层特征图的宽度,表示感知网络第j层特征图的通道数,表示 VGG网络的第j层;
生成器和鉴别器的不断对抗提升其生成的图像质量,这个过程中同时,还使用了生成对抗网络(GAN)的损失函数来描述生成器和鉴别器之间的对抗关系,并通过反向传播算法来优化生成的图像与原始图像之间的误差;除此之外,还引入了均方误差(MSE)损失和感知损失来优化超分辨率生成网络(均方误差(MSE)损失用于确保生成的图像在空间特征上与原始图像相似,对较大的误差进行更严重的惩罚,使生成的图像更加平滑,但均方误差(MSE)并不能准确反映人类对高分辨率图像的感知),同时还引入了感知损失,用于保持特征空间中纹理的相似性,并补偿由均方误差损失引起的平滑度问题;通过结合生成对抗损失、均方误差损失和感知损失,使模型可以在超分辨率任务中获得更好的视觉结果,多重损失函数的策略可以有效地平衡图像的空间特征和感知特征,从而生成更高质量的超分辨率图像。
其中,所述步骤S8中对超分辨率生成的不同尺度的高分辨率特征进行挖掘,提取 有效的表情特征过程为:由超分辨率生成器生成的多尺度特征作为表情识别的基础,将 超分辨率生成器生成的高分辨率特征统一块,从高分辨率特征中进一步提取有效的表情特 征,并为不同尺度的高分辨率特征,构建了不同的特征统一块,将高分辨率特征统 一到共同的尺度中;
高分辨率图像特征统一由多层卷积和平均池化组成,表达式用公式(8)表示:
(8);
式中,表示映射特征,表示平均池化操作,表示二维卷积;
为了捕捉每个尺度包含的表达特征重要性,使用多尺度注意力分类器融合了 不同尺度的特征,突出对那些表情识别更大影响的特征,融合不同尺度特征增强内语义信 息,融合后的特征被定义为,表达式用公式(9)表示:
(9);
式中,Z表示所有的串联,表示是归一化指数函数,表示注意力模块中 全连接层的参数;
每个尺度的重要性权重通过全连接层和S型函数获得,融合特征学习每个尺度 的判别性表达特征,随后输入到最终的全连接层和归一化指数函数以获得分类结果,表达 公式用公式(10)表示:
(10);
式中,表示最后的模型结果;表示归一化指数函数,FC表示全连接层;
在基础分类损失上增加了等级正则化损失(即对数权重交叉熵损失)之上增加了等级正则化损失(/>),训练过程中,对置信度较低的面部表情标签进行了重新标注操作,进一步提高了低光照图像中面部表情识别的鲁棒性;
表情识别的损失函数,表达式用公式(11)表示:
(11);
式中,表示总的分类损失,表示数权重交叉熵损失,表示模型预测的结 果,表示真实的图像表情分类标签,表示等级正则化损失;
通过将超分辨率生成器中生成的图像与真实图像之间的相似性损失,以及多尺度注意力分类器中的表情识别损失相结合,实现了在保留生成图像中的表情特征的同时生成超分辨率图像,从而为下游的表情识别任务提供了丰富的识别信息,将所有损失相加并统一的方式将其反向传播,总损失表示如下(12)表示:
(12);
式中,表示总损失,α表示损失项的权重值,β表示损失项的权重值,γ 表示损失项的权重值,δ表示损失项的权重值,表示表情分类损失;
在人脸表情识别的部分,采用了多尺度注意力分类器来融合不同尺度的高分辨率特征,以便在特征中突出表情信息,具体而言,根据特征的尺度大小设计了不同深度的特征统一块,将特征统一块由多层卷积层构成,可以把不同尺度的特征都归一化到同一个尺度中,目的是为了使特征在尺度上具有一致性,从而便于后续的特征融合和处理,在特征统一化后,将这些特征进行组合,输入到注意力模块中,注意力模块的作用是突出重要的表情特征,并将多个特征融合成一个特征,这一类过程中,注意力模块可以有效地挖掘和利用特征之间的关联信息,从而提高模型对表情特征的识别能力,对于融合后的特征,进行表情的分类处理,为了减少现实世界环境中各种因素引起的面部表情标签的不确定性,在基础分类损失(即对数权重交叉熵损失)之上增加了等级正则化损失,这种损失策略可以有效地平衡模型的分类性能和鲁棒性,从而提高模型在面部表情识别任务上的性能;此外,在训练过程中,对置信度较低的面部表情标签进行了重新标注,以进一步提高模型在低光照环境下的表情识别鲁棒性,这种策略可以有效地降低标签噪声对模型性能的影响,从而提高模型的泛化能力;
且通过上述公式(11)损失函数结合了分类损失和等级正则化损失,可以有效地平衡模型的分类性能和鲁棒性,从而提高模型在面部表情识别任务上的性能;
通过对人脸超分损失函数和表情识别损失函数的不断反向传播,模型会逐渐找到最优的超分结果和表情预测结果。
模型应用到教师场景过程为:
步骤S1,采用教室监控摄像头获取包含多个学生人脸以及人脸表情无关的物体低分辨率图像;
步骤S2,通过目标检测算法对获取的低分辨率图像进行计算,确定图像人脸位置;
步骤S3,使用库函数对获取对应位置人脸图像进行预处理,将图像统一标准化固定为一个尺寸;
步骤S4,将预处理图片输入训练好的模型对输入的图像进行表情识别;
步骤S5,得出表情标签向量,取其中量最高的作为表情类别。
基于步骤S1中获取低分辨率图像过程:在教室场景中,采用教室监控摄像头获取的低分辨率图像,低分辨率图像包含多个学生的人脸以及与人脸表情无关的物体。
基于步骤S2中确定图像人脸位置过程:通过目标检测算法对获取的低分辨率图像进行计算,从而确定图像中人脸的位置。
基于步骤S3中,将图像统一标准化固定为一个尺寸过程;待确定人脸位置后,使用库函数(OpenCV)对图像进行裁剪,以获取对应位置的人脸图像,由于裁剪下来的图像尺寸可能会有所不同,但由于模型只能接受固定尺寸的输入,因此需要对这些图像进行预处理,将图像统一标准化固定为一个尺寸,这一类步骤可以确保模型能够接受和处理所有的输入图像。
基于步骤S4中,将预处理图片输入训练好的模型对输入的图像进行表情识别过程:待准备识别预处理图像时,需要加载训练阶段得到的模型权重,这一类步骤可以确保模型具有在训练阶段学习到的知识和能力,从而对新的输入图像进行有效的表情识别。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种课堂教学下低分辨率图像的人脸超分与表情识别方法,其特征在于:包括以下步骤:
步骤S1,构建面部表情数据集;
步骤S2,对面部表情数据集内将所有图像进行尺寸标准化,生成一组低分辨率图像;
步骤S3,构建超分表情识别模型,由超分辨率生成网络和多尺度注意力分类器组成;
所述超分辨率生成网络包括编码器、超分辨率生成器、解码器;
所述编码器由残差稠密块网络、多层卷积层、全连接层组成;
所述多尺度注意力分类器包括有注意力模块;
步骤S4,将低分辨率图像输入至编码器中得到低分辨率图像的特征;
步骤S5,将低分辨率图像的特征输入至超分辨率生成器中,对低分辨率图像的特征进行分析和解析,得出高分辨率特征;
步骤S6,通过解码器对高分辨率特征进行逐层解码,得出超分辨率图像;
步骤S7,得出超分辨率图像输入至鉴别器中,对面部表情数据集内与超分辨率图像相匹配的高分辨率图像进行判断,同时通过对抗网络反向传播计算减小超分辨率图像与相匹配的高分辨率图像之间差异;
步骤S8,基于步骤S5将得到高分辨率的特征进行统一输入至多尺度注意力分类器中,对统一归化的特征进行挖掘,提取有效的表情特征。
2.根据权利要求1所述的一种课堂教学下低分辨率图像的人脸超分与表情识别方法,其特征在于:所述步骤S4中获取低分辨率图像的特征过程为:通过残差密块网络提取低分辨率图像的特征,将提取的最后一个特征输入至组合的多层卷积和全连接层当中,最终分解为多个包含面部细节的隐编码,为生成的超分辨率图像提供基本的面部细节信息;
编码器表达式用公式(1)表示和隐编码表达式用公式(2)表示:
(1);
(2);
式中,表示编码器中第0个特征,/>表示编码器中的第i个尺度特征,/>表示编码器中的第m个特征,/>表示编码器,/>表示低分辨图像,/>表示第0个隐编码,/>表示第1个隐编码,/>表示第/>个隐编码的上一个编码,/>表示第/>个隐编码,/>表示隐编码生成层。
3.根据权利要求1所述的一种课堂教学下低分辨率图像的人脸超分与表情识别方法,其特征在于:所述步骤S5中对低分辨率图像的特征进行分析和解析,得出不同尺度高分辨率图像的特征过程为:将编码器的低分辨率图像的特征逐步输入到每个层中,每一层输出的结果作为后续层的输入,且在每一层中引入表示面部细节特征的隐编码,以约束和纠正高分辨率特征的生成;
超分辨率生成器生成高分辨率的过程表达式用公式(3)表示:
(3);
式中,表示超分辨率生成器特征,/>表示超分辨率生成器第0层,/>表示超分辨率生成器第i层的时候,/>表示超分辨率生成器的第i层,/>表示第i个隐编码,/>表示高分辨率特征,/>表示i-1个低分辨率特征,/>表示第/>-1个低分辨率特征。
4.根据权利要求1所述的一种课堂教学下低分辨率图像的人脸超分与表情识别方法,其特征在于:所述步骤S6中得出超分辨率图像过程为:将得出高分辨率特征被用作解码器前半部每一层输入一部分,结合不同尺度的图像特征信息和逐步解码操作;
得出完整的超分辨率图像,解码操作表达式用公式(4)表示:
(4);
式中,表示是第i层的高分辨率图像,/>表示编码器的第0,/>表示编码器第i层,/>表示最后一个高分特征,/>表示第i-1个高分辨率,/>表示m-2+i个高分辨特征。
5.根据权利要求1所述的一种课堂教学下低分辨率图像的人脸超分与表情识别方法,其特征在于:所述步骤S7中对超分辨率图像与相匹配的高分辨率图像进行判断,同时通过对抗网络反向传播计算减小超分辨率图像与相匹配的高分辨率图像之间差异过程为;通过鉴别器对输入超分辨率图像与相匹配的高分辨率图像进行判断是否有模型生成,通过超分辨率生成器与鉴别器不断的对抗,使模型逐步提升,提高生成图像的质量;同时通过对抗网络反向传播计算减小超分辨率图像与匹配的高分辨率图像之间差异过程为:
对抗网络损失的描述表达式用公式(5)表示:
式中,表示对抗网络的生成对抗损失,minG表示对抗网络的最小化生成的图像与真实图像之间的差异,maxD表示对抗网络的最大化生成的图像与真实图像之间的差异,/>表示真实图像的分布,/>表示真实的图像,/>表示鉴别器,/>表示生成图像的分布,/>表示超分辨率生成器;
同时引入均方误差损失和感知损失/>来优化超分辨率网络,均方误差损失表达式用公式(6)表示,感知损失表达式用公式(7)表示:
(6);
(7);
式中,表示图像的宽度,/>表示图像的长度,k表示感知网络的总层数,/>表示感知网络第j层特征图的长度,/>表示感知网络第j层特征图的宽度,/>表示感知网络第j层特征图的通道数,/>表示VGG网络的第j层。
6.根据权利要求1所述的一种课堂教学下低分辨率图像的人脸超分与表情识别方法,其特征在于:所述步骤S8中对超分辨率生成的高分辨率特征进行挖掘,提取有效的表情特征过程为:从高分辨率特征中进一步提取有效的表情特征,并为不同尺度的高分辨率特征,构建了不同的特征统一块,将高分辨率特征/>统一到共同的尺度中;
特征统一由多层卷积和平均池化组成,表达式用公式(8)表示:
(8);
式中,表示映射特征,MeanPooling表示平均池化操作,Conv2d表示二维卷积;
为了捕捉每个尺度包含的表达特征重要性,使用多尺度注意力分类器融合了不同尺度的特征;
融合后的特征被定义为,表达式用公式(9)表示:
(9);
式中,Z表示所有的串联,/>表示是归一化指数函数,/>表示注意力模块中全连接层的参数;
每个尺度的重要性权重通过全连接层和S型函数获得,融合特征学习每个尺度的判别性表达特征,随后输入到最终的全连接层和归一化指数函数以获得分类结果,表达公式用公式(10)表示:
(10);
式中,表示最后的模型结果;/>表示归一化指数函数,FC表示全连接层;
在基础分类损失上增加了等级正则化损失,训练过程中,对置信度较低的面部表情标签进行了重新标注操作,进一步提高了低光照图像中面部表情识别的鲁棒性,表达式用公式(11)表示:
(11);
式中,表示总的分类损失,/>表示数权重交叉熵损失,/>表示模型预测的结果,/>表示真实的图像表情分类标签,/>表示等级正则化损失;
通过将超分辨率生成器中生成的图像与真实图像之间的相似性损失,以及多尺度注意力分类器中的表情识别损失相结合,将所有损失相加并统一的方式将其反向传播,总损失表达式用公式(12)表示:
(12);
式中,表示总损失,α表示/>损失项的权重值,β表示/>损失项的权重值,γ表示损失项的权重值,δ表示/>损失项的权重值,/>表示表情分类损失。
CN202410029614.6A 2024-01-09 2024-01-09 一种课堂教学下低分辨率图像的人脸超分与表情识别方法 Pending CN117542105A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410029614.6A CN117542105A (zh) 2024-01-09 2024-01-09 一种课堂教学下低分辨率图像的人脸超分与表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410029614.6A CN117542105A (zh) 2024-01-09 2024-01-09 一种课堂教学下低分辨率图像的人脸超分与表情识别方法

Publications (1)

Publication Number Publication Date
CN117542105A true CN117542105A (zh) 2024-02-09

Family

ID=89782708

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410029614.6A Pending CN117542105A (zh) 2024-01-09 2024-01-09 一种课堂教学下低分辨率图像的人脸超分与表情识别方法

Country Status (1)

Country Link
CN (1) CN117542105A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084119A (zh) * 2019-03-26 2019-08-02 安徽艾睿思智能科技有限公司 基于深度学习的低分辨率人脸图像识别方法
CN111414888A (zh) * 2020-03-31 2020-07-14 杭州博雅鸿图视频技术有限公司 低分辨率人脸识别方法、系统、装置及存储介质
CN113313215A (zh) * 2021-07-30 2021-08-27 腾讯科技(深圳)有限公司 图像数据处理方法、装置、计算机设备和存储介质
CN114038037A (zh) * 2021-11-09 2022-02-11 合肥工业大学 基于可分离残差注意力网络的表情标签修正和识别方法
CN114241274A (zh) * 2021-11-30 2022-03-25 电子科技大学 一种基于超分辨率多尺度特征融合的小目标检测方法
CN114287878A (zh) * 2021-10-18 2022-04-08 江西财经大学 一种基于注意力模型的糖尿病性视网膜病变病灶图像识别方法
CN115018756A (zh) * 2022-03-09 2022-09-06 苏州大学 一种眼底视网膜动静脉的分类方法、装置和存储介质
CN115331284A (zh) * 2022-07-28 2022-11-11 南京邮电大学 一种基于自愈机制的真实场景下的人脸表情识别方法及系统
CN116665215A (zh) * 2023-05-25 2023-08-29 北京航星永志软件技术有限公司 图像显著性区域提取方法、装置、计算机设备及存储介质
CN116738332A (zh) * 2023-06-09 2023-09-12 北京航空航天大学 一种结合注意力机制的飞行器多尺度信号分类识别与故障检测方法
CN117011699A (zh) * 2023-06-25 2023-11-07 安徽师范大学 基于gan模型的高分辨率遥感图像农作物识别模型及其识别方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084119A (zh) * 2019-03-26 2019-08-02 安徽艾睿思智能科技有限公司 基于深度学习的低分辨率人脸图像识别方法
CN111414888A (zh) * 2020-03-31 2020-07-14 杭州博雅鸿图视频技术有限公司 低分辨率人脸识别方法、系统、装置及存储介质
CN113313215A (zh) * 2021-07-30 2021-08-27 腾讯科技(深圳)有限公司 图像数据处理方法、装置、计算机设备和存储介质
CN114287878A (zh) * 2021-10-18 2022-04-08 江西财经大学 一种基于注意力模型的糖尿病性视网膜病变病灶图像识别方法
CN114038037A (zh) * 2021-11-09 2022-02-11 合肥工业大学 基于可分离残差注意力网络的表情标签修正和识别方法
CN114241274A (zh) * 2021-11-30 2022-03-25 电子科技大学 一种基于超分辨率多尺度特征融合的小目标检测方法
CN115018756A (zh) * 2022-03-09 2022-09-06 苏州大学 一种眼底视网膜动静脉的分类方法、装置和存储介质
CN115331284A (zh) * 2022-07-28 2022-11-11 南京邮电大学 一种基于自愈机制的真实场景下的人脸表情识别方法及系统
CN116665215A (zh) * 2023-05-25 2023-08-29 北京航星永志软件技术有限公司 图像显著性区域提取方法、装置、计算机设备及存储介质
CN116738332A (zh) * 2023-06-09 2023-09-12 北京航空航天大学 一种结合注意力机制的飞行器多尺度信号分类识别与故障检测方法
CN117011699A (zh) * 2023-06-25 2023-11-07 安徽师范大学 基于gan模型的高分辨率遥感图像农作物识别模型及其识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BAIKAI SUI 等: "EGDSR:Encoder-Generator-Decoder Network for Remote Sensing Super-Resolution Reconstruction", 《IEEE GEOSCIENCE AND REMOTE SENSING LETTERS》, 18 September 2023 (2023-09-18), pages 2 *
FANG NAN 等: "Feature super-resolution based Facial Expression Recognition for multi-scale low-resolution images", 《KNOWLEDGE-BASED SYSTEMS》, 3 November 2021 (2021-11-03), pages 3 - 4 *
郭巨: "基于学生学习过程的注意力检测系统设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》, vol. 2022, no. 1, 15 January 2022 (2022-01-15), pages 138 - 2119 *

Similar Documents

Publication Publication Date Title
CN111210435B (zh) 一种基于局部和全局特征增强模块的图像语义分割方法
RU2691214C1 (ru) Распознавание текста с использованием искусственного интеллекта
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN106960206B (zh) 字符识别方法和字符识别系统
CN112966684A (zh) 一种注意力机制下的协同学习文字识别方法
CN113961736B (zh) 文本生成图像的方法、装置、计算机设备和存储介质
CN113255457A (zh) 基于人脸表情识别的动画角色面部表情生成方法及系统
CN113297370A (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN112668638A (zh) 一种图像美学质量评估和语义识别联合分类方法及系统
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、系统及设备
CN112037239B (zh) 基于多层次显式关系选择的文本指导图像分割方法
CN113283336A (zh) 一种文本识别方法与系统
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN111008570B (zh) 一种基于压缩-激励伪三维网络的视频理解方法
CN114154016A (zh) 基于目标空间语义对齐的视频描述方法
CN113240033B (zh) 一种基于场景图高阶语义结构的视觉关系检测方法及装置
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN111898614A (zh) 神经网络系统以及图像信号、数据处理的方法
CN109784154A (zh) 基于深度神经网络的情绪识别方法、装置、设备及介质
CN116682049A (zh) 一种基于注意力机制的多模态注视目标估计方法
CN117542105A (zh) 一种课堂教学下低分辨率图像的人脸超分与表情识别方法
CN110188706B (zh) 基于生成对抗网络的视频中人物表情的神经网络训练方法及检测方法
CN114359886A (zh) 一种基于多层次特征选择的自然场景文本识别方法
CN111881794A (zh) 一种视频行为识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination