CN116229530A - 图像处理方法、装置、存储介质及电子设备 - Google Patents

图像处理方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN116229530A
CN116229530A CN202111473999.8A CN202111473999A CN116229530A CN 116229530 A CN116229530 A CN 116229530A CN 202111473999 A CN202111473999 A CN 202111473999A CN 116229530 A CN116229530 A CN 116229530A
Authority
CN
China
Prior art keywords
image
target
emotion
feature
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111473999.8A
Other languages
English (en)
Inventor
请求不公布姓名
陈奕名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Oriental Education Technology Group Co ltd
Original Assignee
New Oriental Education Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New Oriental Education Technology Group Co ltd filed Critical New Oriental Education Technology Group Co ltd
Priority to CN202111473999.8A priority Critical patent/CN116229530A/zh
Priority to PCT/CN2022/136363 priority patent/WO2023098912A1/zh
Publication of CN116229530A publication Critical patent/CN116229530A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种图像处理方法、装置、存储介质及电子设备,属于图像处理领域,所述方法包括:获取包括面部信息的目标图像;将所述目标图像输入预先训练完成的情绪分类网络,得到所述目标图像中面部信息表征的情绪信息;其中,所述情绪分类网络包括由内卷算子构成的RedNet特征提取器,所述RedNet特征提取器用于根据所述目标图像得到特征图像,以基于所述特征图像得到所述情绪信息。通过使用内卷算子组成的RedNet结构作为特征提取器,对输入该情绪分类网络的图像进行初步处理,提取图片的局部细节并将得到的特征图像输入该情绪分类网络的下游模块,有效地提高了情绪分类网络输出的情绪信息的最终准确率。

Description

图像处理方法、装置、存储介质及电子设备
技术领域
本公开涉及图像处理领域,具体地,涉及一种图像处理方法、装置、存储介质及电子设备。
背景技术
情感识别是任何人际沟通中不可避免的一部分,人们通过观察他人的情感变化来确认自己的行为是否合理有效。随着科技不断进步,情感识别可以使用不同的特征来检测识别,例如人脸、语音、脑电图,甚至言语内容,在这些特征中,通常面部表情是更容易被观测到的。
在相关技术中,近年来,随着深度学习的运用,尤其是ViT(Vision Transformer)模型的出现,也成功打破了基于卷积和池化主导的网络在分类任务上面的垄断,然而,ViT模型的底层卷积部分过于简洁,网络底层对于更细节的图像信息利用的非常不到位,而中间处理阶段也没有特征图尺寸递减的变换。
发明内容
为了解决相关技术中存在的问题,本公开提供一种图像处理方法、装置、存储介质及电子设备。
为了实现上述目的,本公开第一方面提供一种图像处理方法,所述方法包括:
获取包括面部信息的目标图像;
将所述目标图像输入预先训练完成的情绪分类网络,得到所述目标图像中面部信息表征的情绪信息;
其中,所述情绪分类网络包括由内卷算子构成的RedNet特征提取器,所述RedNet特征提取器用于根据所述目标图像得到特征图像,以基于所述特征图像得到所述情绪信息。
可选地,所述基于所述特征图像得到所述情绪信息包括:
将所述特征图像输入Transformer编码器,得到所述目标图像对应的特征向量,所述Transformer编码器包括多头自注意模块、多层感知器以及层归一化模块;
将所述特征向量输入全连接层,得到所述目标图像中面部信息表征的情绪信息。
可选地,所述情绪分类网络的训练包括:
获取训练集,所述训练集包括多个训练图像,所述多个训练图像中的每一个训练图像包括面部信息以及对应该面部信息预先标注的情绪标签;
针对所述训练集中的任意目标训练图像,将所述目标训练图像输入初始情绪分类网络中的RedNet特征提取器,得到所述目标训练图像的特征图像;
将所述目标训练图像的特征图像输入所述Transformer编码器,得到所述目标训练图像对应的特征向量;
将所述目标训练图像对应的特征向量输入全连接层,得到所述目标训练图像中面部信息表征的情绪信息对应的预测标签;
根据所述预测标签与所述目标训练图像预先标注的情绪标签,对所述情绪分类网络中的参数进行调整,以得到训练后的情绪分类网络。
可选地,所述全连接层包括注意力因子,所述将所述目标训练图像对应的特征向量输入全连接层,得到所述目标训练图像中面部信息表征的情绪信息对应的预测标签包括:
将所述目标训练图像对应的特征向量输入全连接层,得到所述目标训练图像中面部信息表征的情绪信息对应的预测标签,以及所述目标训练图像的权重信息;
所述根据所述预测标签与所述训练图像预先标注的情绪标签,对所述情绪分类网络中的参数进行调整包括:
根据所述预测标签与所述目标训练图像预先标注的情绪标签,以及所述目标训练图像的权重信息,基于交叉熵损失函数以及正则化损失对所述情绪分类网络中的参数进行调整。
可选地,所述方法还包括:
获取测试集,所述测试集包括多个测试图像,所述多个测试图像中的每一个测试图像包括面部信息以及对应该面部信息预先标注的情绪标签;
针对所述测试集中的任意目标测试图像,将所述目标测试图像输入所述训练后的情绪分类网络中的RedNet特征提取器,得到所述目标测试图像的特征图像;
将所述目标测试图像的特征图像输入所述Transformer编码器,得到所述目标测试图像对应的特征向量;
将所述目标测试图像对应的特征向量输入MC-dropout层,确定所述目标测试图像的不确定性信息;
确定所述多个测试图像的不确定性信息是否满足预设规律,在满足所述预设规律的情况下,将所述训练后的情绪分类网络作为所述训练完成的情绪分类网络。
本公开第二方面提供一种图像处理装置,所述装置包括:
获取模块,用于获取包括面部信息的目标图像;
情绪确定模块,用于将所述目标图像输入预先训练完成的情绪分类网络,得到所述目标图像中面部信息表征的情绪信息;
其中,所述情绪分类网络包括由内卷算子构成的RedNet特征提取器,所述RedNet特征提取器用于根据所述目标图像得到特征图像,以基于所述特征图像得到所述情绪信息。
可选地,所述情绪确定模块具体用于:
将所述特征图像输入Transformer编码器,得到所述目标图像对应的特征向量,所述Transformer编码器包括多头自注意模块、多层感知器以及层归一化模块;
将所述特征向量输入全连接层,得到所述目标图像中面部信息表征的情绪信息。
可选地,所述装置包括:
第二获取模块,用于获取训练集,所述训练集包括多个训练图像,所述多个训练图像中的每一个训练图像包括面部信息以及对应该面部信息预先标注的情绪标签;
特征提取模块,针对所述训练集中的任意目标训练图像,将所述目标训练图像输入初始情绪分类网络中的RedNet特征提取器,得到所述目标训练图像的特征图像;
特征向量确定模块,用于将所述目标训练图像的特征图像输入所述Transformer编码器,得到所述目标训练图像对应的特征向量;
预测模块,用于将所述目标训练图像对应的特征向量输入全连接层,得到所述目标训练图像中面部信息表征的情绪信息对应的预测标签;
调整模块,用于根据所述预测标签与所述目标训练图像预先标注的情绪标签,对所述情绪分类网络中的参数进行调整,得到训练后的情绪分类网络。
本公开第三方面提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面中任一项所述方法的步骤。
本公开第四方面提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面中任一项所述方法的步骤。
通过上述技术方案,通过使用内卷算子组成的RedNet结构作为特征提取器,对输入该情绪分类网络的图像进行初步处理,提取图片的局部细节并将得到的特征图像输入该情绪分类网络的下游模块,有效地提高了情绪分类网络输出的情绪信息的最终准确率。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种图像处理方法的流程图;
图2是根据一示例性实施例示出的一种训练阶段的情绪分类网络的示意图;
图3是根据一示例性实施例示出的一种测试阶段的情绪分类网络的示意图;
图4是根据一示例性实施例示出的一种图像处理装置的框图;
图5是根据一示例性实施例示出的一种电子设备的框图;
图6是根据一示例性实施例示出的一种电子设备的另一框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
情感识别是任何人际沟通中不可避免的一部分,人们通过观察他人的情感变化来确认自己的行为是否合理有效。随着科技不断进步,情感识别可以使用不同的特征来检测识别,例如人脸、语音、脑电图,甚至言语内容,在这些特征中,通常面部表情是更容易被观测到的。
一般来说,人脸表情识别系统主要由三个阶段组成,即人脸检测、特征提取和表情识别。在人脸检测阶段,采用多个人脸检测器,像MTCNN网络和RetinaFace网络一样,它们被用来定位复杂场景中的人脸位置,检测到的人脸还可以进一步对齐。对于特征提取,过去的研究提出了多种方法用于捕捉面部表情引起的面部几何和外观特征。根据特征类型,它们可以分为工程特征和基于学习的特征。对于工程特性可以进一步分为基于纹理的特征,基于几何的全局特征等。
近年来,随着深度学习的运用,尤其是ViT(Vision Transformer)模型的出现,也成功打破了基于卷积和池化主导的网络在分类任务上面的垄断,然而,ViT模型的底层卷积部分过于简洁,网络底层对于更细节的图像信息利用的非常不到位,而中间处理阶段也没有特征图尺寸递减的变换。
图1是根据一示例性实施例示出的一种图像处理方法的流程图,该方法的执行主体可以是手机、计算机、笔记本电脑等终端,也可以服务器,如图1所示,所述方法包括:
S101、获取包括面部信息的目标图像。
其中,目标图像中的面部信息可以仅包括一个人物的面部信息,也可以是多个人物的面部信息。
S102、将所述目标图像输入预先训练完成的情绪分类网络,得到所述目标图像中面部信息表征的情绪信息。
可以理解的是,该情绪信息可以表征目标图像中的任务的面部信息对应的快乐、悲伤、哭、笑等等情绪的概率值。
其中,所述情绪分类网络包括由内卷算子构成的RedNet特征提取器,所述RedNet特征提取器用于根据所述目标图像得到特征图像,以基于所述特征图像得到所述情绪信息。
本领域技术人员应理解,在传统的ViT模型中,通过将图像进行等步长的均匀切割,然而,这可能在局部信息的切分中造成部分特征的丢失或错位,图像处理不同于自然语言处理任务中文字存在上下文关系,像素之间的关系连续性粒度更大。
另外,内卷算子具有通道不变性和空间特异性,它在设计上与卷积的特性相反,即在通道维度共享内核kernel,而在空间维度采用空间特异的kernel进行更灵活的建模。相比于卷积共用空间维度权重的操作,内卷核对空间上不同位置是有不同的关注度的,可以更有效的挖掘具有多样性的目标特征,并且在不增加参数计算量的情况下,在不同的空间位置上进行特征权重的共享和迁移,这也恰恰是空间特异性的设计原则所追求的这种从卷积到内卷的设计对算力进行了重新的调配,使得将有限的算力调整到最能发挥性能的位置,故而我们使用内卷算子组成的RedNet作为特征提取器,并且在更小参数量的情况下获得了比使用ResNet更好的效果。
在本公开实施例中,通过使用内卷算子(Involution)组成的RedNet结构作为特征提取器,对输入该情绪分类网络的图像进行初步处理,提取图片的局部细节并将得到的特征图像输入该情绪分类网络的下游模块,有效地提高了情绪分类网络输出的情绪信息的最终准确率。
在一些可选的实施例中,所述基于所述特征图像得到所述情绪信息包括:
将所述特征图像输入Transformer编码器,得到所述目标图像对应的特征向量,所述Transformer编码器包括多头自注意模块、多层感知器以及层归一化模块;
将所述特征向量输入全连接层,得到所述目标图像中面部信息表征的情绪信息。
可以理解的是,该特征图像可以包括多个特征子图像patch,将所述特征图像输入Transformer编码器包括:将该多个特征子图像patch进行拉伸后,分别输入该Transformer编码器中。
该多头自我注意模块(Multi-head self-attention,MSA)将多个注意输出线性连接到期望的维度。多个注意头可以用于了解图像中的局部和全局依赖关系。该多层感知机(Multi-Layer Perception,MLP)包含两层高斯误差线性单元(Gaussian Error LinearUnits,GELU)层归一化(Layer Normalization,LN),能够用于提高训练时间和泛化性能。残差连接在每个patch之后应用,因为它们允许梯度直接流过网络而不经过非线性层实现。
本领域技术人员应理解,卷积神经网络(CNNs)应用于人脸领域,经过数据集的训练可以提取和学习一个包含关键特征的面部表情识别系统。然而,值得注意的是就面部表情而言,很多线索都来自面部的一些部位,例如嘴和眼睛,而其他部分,如背景和头发,在输出中所起的作用很小,这意味着,理想情况下,模型框架应该只关注脸部的重要部位,而少关注对其他面部区域敏感,并且对遮挡模糊等特殊情况有较好的泛化能力。在这项工作中,我们提出了一个基于Transformer的框架对于人脸表情识别,它考虑了上述观察,利用注意力机制来聚焦面部突出的部分。使用Transformer编码,而不是深度卷积模型,能够获得非常高的准确率。
采用上述方案,利用Transformer编码器,利用注意力机制来聚焦面部突出的部分,能够保证该情绪分类网络输出的情绪信息准确率。
在一些可选地实施例中,所述情绪分类网络的训练包括:
获取训练集,所述训练集包括多个训练图像,所述多个训练图像中的每一个训练图像包括面部信息以及对应该面部信息预先标注的情绪标签;
针对所述训练集中的任意目标训练图像,将所述目标训练图像输入初始情绪分类网络中的RedNet特征提取器,得到所述目标训练图像的特征图像;
将所述目标训练图像的特征图像输入所述Transformer编码器,得到所述目标训练图像对应的特征向量;
将所述目标训练图像对应的特征向量输入全连接层,得到所述目标训练图像中面部信息表征的情绪信息对应的预测标签;
根据所述预测标签与所述目标训练图像预先标注的情绪标签,对所述情绪分类网络中的参数进行调整,以得到训练后的情绪分类网络。
采用上述方案,基于包括面部信息以及对应该面部信息预先标注的情绪标签的多个训练图像的训练集,对未经训练的初始情绪分类网络进行训练,以得到能够准确对图像中的面部信息表征的情绪进行识别分类的情绪分类网络。
在另一些可选地实施例中,所述全连接层包括注意力因子,所述将所述目标训练图像对应的特征向量输入全连接层,得到所述目标训练图像中面部信息表征的情绪信息对应的预测标签包括:
将所述目标训练图像对应的特征向量输入全连接层,得到所述目标训练图像中面部信息表征的情绪信息对应的预测标签,以及所述目标训练图像的权重信息;
所述根据所述预测标签与所述训练图像预先标注的情绪标签,对所述情绪分类网络中的参数进行调整包括:
根据所述预测标签与所述目标训练图像预先标注的情绪标签,以及所述目标训练图像的权重信息,基于交叉熵损失函数(Cross-Entropy Loss)以及正则化损失对所述情绪分类网络中的参数进行调整。
采用上述方案,通过对全连接层加入注意力因子来确定训练集中的样本的真实准确性,数值高代表样本表现好,准确度高,在训练时“发挥的作用”大,反之则样本表现差,准确度底,训练时不理想。通过该因子,神经网络将注意力集中在实际效果好更有效的样本上,能够有效地提高训练的准确度。
在又一些实施例中,所述情绪分类网络的训练还包括,将所述训练集输入SCN网络(Self-Cure Network),以自动修复样本中错误标签的方法。该SCN网络包括自注意力重要性加权模块(Self-Attention Importance Weighting)和重标注模块。
在自注意力重要性加权模块用于对于每个训练集中的样本xi生成一个权重αi,作为该训练集中的样本xi的重要程度的衡量。使用RR-loss(Rank Regularization loss,秩正则化损失)对所述自注意力重要性加权模块进行训练。
RR-loss的具体计算步骤包括:对一个批次的样本按照αi进行排序,按照比例β将样本分成高分和低分两组,高分组有β*N=M个样本,低分组有N-M样本,则:LRR=max{0,δ1-(αHL)},
其中,LRR表示RR-loss,αH表示高分组平均权重,αL表示低分组平均权重,并且,αH以及αL满足下式:
Figure BDA0003390152680000101
可以理解的是,δ1是一个固定或可学习的数值,用于分离高分组和低分组的权重均值。
在另一些实施例中,按照比例β将样本分成高分和低分两组包括:
在距离公式argmaxM(mini∈[0,M)αi-maxi∈[M,N)αi)不成立的情况下,对所述比例β进行人工标定,在此范围内,则使用上述距离公式进行分组。
可以理解的是,若使用固定的超参数β对训练样本进行分组,这一设定相当于对数据中错误标签的占比做了假设。然而在实际中,我们往往不知道数据中的错误样本分布情况。另一方面,即使知道总体数据中错误标签的占比,实际由于抽样的随机性会导致每个批次的占比不尽相同,使用固定比例会造成一定的偏差。
在所述自注意力重要性加权模块已经学到如何区分高分组和低分组的情况下,此时,最好的分组方法应当满足:argmaxMdistance(ΩHL)
其中,ΩH代表的是高分组样本权重的集合,ΩL表示低分组样本的集合。考虑到该权重的有序性,该距离采用的公式即可以为argmaxM(mini∈[0,M)αi-maxi∈[M,N)αi)。
采用本方案,根据每个批次样本的实际权重进行分组,即可在实现自适应分组的同时,避免训练的不稳定。
此外,考虑到不同类别的训练集样本的复杂程度不同,每个样本在计算属于各类别的置信度时,评判其重要程度的指标不完全一致。因此我们扩展了αi的维度,由原本的标量变成输出类别维度1×c的向量。在计算RR-loss时使用αi的均值进行约束。
采用上述方案,提出了自适应的分组方法,根据每个批次样本的实际权重进行分组,有效地提高了该模型输出的权重的准确性。
在另一些可选地实施例中,所述方法还包括:
获取测试集,所述测试集包括多个测试图像,所述多个测试图像中的每一个测试图像包括面部信息以及对应该面部信息预先标注的情绪标签;
针对所述测试集中的任意目标测试图像,将所述目标测试图像输入所述训练后的情绪分类网络中的RedNet特征提取器,得到所述目标测试图像的特征图像;
将所述目标测试图像的特征图像输入所述Transformer编码器,得到所述目标测试图像对应的特征向量;
将所述目标测试图像对应的特征向量输入MC-dropout层,确定所述目标测试图像的不确定性信息;
确定所述多个测试图像的不确定性信息是否满足预设规律,在满足所述预设规律的情况下,将所述训练后的情绪分类网络作为所述训练完成的情绪分类网络。
本领域技术人员应理解,在相关技术中,CNN模型,注意力模型,Transformer模型,在数学上都是最大似然估计模型。最大似然估计模型是无偏的且权重是固定的。然而真实世界中的任何模型权重更应该倾向于高斯分布,而不是固定的。因此最大似然估计不能够有效地估计数据的不确定性。而人类表情本身就是及其复杂的,比如惊恐与惊讶、笑出眼泪,这些本身就是混杂着不同的表情,而非单一的一个表情。因此使用权重固定的模型去估计一个不确定的任务,本身就是一种矛盾。
本领域技术人员应知悉,MC-dropout是一种从贝叶斯理论出发的dropout理解方式,将dropout解释为高斯过程的贝叶斯近似。从而使得普通的模型像贝叶斯神经网络一样具备了评估不确定性的能力。
具体地,使用MC-dropout层只需要在测试时,一个输入通过测试n次,即可得到一组采样点,从而计算得到均值和方差,使用该方差即可对测试集中的样本预测的不确定性进行评估,方差越大,说明预测的不确定性越高。
一些实施方式中,在测试时,backbone输出的特征Ob∈R1×p。通常,Ob会与全连接层的权重
Figure BDA0003390152680000121
进行相乘,公式为Ofc=Ob·Wfc,其中的/>
Figure BDA0003390152680000122
将被用于进一步的分类。
另一些可能的实施方式中,对Wfc进行了n次采样。采样得到的权重记为
Figure BDA0003390152680000123
则MC-dropout层可以以以下公式定义:/>
Figure BDA0003390152680000124
其中
Figure BDA0003390152680000125
增加了一个采样维度。相对于Ofc,/>
Figure BDA0003390152680000126
等价于使用dropout进行n次采样的结果。最终的分类结果通过下式计算均值得到:
Figure BDA0003390152680000127
Figure BDA0003390152680000128
其中,softmaxm()函数代表在
Figure BDA0003390152680000129
的m维度上执行softmax操作。meann()表示在/>
Figure BDA00033901526800001210
的n维度上计算平均值。max()代表求向量的最大值。样本的不确定性计算如下:/>
Figure BDA0003390152680000131
其中,variancen()函数表示在
Figure BDA0003390152680000132
的n维度上计算方差。/>
Figure BDA0003390152680000133
函数表示Omean所对应的样本方差。可以基于Ovar的最大值衡量预测结果的不确定性。方差越大,代表不确定性越高。
可选地,在其他层实施dropout亦可,只需保证该层前的计算只运行一遍,然后到MC-dropout层时,变成矩阵运算即可。
采用本方案,在测试阶段,通过替换全连接层为MC-dropout layer,即可使用贝叶斯估计进行不确定性分析。
为了使得本领域技术人员更理解本公开提供的技术方案,本公开提供如图2所示的根据一示例性实施例示出的一种训练阶段的情绪分类网络20的示意图,如图2所示,所述情绪分类网络20包括依次串联的输入模块21、RedNet特征提取器22、Transformer编码器23、全连接层24以及分类器25;
基于图2所示的情绪分类网络20,情绪分类网络20的训练包括:将训练集通过输入模块21输入该情绪分类网络20中的RedNet特征提取器22,以得到训练集中任一训练图像的多个特征图像pactch;将该多个特征图像pactch输入Transformer编码器23,以得到训练集中任一训练图像的特征向量;将该特征向量输入全连接层24,得到所述目标图像中面部信息表征的各情绪类别的概率值;将所述各情绪类别的概率值输入该分类器25,得到概率最高的情绪类别;根据该情绪类别以及训练集中预先标注的标签信息,基于交叉熵损失函数以及正则化损失对该情绪分类网络20中的参数进行调整,得到训练后的情绪分类网络。
进一步,本公开还提供如图3所示的根据一示例性实施例示出的一种测试阶段的情绪分类网络的示意图,如图3所示,该情绪分类网络30包括训练后的输入模块31、RedNet特征提取器32、Transformer编码器33、MC-dropout层34以及分类器35。
基于图3所示的情绪分类网络30,情绪分类网络30的测试包括:将测试集通过输入模块31输入该情绪分类网络30中的RedNet特征提取器32,以得到训练集中任一训练图像的多个特征图像pactch;将该多个特征图像pactch输入Transformer编码器33,以得到训练集中任一训练图像的特征向量;将该特征向量输入MC-dropout层34进行多次采样,得到每次采样所述MC-dropout层34输出的所述目标图像中面部信息表征的各个情绪类别的概率值;将所述各情绪类别的概率值输入该分类器35,得到概率最高的情绪类别;根据该情绪类别以及该测试集预先标注的标签信息,确定所述情绪分类网络30是否满足预设要求。
基于图3以及图4的情绪分类网络结构,在SCN的基础上,首次结合使用RedNet和Transformer作为特征提取器。联合使用了RedNet以及基于贝叶斯学派的MC-dropout。此外,为了处理训练集中包含的模糊的图片和标签,利用SCN中的训练方法并进行了进一步改进。
图4是根据一示例性实施例示出的一种图像处理装置40的框图,该装置40可以作为手机等终端的一部分,也可以是服务器的一部分,所述装置40包括:
第一获取模块41,用于获取包括面部信息的目标图像;
情绪确定模块42,用于将所述目标图像输入预先训练完成的情绪分类网络,得到所述目标图像中面部信息表征的情绪信息;
其中,所述情绪分类网络包括由内卷算子构成的RedNet特征提取器,所述RedNet特征提取器用于根据所述目标图像得到特征图像,以基于所述特征图像得到所述情绪信息。
可选地,所述情绪确定模块42具体用于:
将所述特征图像输入Transformer编码器,得到所述目标图像对应的特征向量,所述Transformer编码器包括多头自注意模块、多层感知器以及层归一化模块;
将所述特征向量输入全连接层,得到所述目标图像中面部信息表征的情绪信息。
可选地,所述装置40还包括:
第二获取模块,用于获取训练集,所述训练集包括多个训练图像,所述多个训练图像中的每一个训练图像包括面部信息以及对应该面部信息预先标注的情绪标签;
第一特征提取模块,针对所述训练集中的任意目标训练图像,将所述目标训练图像输入初始情绪分类网络中的RedNet特征提取器,得到所述目标训练图像的特征图像;
第一特征向量确定模块,用于将所述目标训练图像的特征图像输入所述Transformer编码器,得到所述目标训练图像对应的特征向量;
预测模块,用于将所述目标训练图像对应的特征向量输入全连接层,得到所述目标训练图像中面部信息表征的情绪信息对应的预测标签;
调整模块,用于根据所述预测标签与所述目标训练图像预先标注的情绪标签,对所述情绪分类网络中的参数进行调整,得到训练后的情绪分类网络。
可选地,所述全连接层包括注意力因子,所述预测模块具体用于:
将所述目标训练图像对应的特征向量输入全连接层,得到所述目标训练图像中面部信息表征的情绪信息对应的预测标签,以及所述目标训练图像的权重信息;
所述调整模块具体用于:
根据所述预测标签与所述目标训练图像预先标注的情绪标签,以及所述目标训练图像的权重信息,基于交叉熵损失函数以及正则化损失对所述情绪分类网络中的参数进行调整。
可选地,所述装置40还包括:
第三获取模块,用于获取测试集,所述测试集包括多个测试图像,所述多个测试图像中的每一个测试图像包括面部信息以及对应该面部信息预先标注的情绪标签;
第二特征提取模块,用于针对所述测试集中的任意目标测试图像,将所述目标测试图像输入所述训练后的情绪分类网络中的RedNet特征提取器,得到所述目标测试图像的特征图像;
第二特征向量确定模块,将所述目标测试图像的特征图像输入所述Transformer编码器,得到所述目标测试图像对应的特征向量;
第一确定模块,用于将所述目标测试图像对应的特征向量输入MC-dropout层,确定所述目标测试图像的不确定性信息;
第二确定模块,用于确定所述多个测试图像的不确定性信息是否满足预设规律,在满足所述预设规律的情况下,将所述训练后的情绪分类网络作为所述训练完成的情绪分类网络。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种电子设备500的框图。如图5所示,该电子设备500可以包括:处理器501,存储器502。该电子设备500还可以包括多媒体组件503,输入/输出(I/O)接口504,以及通信组件505中的一者或多者。
其中,处理器501用于控制该电子设备500的整体操作,以完成上述的图像处理方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作,这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如训练集、测试集中的图像等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(StaticRandom Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件505可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的图像处理方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的图像处理方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器502,上述程序指令可由电子设备500的处理器501执行以完成上述的图像处理方法。
图6是根据一示例性实施例示出的一种电子设备600的框图。例如,电子设备600可以被提供为一服务器。参照图6,电子设备600包括处理器622,其数量可以为一个或多个,以及存储器632,用于存储可由处理器622执行的计算机程序。存储器632中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器622可以被配置为执行该计算机程序,以执行上述的图像处理方法。
另外,电子设备600还可以包括电源组件626和通信组件650,该电源组件626可以被配置为执行电子设备600的电源管理,该通信组件650可以被配置为实现电子设备600的通信,例如,有线或无线通信。此外,该电子设备600还可以包括输入/输出(I/O)接口658。电子设备600可以操作基于存储在存储器632的操作系统,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的图像处理方法的步骤。例如,该非临时性计算机可读存储介质可以为上述包括程序指令的存储器632,上述程序指令可由电子设备600的处理器622执行以完成上述的图像处理方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的图像处理方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种图像处理方法,其特征在于,所述方法包括:
获取包括面部信息的目标图像;
将所述目标图像输入预先训练完成的情绪分类网络,得到所述目标图像中面部信息表征的情绪信息;
其中,所述情绪分类网络包括由内卷算子构成的RedNet特征提取器,所述RedNet特征提取器用于根据所述目标图像得到特征图像,以基于所述特征图像得到所述情绪信息。
2.根据权利要求1所述的方法,其特征在于,所述基于所述特征图像得到所述情绪信息包括:
将所述特征图像输入Transformer编码器,得到所述目标图像对应的特征向量,所述Transformer编码器包括多头自注意模块、多层感知器以及层归一化模块;
将所述特征向量输入全连接层,得到所述目标图像中面部信息表征的情绪信息。
3.根据权利要求2所述的方法,其特征在于,所述情绪分类网络的训练包括:
获取训练集,所述训练集包括多个训练图像,所述多个训练图像中的每一个训练图像包括面部信息以及对应该面部信息预先标注的情绪标签;
针对所述训练集中的任意目标训练图像,将所述目标训练图像输入初始情绪分类网络中的RedNet特征提取器,得到所述目标训练图像的特征图像;
将所述目标训练图像的特征图像输入所述Transformer编码器,得到所述目标训练图像对应的特征向量;
将所述目标训练图像对应的特征向量输入全连接层,得到所述目标训练图像中面部信息表征的情绪信息对应的预测标签;
根据所述预测标签与所述目标训练图像预先标注的情绪标签,对所述情绪分类网络中的参数进行调整,以得到训练后的情绪分类网络。
4.根据权利要求3所述的方法,其特征在于,所述全连接层包括注意力因子,所述将所述目标训练图像对应的特征向量输入全连接层,得到所述目标训练图像中面部信息表征的情绪信息对应的预测标签包括:
将所述目标训练图像对应的特征向量输入全连接层,得到所述目标训练图像中面部信息表征的情绪信息对应的预测标签,以及所述目标训练图像的权重信息;
所述根据所述预测标签与所述训练图像预先标注的情绪标签,对所述情绪分类网络中的参数进行调整包括:
根据所述预测标签与所述目标训练图像预先标注的情绪标签,以及所述目标训练图像的权重信息,基于交叉熵损失函数以及正则化损失对所述情绪分类网络中的参数进行调整。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取测试集,所述测试集包括多个测试图像,所述多个测试图像中的每一个测试图像包括面部信息以及对应该面部信息预先标注的情绪标签;
针对所述测试集中的任意目标测试图像,将所述目标测试图像输入所述训练后的情绪分类网络中的RedNet特征提取器,得到所述目标测试图像的特征图像;
将所述目标测试图像的特征图像输入所述Transformer编码器,得到所述目标测试图像对应的特征向量;
将所述目标测试图像对应的特征向量输入MC-dropout层,确定所述目标测试图像的不确定性信息;
确定所述多个测试图像的不确定性信息是否满足预设规律,在满足所述预设规律的情况下,将所述训练后的情绪分类网络作为所述训练完成的情绪分类网络。
6.一种图像处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取包括面部信息的目标图像;
情绪确定模块,用于将所述目标图像输入预先训练完成的情绪分类网络,得到所述目标图像中面部信息表征的情绪信息;
其中,所述情绪分类网络包括由内卷算子构成的RedNet特征提取器,所述RedNet特征提取器用于根据所述目标图像得到特征图像,以基于所述特征图像得到所述情绪信息。
7.根据权利要求6所述的装置,其特征在于,所述情绪确定模块具体用于:
将所述特征图像输入Transformer编码器,得到所述目标图像对应的特征向量,所述Transformer编码器包括多头自注意模块、多层感知器以及层归一化模块;
将所述特征向量输入全连接层,得到所述目标图像中面部信息表征的情绪信息。
8.根据权利要求7所述的装置,其特征在于,所述装置包括:
第二获取模块,用于获取训练集,所述训练集包括多个训练图像,所述多个训练图像中的每一个训练图像包括面部信息以及对应该面部信息预先标注的情绪标签;
特征提取模块,针对所述训练集中的任意目标训练图像,将所述目标训练图像输入初始情绪分类网络中的RedNet特征提取器,得到所述目标训练图像的特征图像;
特征向量确定模块,用于将所述目标训练图像的特征图像输入所述Transformer编码器,得到所述目标训练图像对应的特征向量;
预测模块,用于将所述目标训练图像对应的特征向量输入全连接层,得到所述目标训练图像中面部信息表征的情绪信息对应的预测标签;
调整模块,用于根据所述预测标签与所述目标训练图像预先标注的情绪标签,对所述情绪分类网络中的参数进行调整,得到训练后的情绪分类网络。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-5中任一项所述方法的步骤。
CN202111473999.8A 2021-12-02 2021-12-02 图像处理方法、装置、存储介质及电子设备 Pending CN116229530A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111473999.8A CN116229530A (zh) 2021-12-02 2021-12-02 图像处理方法、装置、存储介质及电子设备
PCT/CN2022/136363 WO2023098912A1 (zh) 2021-12-02 2022-12-02 图像处理方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111473999.8A CN116229530A (zh) 2021-12-02 2021-12-02 图像处理方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN116229530A true CN116229530A (zh) 2023-06-06

Family

ID=86579171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111473999.8A Pending CN116229530A (zh) 2021-12-02 2021-12-02 图像处理方法、装置、存储介质及电子设备

Country Status (2)

Country Link
CN (1) CN116229530A (zh)
WO (1) WO2023098912A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058405B (zh) * 2023-07-04 2024-05-17 首都医科大学附属北京朝阳医院 一种基于图像的情绪识别方法、系统、存储介质及终端
CN117079324B (zh) * 2023-08-17 2024-03-12 厚德明心(北京)科技有限公司 一种人脸情绪识别方法、装置、电子设备及存储介质
CN117611933A (zh) * 2024-01-24 2024-02-27 卡奥斯工业智能研究院(青岛)有限公司 基于分类网络模型的图像处理方法、装置、设备和介质
CN117689998B (zh) * 2024-01-31 2024-05-03 数据空间研究院 非参数自适应的情绪识别模型、方法、系统和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194347A (zh) * 2017-05-19 2017-09-22 深圳市唯特视科技有限公司 一种基于面部动作编码系统进行微表情检测的方法
CN107423707A (zh) * 2017-07-25 2017-12-01 深圳帕罗人工智能科技有限公司 一种基于复杂环境下的人脸情绪识别方法
CN113221639B (zh) * 2021-04-01 2022-07-29 山东大学 一种基于多任务学习的代表性au区域提取的微表情识别方法
CN113591718A (zh) * 2021-07-30 2021-11-02 北京百度网讯科技有限公司 目标对象识别方法、装置、电子设备和存储介质
CN113705541B (zh) * 2021-10-21 2022-04-01 中国科学院自动化研究所 基于Transformer的标记选择和合并的表情识别方法及系统

Also Published As

Publication number Publication date
WO2023098912A1 (zh) 2023-06-08

Similar Documents

Publication Publication Date Title
CN111523621B (zh) 图像识别方法、装置、计算机设备和存储介质
CN108182394B (zh) 卷积神经网络的训练方法、人脸识别方法及装置
CN109543714B (zh) 数据特征的获取方法、装置、电子设备及存储介质
CN116229530A (zh) 图像处理方法、装置、存储介质及电子设备
CN110363084A (zh) 一种上课状态检测方法、装置、存储介质及电子
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN112395979B (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
CN111133453A (zh) 人工神经网络
CN113240510B (zh) 异常用户预测方法、装置、设备及存储介质
CN112883227B (zh) 一种基于多尺度时序特征的视频摘要生成方法和装置
CN113255557B (zh) 一种基于深度学习的视频人群情绪分析方法及系统
CN112712068B (zh) 一种关键点检测方法、装置、电子设备及存储介质
CN114419351A (zh) 图文预训练模型训练、图文预测模型训练方法和装置
CN112084887A (zh) 一种基于注意力机制的自适应视频分类方法及系统
CN114299304A (zh) 一种图像处理方法及相关设备
CN114359592A (zh) 模型训练及图像处理方法、装置、设备、存储介质
Lin et al. Domestic activities clustering from audio recordings using convolutional capsule autoencoder network
CN112989843A (zh) 意图识别方法、装置、计算设备及存储介质
CN110765956B (zh) 基于部件特征的双人交互行为识别方法
CN116523711A (zh) 基于人工智能的教育监管系统及其方法
CN114155388B (zh) 一种图像识别方法、装置、计算机设备和存储介质
CN114741546A (zh) 一种图像处理及模型训练方法、装置、设备、存储介质
CN114238968A (zh) 应用程序检测方法及装置、存储介质及电子设备
CN112434629A (zh) 一种在线时序动作检测方法及设备
CN117576279B (zh) 基于多模态数据的数字人驱动方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination