CN113780249B - 表情识别模型的处理方法、装置、设备、介质和程序产品 - Google Patents

表情识别模型的处理方法、装置、设备、介质和程序产品 Download PDF

Info

Publication number
CN113780249B
CN113780249B CN202111323309.0A CN202111323309A CN113780249B CN 113780249 B CN113780249 B CN 113780249B CN 202111323309 A CN202111323309 A CN 202111323309A CN 113780249 B CN113780249 B CN 113780249B
Authority
CN
China
Prior art keywords
image
expression recognition
training
recognition network
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111323309.0A
Other languages
English (en)
Other versions
CN113780249A (zh
Inventor
王彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111323309.0A priority Critical patent/CN113780249B/zh
Publication of CN113780249A publication Critical patent/CN113780249A/zh
Application granted granted Critical
Publication of CN113780249B publication Critical patent/CN113780249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种表情识别模型的处理方法、装置、计算机设备、存储介质和计算机程序产品。该方法涉及人工智能的计算机视觉技术,所述方法包括:通过自编码器对样本图像依次进行特征提取与重建,获得重建图像;基于自编码器中隐藏节点对样本图像的响应,计算隐藏层约束损失;基于重建图像与样本图像之间的差异计算重建损失;根据隐藏层约束损失与重建损失训练自编码器;基于表情识别网络的训练样本,以及通过训练好的自编码器对训练样本依次进行特征提取与重建所获得的重建图像,对表情识别网络进行模型训练,获得用于进行面部表情识别的表情识别模型。采用本方法能够在少量训练数据的情况下提升表情识别效果,可应用于智慧交通场景。

Description

表情识别模型的处理方法、装置、设备、介质和程序产品
技术领域
本申请涉及人工智能技术领域,特别是涉及一种表情识别模型的处理方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着科技的迅速发展,面部表情识别逐渐受到研究人员的关注,早期的研究主要基于传统的特征提取方法和机器学习算法对人脸表情进行识别分类。后来计算机硬件的飞速发展迎来了深度学习的热潮,卷积神经网络的提出更是促进了深度学习的发展。
然而,由于表情识别算法性能的要求越来越高,许多难以解决的问题也逐渐出现,例如缺乏训练数据导致识别率不高的问题,留待研究者解决。
发明内容
基于此,有必要针对上述技术问题,提供一种能够在训练数据缺乏的情况下还能提升表情识别效果的表情识别模型的处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
本申请提供了一种表情识别模型的处理方法。所述方法包括:
通过自编码器对样本图像依次进行特征提取与重建,获得重建图像;
基于自编码器中隐藏节点对所述样本图像的响应,计算隐藏层约束损失;
基于所述重建图像与所述样本图像之间的差异计算重建损失;
根据所述隐藏层约束损失与所述重建损失训练所述自编码器;
基于表情识别网络的训练样本,以及通过训练好的所述自编码器对所述训练样本依次进行特征提取与重建所获得的重建图像,对所述表情识别网络进行模型训练,获得用于进行面部表情识别的表情识别模型。
本申请还提供了一种表情识别模型的处理装置。所述装置包括:
重建模块,用于通过自编码器对样本图像依次进行特征提取与重建,获得重建图像;
损失构建模块,用于基于自编码器中隐藏节点对所述样本图像的响应,计算隐藏层约束损失,基于所述重建图像与所述样本图像之间的差异计算重建损失;
自编码器训练模块,用于根据所述隐藏层约束损失与所述重建损失训练所述自编码器;
识别网络训练模块,用于基于表情识别网络的训练样本,以及通过训练好的所述自编码器对所述训练样本依次进行特征提取与重建所获得的重建图像,对所述表情识别网络进行模型训练,获得用于进行面部表情识别的表情识别模型。
本申请还提供了一种图像处理方法。所述方法包括:
获取待进行表情识别的面部图像;
通过表情识别模型,提取所述面部图像的图像特征;所述图像特征表征所述面部图像的图像全局信息与图像显著信息;基于所述图像特征对所述面部图像进行表情分类,获得关于所述面部图像中面部表情的分类结果;
其中,所述表情识别模型是通过训练样本以及所述训练样本对应的重建图像进行模型训练得到的,所述重建图像是通过训练好的自编码器对所述训练样本依次进行特征提取与重建获得的,所述自编码器通过隐藏层约束损失与重建损失训练得到,所述隐藏层约束损失用于训练所述自编码器获得图像的稀疏特征,所述重建损失用于训练所述自编码器基于图像的稀疏特征获得靠近所述图像的重建图像。
本申请还提供了一种图像处理装置。所述装置包括:
获取模块,用于获取待进行表情识别的面部图像;
识别模块,用于通过表情识别模型,提取所述面部图像的图像特征;所述图像特征表征所述面部图像的图像全局信息与图像显著信息;基于所述图像特征对所述面部图像进行表情分类,获得关于所述面部图像中面部表情的分类结果;
其中,所述表情识别模型是通过训练样本以及所述训练样本对应的重建图像进行模型训练得到的,所述重建图像是通过训练好的自编码器对所述训练样本依次进行特征提取与重建获得的,所述自编码器通过隐藏层约束损失与重建损失训练得到,所述隐藏层约束损失用于训练所述自编码器获得图像的稀疏特征,所述重建损失用于训练所述自编码器基于图像的稀疏特征获得靠近所述图像的重建图像。
本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述表情识别模型的处理方法和/或图像处理方法的步骤。
本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述表情识别模型的处理方法和/或图像处理方法的步骤。
本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述表情识别模型的处理方法和/或图像处理方法的步骤。
上述表情识别模型的处理方法、装置、计算机设备、存储介质和计算机程序产品,通过自编码器对样本图像进行特征的提取与重建,获得重建图像,基于自编码器中隐藏节点对样本图像的响应,对该自编码器的隐藏节点引入隐藏层约束损失,同时基于样本图像与重建图像的差异计算重建损失,该隐藏层约束损失与重建损失,可以使得自编码器在重建样本图像的同时,又能够在特征提取过程中提取到样本图像关于数据分布的图像显著信息。接着,将表情识别网络的训练样本输入至训练好的自编码器中,获得相应的重建图像后,将该重建图像也作为训练样本,与原本的训练样本共同对表情识别网络进行模型训练,由于重建图像是基于训练样本的图像显著特征重建得到的,强化了图像的图像显著信息,而且在缺乏训练数据的情况下,按照这种方式可以使训练样本的数量翻倍,训练得到的表情识别模型既能够学习到样本图像中的图像全局信息,又能够学习到相应的图像显著信息,提升模型识别的准确性。
附图说明
图1为一个实施例中表情识别模型的处理方法的应用环境图;
图2为一个实施例中表情识别模型的处理方法的流程示意图;
图3为一个实施例中自编码器的网络结构示意图;
图4为一个实施例中通过自编码器对样本图像进行重建的示意图;
图5为一个实施例中获得重建图像的流程示意图;
图6为一个实施例中确定隐藏层约束损失的流程示意图;
图7为一个实施例中对自编码器进行训练的框架示意图;
图8为一个实施例中表情识别网络的模型训练步骤的流程示意图;
图9为一个实施例中表情识别网络的结构示意图;
图10为另一个具体的实施例中表情识别网络的结构示意图;
图11为一个实施例中图像处理方法的流程示意图;
图12为一个具体的实施例中表情识别模型的处理方法的流程示意图;
图13为一个具体的实施例中表情识别模型的训练框架示意图;
图14为一个实施例中表情识别模型的处理装置的结构框图;
图15为一个实施例中图像处理装置的结构框图;
图16为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例所提供的表情识别模型的处理方法及图像处理方法涉及人工智能的计算机视觉技术。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision, CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术(three-Dimensional,三维)、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
本申请实施例提供的表情识别模型的处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。
在一个实施例中,服务器104可以通过自编码器对样本图像依次进行特征提取与重建,获得重建图像,基于自编码器中隐藏节点对样本图像的响应,计算隐藏层约束损失,基于重建图像与样本图像之间的差异计算重建损失,根据隐藏层约束损失与重建损失训练自编码器,基于表情识别网络的训练样本,以及通过训练好的自编码器对训练样本依次进行特征提取与重建所获得的重建图像,对表情识别网络进行模型训练,获得用于进行面部表情识别的表情识别模型。
在一个实施例中,服务器104上存储表情识别模型,当终端102需要使用表情识别功能时,可以调用该表情识别模型完成表情识别,例如终端102可以获取面部图像,将面部图像发送至服务器104,由服务器104通过表情识别模型提取面部图像的图像特征,基于图像特征对面部图像进行表情分类,获得关于面部图像中面部表情的分类结果,再将该分类结果返回至终端102。终端102也可以调用存储在本地的表情识别模型,自行对获取的面部图像进行表情识别。上述的表情识别模型是通过本申请提供的方法获得的。
也就是说,本申请提供的方法可以由终端102上的客户端来执行,也可以由服务器104来执行。即,表情识别模型的训练可以是由客户端完成,也可以是由服务器完成。示例性的,表情识别模型训练完成后的应用阶段,可以由客户端调用本地存储的表情识别模型进行表情识别;也可以由客户端向服务器发送表情识别请求,由服务器调用表情识别模型进行表情识别;还可以是在服务器需要对接收到的面部图像进行表情识别时,调用表情识别模型进行表情识别。
在一个实施例中,终端102上安装有支持表情识别功能的客户端,该客户端可以是即时通信应用程序,还可以是支持视频播放的应用程序。例如,即时通信应用程序中提供了表情识别功能,用于智能识别面部图像中的面部表情,以便自动对图像进行编辑或优化,如依据表情类别添加相应的贴纸等。或者,支持视频播放的应用程序中提供了表情识别功能,用于智能识别视频每帧图像中的面部表情的类别,对每帧图像进行统一地图像处理,例如,按表情类别进行裁剪、分类等。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本申请提供的表情识别模型处理方法,首先对自编码器进行模型训练,通过自编码器对样本图像进行特征的提取与重建,获得重建图像,基于自编码器中隐藏节点对样本图像的响应,对该自编码器的隐藏节点引入隐藏层约束损失,同时基于样本图像与重建图像的差异计算重建损失,该隐藏层约束损失与重建损失,可以使得自编码器在重建样本图像的同时,又能够在特征提取过程中提取到样本图像关于数据分布的图像显著信息。接着,对表情识别网络进行模型训练,将表情识别网络的训练样本输入至训练好的自编码器中,获得相应的重建图像后,将该重建图像也作为训练样本,与原本的训练样本共同对表情识别网络进行模型训练,由于重建图像是基于训练样本的图像显著特征重建得到的,强化了图像的图像显著信息,而且在缺乏训练数据的情况下,按照这种方式可以使训练样本的数量翻倍,训练得到的表情识别模型既能够学习到样本图像中的图像全局信息,又能够学习到相应的图像显著信息,提升模型识别的准确性。
在一个实施例中,如图2所示,提供了一种表情识别模型的处理方法,以该方法应用于图1中的计算机设备(终端102或服务器104)为例进行说明,包括以下步骤:
步骤202,通过自编码器对样本图像依次进行特征提取与重建,获得重建图像。
其中,自编码器(Auto-Encoder)是一种能够通过无监督学习,学到输入数据的具有高度价值信息的特征的人工神经网络。例如,使用无标注信息的样本图像,对自编码器进行训练,通过无监督学习方式,自编码器学习到提取图像特征的能力,并且所提取的图像特征在相似的样本图像之间是相似的,在不同的样本图像之间是不同的。
如图3所示,为一个实施例中自编码器的网络结构示意图。示意性的,自编码器包括编码层与解码层。编码层用于对输入的样本图像进行编码,也就是将样本图像压缩到隐藏特征空间中得到图像特征,这一过程也称之为特征提取。解码层则用于基于图像特征进行解码,将隐藏特征空间的图像特征恢复到原有的输入空间中,获得重建特征(或称之为重建图像),这一过程也称之为特征重建。通常,编码层获得图像特征的数据维度一般远小于输入的样本图像的数据维度,使得自编码器可用于降维。编码层与解码层中的神经元均可以称之为自编码器的隐藏节点。
如图4所示,为一个实施例中通过自编码器对样本图像进行重建的示意图。 图4,对于输入的样本图像,通过编码层进行特征提取,获得该输入的样本图像在隐藏特征空间的图像特征,再通过编码层进行特征重建,获得与该输入的样本图像对应的重建图像。
具体地,计算机设备可以获取大量的样本图像,计算机设备每一次训练自编码器,可以获取一批样本图像,将该一批样本图像输入至自编码器中,依次进行特征提取与特征重建,获得对应的重建图像。
本申请中,样本图像是面部图像,面部图像包括面部表情,在一个实施例中,计算机设备可以获取原始图像,对原始图像进行预处理后,将预处理后的图像输入到自编码器中进行特征提取与重建。
具体地,计算机设备对原始图像进行面部区域识别,提取原始图像中的面部区域,对面部区域进行数据增强处理后,得到用于模型训练的样本图像。可以采用基于卷积神经网络的人脸定位算法从原始图像中识别面部区域,还可以采用基于统计的人脸检测方法从原始图像中识别面部区域。为了减少自编码器在训练过程中过拟合,计算机设备可以对提取的面部区域进一步进行数据增强处理,包括但不限于随机旋转处理、随机缩放处理、随机裁剪和随机遮挡等预处理。
步骤204,基于自编码器中隐藏节点对样本图像的响应,计算隐藏层约束损失。
本申请中,为了使自编码器能够基于无监督方式进行自动学习,需要对自编码器的隐藏节点引入约束(或抑制),该约束可以使得自编码器可以自动从无标注信息的样本图像中学习从样本图像中提取更好的特征表示。这种引入了隐藏层约束的自编码器,可以称之为自稀疏编码器(Sparse Auto-Encoder)。
示意性的,自编码器的编码层包括卷积层、激活函数和池化层,解码层包括上采样层、激活函数。经过编码层中卷积层、激活函数与池化层的依次处理,特征的尺度逐步减小,可以获得更多的图像全局信息,后续再经过解码层中上采样层与激活函数的依次处理,特征的尺度逐步变大,可以获得更多的图像细节信息。
神经网络的最小组成单元是神经元,神经元用于对输入到该神经元的数据的加权和进行激活运算。自编码器中的隐藏层,是除自编码器中输入层与输出层之外位于网络中间的神经网络,本申请中,隐藏节点是隐藏层中的神经元,对于输入的样本图像,位于隐藏层中的隐藏节点都会输出相应的响应,使隐藏层中的绝大多数隐藏节点处于抑制状态,也是输出的响应接近为0,才能使得自编码器能够基于无监督方式进行自动学习。
为此,对于自编码器中隐藏节点,计算机设备获取隐藏节点对样本图像输出的激活响应,根据使该激活响应被抑制也就是接近0的思路,计算隐藏层约束损失。
步骤206,基于重建图像与样本图像之间的差异计算重建损失。
其中,重建损失用于训练自编码器使输出的重建图像靠近输入的样本图像。基于使重建图像靠近样本图像的思路,计算重建损失。这样,一方面通过隐藏层约束损失,约束自编码器从样本图像提取关于数据分布的图像显著信息,另一方面通过重建损失,约束自编码器从样本图像提取关于数据分布的图像全局信息。
步骤208,根据隐藏层约束损失与重建损失训练自编码器。
具体地,计算机设备根据计算得到的损失函数,采用梯度下降法优化自编码器的网络参数,实现对自编码器的无监督训练。
步骤210,基于表情识别网络的训练样本,以及通过训练好的自编码器对训练样本依次进行特征提取与重建所获得的重建图像,对表情识别网络进行模型训练,获得用于进行面部表情识别的表情识别模型。
其中,表情识别网络用于对输入的图像中的面部表情进行识别得到图像在面部表情上的类别。训练好的表情识别网络可以作为表情识别模型,用于识别面部图像所对应的表情类别,例如,表情识别模型可以用于识别图像中的面部表情是开心、生气、大笑、愤怒、微笑、紧张等。
表情识别模型根据输入的图像可以输出图像分别属于N个预设表情类别的N个概率值,即分类向量,将该分类向量中N个概率值中概率值最大的表情类别确定为该图像所属的表情类别,例如,一个图像属于开心、生气、大笑、愤怒、微笑、紧张的概率依次为0.1、0.5、0.2、0.1、0.1,则这个图像所属的表情类别是生气。综上,图像分割模型输出的分类结果可以是上述的分类向量,也可以是上述的表情类别。
表情识别网络的训练样本,是面部图像,面部图像包括面部表情,表情识别网络的训练样本的标注信息是所包含的面部的表情类别,例如一共有N个表情类别,训练样本的标注信息可以是一个N维的独热向量。可以理解,表情识别网络的训练样本,可以包括用于训练自编码器的样本图像。
通过使用训练好的自编码器对表情识别网络的训练样本进行重建,获得重建图像,使用该训练样本与重建图像共同训练该表情识别网络。由于自编码器是基于上述的隐藏层约束损失与重建损失已经训练好的,因此,基于该自编码器对训练样本进行特征提取与重建获得的重建图像,不仅具有关于数据分布的图像显著信息,还具有原始的图像全局信息,使用重建图像训练表情识别网络,可以训练得到的表情识别模型既能够学习到样本图像中的图像全局信息,又能够学习到相应的图像显著信息,提升模型识别的准确性。而且在缺乏训练数据的情况下,按照这种方式可以使训练样本的数量翻倍,进一步提升模型识别的准确性。
在一个实施例中,如图5所示,步骤202包括:
步骤502,通过稀疏自编码器中的编码层,对样本图像进行特征提取,得到样本图像的稀疏特征。
本实施例中,自编码器为稀疏自编码器,引入的隐藏层约束损失,用于约束自编码器中的隐藏节点提取到样本图像的稀疏特征,也就是通过少量的隐藏节点的输出就可以获得样本图像的特征表示,该特征表示可被重建获得靠近样本图像的重建图像,所以该稀疏特征本质上是样本图像更具代表性的特征。
步骤504,通过稀疏自编码器中的解码层,对稀疏特征进行特征重建,得到样本图像对应的重建图像。
示意性的,给出一种自编码器训练过程中计算隐藏层约束损失的实施例。
在一个实施例中,如图6所示,步骤204包括:
步骤602,确定自编码器的隐藏层中的激活函数对样本图像的激活响应。
前文提到,自编码器中的隐藏节点,是隐藏层中的神经元,神经元用于对输入到该神经元的数据的加权和仅激活运算,激活运算实质是通过激活函数实现的。对于输入的样本图像,计算机设备可以获取隐藏层中激活函数对该样本图像输出的激活响应,根据该激活响应计算隐藏层约束损失。
示意性的,对自编码器中隐藏节点的约束,可以仅限于编码层。具体而言,计算机设备仅根据自编码器的编码层中的隐藏节点对样本图像的激活响应,计算隐藏层约束损失,而不考虑解码层中隐藏节点对样本图像的激活响应。
步骤604,根据各激活函数对样本图像的激活响应,计算平均激活响应。
具体地,隐藏层中存在大量的隐藏节点,计算机设备根据隐藏层中所有隐藏节点对输入的样本图像的激活响应求均值,获得隐藏层整体上对样本图像的平均激活响应。
步骤606,计算平均激活响应与预设稀疏度之间的相似度,作为隐藏层约束损失,该隐藏层约束损失用于训练自编码器获得样本图像的稀疏特征。
在一个实施例中,平均激活响应与预设稀疏度之间的相似度,可以采用KL离散度(Kullback-Leibler)来衡量。
示意性的,计算公式如下:
Figure DEST_PATH_IMAGE002_75A
Figure DEST_PATH_IMAGE004_66A
其中,
Figure DEST_PATH_IMAGE006_62A
表示的是平均激活响应与预设稀疏度之间的相似度,
Figure DEST_PATH_IMAGE008_65A
表示的是隐藏层中隐藏节点j的平均激活响应,ρ表示预设稀疏度,一般设置ρ=0.05,m表示样本图像的数量,
Figure DEST_PATH_IMAGE010_46A
表示隐藏节点j对样本图像i的输出的激活响应,
Figure DEST_PATH_IMAGE012_42A
表示隐藏层中隐藏节点j的激活度,
Figure DEST_PATH_IMAGE014_49A
表示输入至隐藏节点的关于样本图像i的特征数据。为了保证隐藏层中隐藏节点处于较低的激活度,离散度越小越好,离散度越小代表ρ与
Figure DEST_PATH_IMAGE008_66A
的差别越小。
稀疏自编码器在自编码器的隐藏层中引入了上述约束,使得隐藏层中的绝大多数隐藏节点处于抑制状态,其输出的响应近似为0,而少量隐藏节点处于激活状态,其输出的响应近似为1。
在一个实施例中,计算机设备可以基于样本图像与重建图像计算均方误差函数,作为重建损失;其中,重建损失用于训练自编码器基于样本图像的稀疏特征获得靠近样本图像的重建图像。
稀疏自编码器能在隐藏层中隐藏节点的数量较多的情况下,得到输入图像的稀疏特征。在隐藏节点数量较多的情况下,大量的训练参数使训练过程复杂,若训练输出的维数远比输入的维数高,会产生许多冗余数据信息。加入稀疏性的隐藏层约束,去除特征中可能存在的相关特征或冗余特征,会使学习到的稀疏特征更加有价值。
稀疏特征在解码过程中被重构得到重建图像,通过损失函数计算重构损失,例如,可以采用均方误差损失函数计算损失值。示意性的,计算公式如下:
Figure DEST_PATH_IMAGE016_43A
其中,m表示样本图像的数量,
Figure DEST_PATH_IMAGE018_44A
表示第i个样本图像,
Figure DEST_PATH_IMAGE020_48A
表示第i个样本图像对应的重建图像。图像可以用特征矩阵表示,图像与图像之间的差异可以用矩阵相同位置的元素之间的差异差异来表示。
在一个实施例中,计算机设备可以计算隐藏层约束损失和重建损失的加权和;以加权和最小化为目标更新自编码器的网络参数后,继续使用样本图像对自编码器进行训练,直至满足训练结束条件时,获得训练好的自编码器。
对隐藏层约束损失与重建损失所得到的加权和求梯度,采用梯度下降的方式对自编码器进行模型训练。对隐藏层约束损失与重建损失所得到的加权和的计算公式如下:
Figure DEST_PATH_IMAGE022_42A
其中,LSAE为自编码器的总损失,Lmse为重建损失,
Figure DEST_PATH_IMAGE024_38A
为隐藏层约束损失,λ为隐藏层约束损失的权重,控制隐藏层约束损失在总损失中的权重。
计算机设备根据计算出的加权和(总损失)训练自编码器,约束编码层提取图像的稀疏特征,同时约束输出的重建图像与输入的样本图像靠近。
相关技术中,对于训练好的自编码器,通常是仅使用其中的编码层,对样本图像提取特征,与样本图像共同作为输入,输入至后续表情识别网络中,对表情识别网络进行训练。
而本申请中,在完成对自编码器的训练后,利用整个自编码器进行图像重建,并使用重建图像作为新的训练样本。具体地,计算机设备可以将用于训练表情识别网络的训练样本输入到训练好的自编码器中,获得相应的重建图像,使自编码器输出的重建图像具有分类所需的特征信息,再使用该重建图像对表情识别网络进行模型训练。
如图7所示,为一个实施例中对自编码器进行训练的框架示意图。参照图7,将原始的样本图像进行预处理,获得预处理后的样本图像,再将预处理后的样本图像输入自编码器的编码层进行特征提取,得到稀疏特征,在这个过程中,确定编码层中隐藏节点对输入的样本图像的激活响应,根据该激活响应与预设稀疏度,计算隐藏层约束损失。此外,还通过自编码器的解码层,基于稀疏特征进行特征重建,获得重建图像,之后,利用重建图像与输入的预处理后的样本图像之间的差异,计算重建损失。对隐藏层约束损失与重建损失计算加权和,采用梯度下降的方式更新自编码器的网络参数。如此迭代训练,实现对自编码器的模型训练,获得训练好的自编码器。
在一个实施例中,如图8所示,表情识别网络的模型训练步骤包括:
步骤802,对于输入的训练样本或相应的重建图像,通过表情识别网络中交替连接的卷积层与池化层进行特征提取,获得输入的图像的图像特征。
具体地,计算机设备可以事先设置基于卷积神经网络的表情识别网络,通过训练样本以及该训练样本对应的重建图像,训练得到表情识别网络的网络参数。据此,在需要对面部图像进行表情分类时,计算机设备可以获取事先训练得到的网络参数,将该网络参数导入初始的表情识别网络,得到表情识别模型。
表情识别网络的输入,可以是训练样本也可以是训练样本对应的重建图像,还可以是二者同时输入至表情识别网络。图像特征可以用于反映图像的特性,根据图像的特性可以对图像进行分类,图像特征即为图像分类的依据。图像特征是表情识别网络的卷积层提取的高维特征。
在一个实施例中,可以单独将重建图像输入至表情识别网络,提取重建图像的图像特征。在一个实施例中,可以将训练样本单独输入至表情识别网络,提取训练样的图像特征。在一个实施例中,表情识别网络可以包括两条输入通道以及与该两条输入通道中的每个输入通道各自连接的特征提取网络(包括交替连接的卷积层与池化层),通过其中一条输入通道,将训练样本输入与之连接的特征提取网络,获得训练样本的图像特征,并通过另一条输入通道,将重建图像输入与之连接的特征提取网络,获得重建图像的图像特征。再将该两个特征融合,得到最终的图像特征,可用于后续的图像分类。
在一个实施例中,表情识别网络包括交替连接的卷积层与池化层,还包括与最末尾的池化层连接的全连接层,还包括与全连接层相连接的分类器。表情识别网络可以叠加多个卷积层,在卷积计算中采用多个3*3的卷积核来获得更大的感受野,提取更多的特征。
在一个实施例中,表情识别网络可以采用VGG网络结构。VGG网络结构考虑了网络的深度与性能之间的关系,通过叠加多个卷积层,在卷积计算中采用多个3*3的卷积核来获得更大的感受野,提取更多的特征。
如图9所示,为一个实施例中表情识别网络的结构示意图。参照图9,该表情识别网络包括输入层、四层交替连接的卷积层与池化层、两层全连接层与分类器。卷积层中卷积计算可以采用多个3*3的卷积核,卷积计算之后采用激活函数引入非线性因素,提取非线性特征。激活函数例如可以是ReLu函数。参照图9,输入图像的尺寸为64*64*1,经过第一层卷积与池化层的处理后,输出尺寸为64*64*64的特征矩阵,经过第二层的卷积层与池化层的处理后,输出尺寸为32*32*128的特征矩阵,经过第三层的卷积层与池化层的处理后,输出尺寸为16*16*512的特征矩阵,经过第四层的卷积层与池化层的处理后,输出尺寸为8*8*512的特征矩阵,再通过全连接层依次将卷积池化后的特征向量拉伸至一个列向量,该层网络的神经元与前一层连接。最后通过分类器将该列向量中的每个元素值映射到(0,1)区间内进行分类,获得最终的类别预测结果。
步骤804,通过表情识别网络中的全连接层与分类器,基于图像特征对输入的图像进行类别预测,得到输入的图像中面部表情的类别预测结果。
其中,类别预测结果表示输入的图像中面部表情属于各个预设表情类别的概率,该概率反映了输入的图像属于相应预设表情类别的可能性大小。具体地,输入的图像属于某一预设表情类别的概率越大,可以表明该输入的图像属于该预设表情类别的可能性越大,反之,输入的图像属于某一预设表情类别的概率越小,可以表明该输入的图像属于该预设表情类别的可能性越小。基于此,可以根据输入的图像分别属于各预设表情类别的概率,进一步确定该输入的图像所属的表情类别。训练阶段,输出的类别预测结果是输入的图像分别属于N个预设表情类别的N个概率值构成的分类向量。
下面介绍表情识别网络中各部分的工作原理。
卷积层用于通过多个叠加的卷积核,对输入的图像进行卷积操作,卷积操作后输出特征的尺寸大小的计算公式如下:
Figure DEST_PATH_IMAGE026_37A
其中,n表示的是样本数据的尺寸,f表示卷积核的大小,例如卷积核为3*3,f取值即为3,p表示卷积核移位后需要填充(Padding)的大小,s表示卷积核的移动步长。
经过卷积操作后,采用激活函数提取非线性特征。激活函数例如可以是ReLU函数,该激活函数能有效降低模型的训练时间,还能减轻网络中梯度消失的问题,函数表达式如:
Figure DEST_PATH_IMAGE028_42A
;可知,ReLU函数的取值范围为(0,x),当x取值小于0时,函数值为0,否则
Figure DEST_PATH_IMAGE030_30A
池化层用于对取得的高维特征实行降维操作,例如采用卷积核为2*2的最大池化将卷积层得到的特征图尺度减少到原来大小的一半。最大池化就是在池化区域中选择最大的元素作为该池化区域的输出。池化层在对数据降维的同时,还从特征值中提取出重要特征,忽略影响较小的元素,使网络结构避免发生过拟合问题。
全连接层与前一层所有的神经元链接,用于将卷积池化后的特征向量拉伸至一个列向量。最后一层的全连接层,可以通过分类器将该列向量中的每个元素映射到(0,1)区间内进行分类,例如可以采用softmax分类器,公式如下:
Figure DEST_PATH_IMAGE032_33A
其中,Si表示输出类别i的概率,vi表示全连接层输出的对应类别i的值,C表示类别的数量。
步骤806,基于类别预测结果与输入的图像的表情标注类别计算识别损失。
步骤808,根据识别损失对表情识别网络进行模型训练。
对于输入至表情识别网络中的图像,通过上述步骤获得对应的类别预测结果后,根据类别预测结果与标注信息计算识别损失。计算机设备可以该识别损失最小化为目标更新该表情识别网络的网络参数后,继续使用训练样本或对应的重建图像进行训练,直至满足训练结束条件时,获得训练好的表情识别模型。
在一个实施例中,步骤806包括:基于类别预测结果获得输入的图像分别属于各预设表情类别的预测概率;根据各预测概率与输入的图像的表情标注类别计算交叉熵,作为输入的图像对应的识别损失,识别损失用于训练表情识别网络使类别预测结果靠近输入的图像的表情标注类别。
示意性的,识别损失的计算公式如下:
Figure DEST_PATH_IMAGE034_41A
其中,m是输入到表情识别网络中的图像的数量,n代表的是预设表情类别的总类别数,
Figure DEST_PATH_IMAGE036_29A
是一个取值为0或1的变量,当如果第i个图像的标注表情类别与为第j类时,其取值为1,否则取值为0,
Figure DEST_PATH_IMAGE038_19A
表示第i个图像属于第j类表情的预测概率。
在一个实施例中,表情识别网络包括全连接层以及与全连接层连接的随机丢弃层;方法还包括:通过随机丢弃层对全连接层中隐藏节点引入随机丢弃分布函数,以确定隐藏节点服从随机丢弃分布函数的随机值;丢弃全连接层中随机值为零的隐藏节点对输入的图像的响应,根据随机值为非零的隐藏节点对输入的图像的响应,获得输入的图像的图像特征。
本实施例中,为了防止模型过拟合,表情识别网络的全连接层后连接了随机丢弃层。过拟合是指模型过度学习训练样本中的特征,而在未知样本中的表现一般,导致模型泛化能力较差。随机丢弃层让网络中的某些神经元以一定概率停止工作,这些停止工作的神经元无法对下一层产生影响,从而降低了过拟合的风险。示意性的,随机丢弃层的计算公式如下:
Figure DEST_PATH_IMAGE040_20A
其中,
Figure DEST_PATH_IMAGE042_19A
表示第l层中第j个神经元对应该随机丢弃层的取值,该取值以随机概率取值为0或1,
Figure DEST_PATH_IMAGE044_17A
表示经过该随机丢弃层后第l层的输出,
Figure DEST_PATH_IMAGE046_19A
表示第l层中神经元对应该随机丢弃层的取值,
Figure 508586DEST_PATH_IMAGE048
第l层的原本的输出。经过Bernoulli函数生成第l层的随机概率向量
Figure DEST_PATH_IMAGE049AAA
,该向量可以让第l层中的神经元以随机概率停止工作。
如图10所示,为另一个具体的实施例中表情识别网络的结构示意图。参照图10,该表情识别网络包括输入层、四层交替连接的卷积层与池化层、两层交替连接的全连接层与随机丢弃层,最后是分类器。卷积层中卷积计算可以采用多个3*3的卷积核。
示意性的,在完成表情识别模型的训练后,可以利用该表情识别模型进行图像表情识别。即计算机设备调用训练好的表情识别模型,对面部图像进行表情识别,例如,获取待进行表情识别的面部图像;通过表情识别模型,提取面部图像的图像特征,基于图像特征对面部图像进行表情分类,获得关于面部图像中面部表情的分类结果。
图11示出了本申请一个示例性实施例提供的图像处理方法的流程图。该方法可以由计算机设备来执行,例如,如图1所示的终端或服务器来执行。示例性的,执行表情识别模型的处理方法的计算机设备,与,执行图像处理方法的计算机设备,可以是同一个计算机设备,也可以是不同的计算机设备。该方法包括以下步骤。
步骤1102,获取待进行表情识别的面部图像。
示意性的,面部图像可以是任意的、需要进行表情识别的图像。例如可以是在线教育场景中捕捉到的学生的面部图像,还可以是面试场景中捕捉到的应试者的面部图像。
步骤1104,通过表情识别模型,提取面部图像的图像特征;图像特征表征面部图像的图像全局信息与图像显著信息。
示意性的,表情识别模型是上述任意实施例中所提到的表情识别模型。
步骤1106,基于图像特征对面部图像进行表情分类,获得关于面部图像中面部表情的分类结果,其中,表情识别模型是通过训练样本以及训练样本对应的重建图像进行模型训练得到的,重建图像是通过训练好的自编码器对训练样本依次进行特征提取与重建获得的,自编码器通过隐藏层约束损失与重建损失训练得到,隐藏层约束损失用于训练自编码器获得图像的稀疏特征,重建损失用于训练自编码器基于图像的稀疏特征获得靠近图像的重建图像。
示意性的,获得关于面部图像中面部表情属于各类预设表情类别的概率,将概率值最大的预设表情作为面部图像最终的分类结果。
本实施例中,通过使用训练好的表情识别模型对面部图像进行表情识别,用神经网络对面部图像进行特征提取,可以基于图像的深层特征来对图像进行分类,提高了图像中面部表情识别的准确度。由于表情识别模型基于训练样本与训练样本对应的重建图像共同训练得到,而重建图像基于训练好的自编码器对训练样本进行重建得到,使表情识别模型学习到提取面部图像的图像全局信息,又能够学习到相应的图像显著信息,提升模型识别的准确性,进一步提高了图像中面部表情识别的准确度。
示例性的,本申请提供的表情识别模型可以在多种应用场景中用于对图像中的面部表情进行分类。
如图12所示,本申请提供的表情识别模型的训练方法具体实施步骤如下。
步骤1202,获取原始图像;
步骤1204,对原始图像进行面部区域识别,提取原始图像中的面部区域;
步骤1206,对面部区域进行预处理后,得到用于模型训练的样本图像;
步骤1208,通过稀疏自编码器中的编码层,对样本图像进行特征提取,得到样本图像的稀疏特征;
步骤1210,通过稀疏自编码器中的解码层,对稀疏特征进行特征重建,得到样本图像对应的重建图像;
步骤1212,确定稀疏自编码器的隐藏层中的激活函数对样本图像的激活响应;
步骤1214,根据各激活函数对样本图像的激活响应,计算平均激活响应;
步骤1216,计算平均激活响应与预设稀疏度之间的相似度,作为隐藏层约束损失;
步骤1218,基于样本图像与重建图像计算均方误差,作为重建损失;
步骤1220,计算隐藏层约束损失和重建损失的加权和;
步骤1222,以加权和最小化为目标更新稀疏自编码器的网络参数后,继续使用样本图像对稀疏自编码器进行训练,直至满足训练结束条件时,获得训练好的稀疏自编码器;
步骤1224,将表情识别网络的训练样本输入训练好的稀疏自编码器;
步骤1226,通过稀疏自编码器对训练样本依次进行特征提取与重建,获得相应的重建图像;
步骤1228,将训练样本以及对应的重建图像分别作为表情识别网络的输入图像,对于输入的训练样本或相应的重建图像,通过表情识别网络中交替连接的卷积层与池化层进行特征提取,获得输入的图像原本的图像特征;
步骤1230,通过随机丢弃层对全连接层中隐藏节点引入随机丢弃分布函数,以确定隐藏节点服从随机丢弃分布函数的随机值;
步骤1232,丢弃全连接层中随机值为零的隐藏节点对输入的图像的响应,根据随机值为非零的隐藏节点对输入的图像的响应,获得输入的图像的图像特征;
步骤1234,通过表情识别网络中的全连接层与分类器,基于图像特征对输入的图像进行类别预测,得到输入的图像中面部表情的类别预测结果;
步骤1236,基于类别预测结果获得输入的图像分别属于各预设表情类别的预测概率;
步骤1238,根据各预测概率与输入的图像的表情标注类别计算交叉熵,作为输入的图像对应的识别损失;
步骤1240,根据识别损失对表情识别网络进行模型训练,获得用于进行面部表情识别的表情识别模型;
步骤1242,获取待进行表情识别的面部图像,通过表情识别模型,提取面部图像的图像特征;图像特征表征面部图像的图像全局信息与图像显著信息;
步骤1244,基于图像特征对面部图像进行表情分类,获得关于面部图像中面部表情的分类结果。
上述表情识别模型的处理方法,通过自编码器对样本图像进行特征的提取与重建,获得重建图像,基于自编码器中隐藏节点对样本图像的响应,对该自编码器的隐藏节点引入隐藏层约束损失,同时基于样本图像与重建图像的差异计算重建损失,该隐藏层约束损失与重建损失,可以使得自编码器在重建样本图像的同时,又能够在特征提取过程中提取到样本图像关于数据分布的图像显著信息。接着,将表情识别网络的训练样本输入至训练好的自编码器中,获得相应的重建图像后,将该重建图像也作为训练样本,与原本的训练样本共同对表情识别网络进行模型训练,由于重建图像是基于训练样本的图像显著特征重建得到的,强化了图像的图像显著信息,而且在缺乏训练数据的情况下,按照这种方式可以使训练样本的数量翻倍,训练得到的表情识别模型既能够学习到样本图像中的图像全局信息,又能够学习到相应的图像显著信息,提升模型识别的准确性。
如图13所示,为一个实施例中应用上述表情识别模型的处理方法对表情识别网络进行训练的示意图。参照图13,包括两个阶段,第一个阶段对自编码器进行模型训练,训练过程中基于自编码器中隐藏节点对样本图像的响应,对该自编码器的隐藏节点引入隐藏层约束损失,同时基于样本图像与重建图像的差异计算重建损失,采用隐藏层约束损失与重建损失训练自编码器。第二阶段,通过使用训练好的自编码器对表情识别网络的训练样本进行重建,获得重建图像,使用该训练样本与重建图像共同训练该表情识别网络,基于训练样本的分类预测结果与类别标注信息构建识别损失,以对表情识别网络进行优化与更新。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的表情识别模型的处理方法的表情识别模型的处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个表情识别模型的处理装置实施例中的具体限定可以参见上文中对于表情识别模型的处理方法的限定,在此不再赘述。
在一个实施例中,如图14所示,提供了一种表情识别模型的处理装置1400,包括:重建模块1402、损失构建模块1404、自编码器训练模块1406和识别网络训练模块1408,其中:
重建模块1402,用于通过自编码器对样本图像依次进行特征提取与重建,获得重建图像;
损失构建模块1404,用于基于自编码器中隐藏节点对样本图像的响应,计算隐藏层约束损失,基于重建图像与样本图像之间的差异计算重建损失;
自编码器训练模块1406,用于根据隐藏层约束损失与重建损失训练自编码器;
识别网络训练模块1408,用于基于表情识别网络的训练样本,以及通过训练好的自编码器对训练样本依次进行特征提取与重建所获得的重建图像,对表情识别网络进行模型训练,获得用于进行面部表情识别的表情识别模型。
在一个实施例中,表情识别模型的处理装置1400,还包括预处理模块,用于获取原始图像;对原始图像进行面部区域识别,提取原始图像中的面部区域;对面部区域进行预处理后,得到用于模型训练的样本图像。
在一个实施例中,重建模块1402还用于通过稀疏自编码器中的编码层,对样本图像进行特征提取,得到样本图像的稀疏特征; 通过稀疏自编码器中的解码层,对稀疏特征进行特征重建,得到样本图像对应的重建图像。
在一个实施例中,损失构建模块1404还用于确定自编码器的隐藏层中的激活函数对样本图像的激活响应;根据各激活函数对样本图像的激活响应,计算平均激活响应;计算平均激活响应与预设稀疏度之间的相似度,作为隐藏层约束损失,隐藏层约束损失用于训练自编码器获得样本图像的稀疏特征。
在一个实施例中,损失构建模块1404还用于基于样本图像与重建图像计算均方误差函数,作为重建损失;其中,重建损失用于训练自编码器基于样本图像的稀疏特征获得靠近样本图像的重建图像。
在一个实施例中,自编码器训练模块1406还用于计算隐藏层约束损失和重建损失的加权和;以加权和最小化为目标更新自编码器的网络参数后,继续使用样本图像对自编码器进行训练,直至满足训练结束条件时,获得训练好的自编码器。
在一个实施例中,识别网络训练模块1408还用于对于输入的训练样本或相应的重建图像,通过表情识别网络中交替连接的卷积层与池化层进行特征提取,获得输入的图像的图像特征;通过表情识别网络中的全连接层与分类器,基于图像特征对输入的图像进行类别预测,得到输入的图像中面部表情的类别预测结果;基于类别预测结果与输入的图像的表情标注类别计算识别损失;根据识别损失对表情识别网络进行模型训练。
在一个实施例中,识别网络训练模块1408还用于基于类别预测结果获得输入的图像分别属于各预设表情类别的预测概率;根据各预测概率与输入的图像的表情标注类别计算交叉熵,作为输入的图像对应的识别损失,识别损失用于训练表情识别网络使类别预测结果靠近输入的图像的表情标注类别。
在一个实施例中,表情识别网络包括全连接层以及与全连接层连接的随机丢弃层;识别网络训练模块1408还用于,通过随机丢弃层对全连接层中隐藏节点引入随机丢弃分布函数,以确定隐藏节点服从随机丢弃分布函数的随机值;丢弃全连接层中随机值为零的隐藏节点对输入的图像的响应,根据随机值为非零的隐藏节点对输入的图像的响应,获得输入的图像的图像特征。
在一个实施例中,识别网络训练模块1408还包括识别模块,用于获取待进行表情识别的面部图像;通过表情识别模型,提取面部图像的图像特征;图像特征表征面部图像的图像全局信息与图像显著信息;基于图像特征对面部图像进行表情分类,获得关于面部图像中面部表情的分类结果。
上述表情识别模型的处理装置1400中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
上述表情识别模型的处理装置1400,通过自编码器对样本图像进行特征的提取与重建,获得重建图像,基于自编码器中隐藏节点对样本图像的响应,对该自编码器的隐藏节点引入隐藏层约束损失,同时基于样本图像与重建图像的差异计算重建损失,该隐藏层约束损失与重建损失,可以使得自编码器在重建样本图像的同时,又能够在特征提取过程中提取到样本图像关于数据分布的图像显著信息。接着,将表情识别网络的训练样本输入至训练好的自编码器中,获得相应的重建图像后,将该重建图像也作为训练样本,与原本的训练样本共同对表情识别网络进行模型训练,由于重建图像是基于训练样本的图像显著特征重建得到的,强化了图像的图像显著信息,而且在缺乏训练数据的情况下,按照这种方式可以使训练样本的数量翻倍,训练得到的表情识别模型既能够学习到样本图像中的图像全局信息,又能够学习到相应的图像显著信息,提升模型识别的准确性。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的图像处理方法的图像处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个图像处理装置实施例中的具体限定可以参见上文中对于图像处理方法的限定,在此不再赘述。
在一个实施例中,如图15所示,提供了一种图像处理装置1500,包括:获取模块1502和识别模块1504,其中:
获取模块1502,用于获取待进行表情识别的面部图像;
识别模块1504,用于通过表情识别模型,提取面部图像的图像特征;图像特征表征面部图像的图像全局信息与图像显著信息;基于图像特征对面部图像进行表情分类,获得关于面部图像中面部表情的分类结果;
其中,表情识别模型是通过训练样本以及训练样本对应的重建图像进行模型训练得到的,重建图像是通过训练好的自编码器对训练样本依次进行特征提取与重建获得的,自编码器通过隐藏层约束损失与重建损失训练得到,隐藏层约束损失用于训练自编码器获得图像的稀疏特征,重建损失用于训练自编码器基于图像的稀疏特征获得靠近图像的重建图像。
上述图像处理装置1500中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
上述图像处理装置1500,通过使用训练好的表情识别模型对面部图像进行表情识别,用神经网络对面部图像进行特征提取,可以基于图像的深层特征来对图像进行分类,提高了图像中面部表情识别的准确度。由于表情识别模型基于训练样本与训练样本对应的重建图像共同训练得到,而重建图像基于训练好的自编码器对训练样本进行重建得到,使表情识别模型学习到提取面部图像的图像全局信息,又能够学习到相应的图像显著信息,提升模型识别的准确性,进一步提高了图像中面部表情识别的准确度。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,也可以是终端,其内部结构图可以如图16所示。该计算机设备包括通过系统总线连接的处理器、存储器和通信接口。当该计算机设备为终端时,还包括与系统总线连接的显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种表情识别模型的处理方法和图像处理方法中的至少一种。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图16中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述表情识别模型的处理方法和图像处理方法中的至少一种的步骤。
本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述表情识别模型的处理方法和图像处理方法中的至少一种的步骤。
本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述表情识别模型的处理方法和图像处理方法中的至少一种的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (23)

1.一种表情识别模型的处理方法,其特征在于,所述方法包括:
通过自编码器对样本图像依次进行特征提取与重建,获得重建图像;
基于自编码器中隐藏节点对所述样本图像的响应,计算隐藏层约束损失;
基于所述重建图像与所述样本图像之间的差异计算重建损失;
根据所述隐藏层约束损失与所述重建损失训练所述自编码器,得到训练好的自编码器;
通过训练好的所述自编码器对表情识别网络的训练样本依次进行特征提取与重建,获得所述表情识别网络的训练样本对应的重建图像;
将所述表情识别网络的训练样本输入所述表情识别网络中交替连接的卷积层与池化层进行特征提取,获得所述表情识别网络的训练样本的图像特征;
将所述表情识别网络的训练样本对应的重建图像输入所述表情识别网络中另一交替连接的卷积层与池化层进行特征提取,获得所述训练样本对应的重建图像的图像特征;
通过所述表情识别网络中的全连接层与分类器,将所述表情识别网络的训练样本的图像特征与所述训练样本对应的重建图像的图像特征融合,基于融合得到的图像特征对所述表情识别网络的训练样本进行类别预测,得到所述表情识别网络的训练样本中面部表情的类别预测结果;基于所述类别预测结果与所述表情识别网络的训练样本的表情标注类别计算识别损失,根据所述识别损失对所述表情识别网络进行模型训练,获得用于进行面部表情识别的表情识别模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取原始图像;
对所述原始图像进行面部区域识别,提取所述原始图像中的面部区域;
对所述面部区域进行预处理后,得到用于模型训练的样本图像。
3.根据权利要求1所述的方法,其特征在于,所述通过自编码器对样本图像依次进行特征提取与重建,获得重建图像,包括:
通过稀疏自编码器中的编码层,对所述样本图像进行特征提取,得到所述样本图像的稀疏特征;
通过所述稀疏自编码器中的解码层,对所述稀疏特征进行特征重建,得到所述样本图像对应的重建图像。
4.根据权利要求1所述的方法,其特征在于,所述基于自编码器中隐藏节点对所述样本图像的响应,计算隐藏层约束损失,包括:
确定所述自编码器的隐藏层中的激活函数对所述样本图像的激活响应;
根据各所述激活函数对所述样本图像的激活响应,计算平均激活响应;
计算所述平均激活响应与预设稀疏度之间的相似度,作为隐藏层约束损失,所述隐藏层约束损失用于训练所述自编码器获得所述样本图像的稀疏特征。
5.根据权利要求1所述的方法,其特征在于,所述基于所述重建图像与所述样本图像之间的差异计算重建损失,包括:
基于所述样本图像与所述重建图像计算均方误差函数,作为重建损失;
其中,所述重建损失用于训练所述自编码器基于样本图像的稀疏特征获得靠近样本图像的重建图像。
6.根据权利要求1所述的方法,其特征在于,所述根据所述隐藏层约束损失与所述重建损失训练所述自编码器,得到训练好的自编码器,包括:
计算所述隐藏层约束损失和所述重建损失的加权和;
以所述加权和最小化为目标更新所述自编码器的网络参数后,继续使用样本图像对所述自编码器进行训练,直至满足训练结束条件时,获得训练好的所述自编码器。
7.根据权利要求1所述的方法,其特征在于,所述基于所述类别预测结果与所述表情识别网络的训练样本的表情标注类别计算识别损失,包括:
基于类别预测结果获得所述表情识别网络的训练样本分别属于各预设表情类别的预测概率;
根据各所述预测概率与所述表情识别网络的训练样本的表情标注类别计算交叉熵,作为所述表情识别网络的训练样本对应的识别损失,所述识别损失用于训练所述表情识别网络使所述类别预测结果靠近所述表情识别网络的训练样本的表情标注类别。
8.根据权利要求1所述的方法,其特征在于,所述表情识别网络包括全连接层以及与所述全连接层连接的随机丢弃层;所述方法还包括:
通过所述随机丢弃层对所述全连接层中隐藏节点引入随机丢弃分布函数,以确定所述隐藏节点服从所述随机丢弃分布函数的随机值;
丢弃所述全连接层中随机值为零的隐藏节点对所述表情识别网络的训练样本的响应,根据随机值为非零的隐藏节点对所述表情识别网络的训练样本的响应,获得所述表情识别网络的训练样本的图像特征。
9.根据权利要求1至8任一项所述的方法,其特征在于,所述方法还包括:
获取待进行表情识别的面部图像;
通过所述表情识别模型,提取所述面部图像的图像特征;所述图像特征表征所述面部图像的图像全局信息与图像显著信息;
基于所述图像特征对所述面部图像进行表情分类,获得关于所述面部图像中面部表情的分类结果。
10.一种图像处理方法,其特征在于,所述方法包括:
获取待进行表情识别的面部图像;
通过表情识别模型,提取所述面部图像的图像特征;所述图像特征表征所述面部图像的图像全局信息与图像显著信息;基于所述图像特征对所述面部图像进行表情分类,获得关于所述面部图像中面部表情的分类结果;
其中,所述表情识别模型是通过表情识别网络的训练样本以及所述训练样本对应的重建图像进行模型训练得到的,所述重建图像是通过训练好的自编码器对所述训练样本依次进行特征提取与重建获得的,所述自编码器通过隐藏层约束损失与重建损失训练得到,所述隐藏层约束损失用于训练所述自编码器获得图像的稀疏特征,所述重建损失用于训练所述自编码器基于图像的稀疏特征获得靠近所述图像的重建图像;
其中,所述表情识别网络的训练步骤包括:
将所述表情识别网络的训练样本输入所述表情识别网络中交替连接的卷积层与池化层进行特征提取,获得所述表情识别网络的训练样本的图像特征;将所述表情识别网络的训练样本对应的重建图像输入所述表情识别网络中另一交替连接的卷积层与池化层进行特征提取,获得所述训练样本对应的重建图像的图像特征;通过所述表情识别网络中的全连接层与分类器,将所述表情识别网络的训练样本的图像特征与所述训练样本对应的重建图像的图像特征融合,基于融合得到的图像特征对所述表情识别网络的训练样本进行类别预测,得到所述表情识别网络的训练样本中面部表情的类别预测结果;基于所述类别预测结果与所述表情识别网络的训练样本的表情标注类别计算识别损失,根据所述识别损失更新所述表情识别网络。
11.一种表情识别模型的处理装置,其特征在于,所述装置包括:
重建模块,用于通过自编码器对样本图像依次进行特征提取与重建,获得重建图像;
损失构建模块,用于基于自编码器中隐藏节点对所述样本图像的响应,计算隐藏层约束损失,基于所述重建图像与所述样本图像之间的差异计算重建损失;
自编码器训练模块,用于根据所述隐藏层约束损失与所述重建损失训练所述自编码器,得到训练好的自编码器;
识别网络训练模块,用于通过训练好的所述自编码器对表情识别网络的训练样本依次进行特征提取与重建,获得所述表情识别网络的训练样本对应的重建图像;将所述表情识别网络的训练样本输入所述表情识别网络中交替连接的卷积层与池化层进行特征提取,获得所述表情识别网络的训练样本的图像特征;将所述表情识别网络的训练样本对应的重建图像输入所述表情识别网络中另一交替连接的卷积层与池化层进行特征提取,获得所述训练样本对应的重建图像的图像特征;通过所述表情识别网络中的全连接层与分类器,将所述表情识别网络的训练样本的图像特征与所述训练样本对应的重建图像的图像特征融合,基于融合得到的图像特征对所述表情识别网络的训练样本进行类别预测,得到所述表情识别网络的训练样本中面部表情的类别预测结果;基于所述类别预测结果与所述表情识别网络的训练样本的表情标注类别计算识别损失,根据所述识别损失对所述表情识别网络进行模型训练,获得用于进行面部表情识别的表情识别模型。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括预处理模块,用于获取原始图像;对所述原始图像进行面部区域识别,提取所述原始图像中的面部区域;对所述面部区域进行预处理后,得到用于模型训练的样本图像。
13.根据权利要求11所述的装置,其特征在于,所述重建模块还用于通过稀疏自编码器中的编码层,对所述样本图像进行特征提取,得到所述样本图像的稀疏特征;通过所述稀疏自编码器中的解码层,对所述稀疏特征进行特征重建,得到所述样本图像对应的重建图像。
14.根据权利要求11所述的装置,其特征在于,所述损失构建模块还用于确定所述自编码器的隐藏层中的激活函数对所述样本图像的激活响应;根据各所述激活函数对所述样本图像的激活响应,计算平均激活响应;计算所述平均激活响应与预设稀疏度之间的相似度,作为隐藏层约束损失,所述隐藏层约束损失用于训练所述自编码器获得所述样本图像的稀疏特征。
15.根据权利要求11所述的装置,其特征在于,所述损失构建模块还用于基于所述样本图像与所述重建图像计算均方误差函数,作为重建损失;其中,所述重建损失用于训练所述自编码器基于样本图像的稀疏特征获得靠近样本图像的重建图像。
16.根据权利要求11所述的装置,其特征在于,所述自编码器训练模块还用于计算所述隐藏层约束损失和所述重建损失的加权和;以所述加权和最小化为目标更新所述自编码器的网络参数后,继续使用样本图像对所述自编码器进行训练,直至满足训练结束条件时,获得训练好的所述自编码器。
17.根据权利要求11所述的装置,其特征在于,所述识别网络训练模块还用于基于类别预测结果获得所述表情识别网络的训练样本分别属于各预设表情类别的预测概率;根据各所述预测概率与所述表情识别网络的训练样本的表情标注类别计算交叉熵,作为所述表情识别网络的训练样本对应的识别损失,所述识别损失用于训练所述表情识别网络使所述类别预测结果靠近所述表情识别网络的训练样本的表情标注类别。
18.根据权利要求11所述的装置,其特征在于,所述表情识别网络包括全连接层以及与全连接层连接的随机丢弃层;所述识别网络训练模块还用于通过所述随机丢弃层对所述全连接层中隐藏节点引入随机丢弃分布函数,以确定所述隐藏节点服从所述随机丢弃分布函数的随机值;丢弃所述全连接层中随机值为零的隐藏节点对所述表情识别网络的训练样本的响应,根据随机值为非零的隐藏节点对所述表情识别网络的训练样本的响应,获得所述表情识别网络的训练样本的图像特征。
19.根据权利要求11至18任一项所述的装置,其特征在于,所述装置还包括识别模块,用于获取待进行表情识别的面部图像;通过所述表情识别模型,提取所述面部图像的图像特征;所述图像特征表征所述面部图像的图像全局信息与图像显著信息;基于所述图像特征对所述面部图像进行表情分类,获得关于所述面部图像中面部表情的分类结果。
20.一种图像处理装置,其特征在于,所述装置包括:
获取模块,用于获取待进行表情识别的面部图像;
识别模块,用于通过表情识别模型,提取所述面部图像的图像特征;所述图像特征表征所述面部图像的图像全局信息与图像显著信息;基于所述图像特征对所述面部图像进行表情分类,获得关于所述面部图像中面部表情的分类结果;
其中,所述表情识别模型是通过表情识别网络的训练样本以及所述训练样本对应的重建图像进行模型训练得到的,所述重建图像是通过训练好的自编码器对所述训练样本依次进行特征提取与重建获得的,所述自编码器通过隐藏层约束损失与重建损失训练得到,所述隐藏层约束损失用于训练所述自编码器获得图像的稀疏特征,所述重建损失用于训练所述自编码器基于图像的稀疏特征获得靠近所述图像的重建图像;
其中,所述表情识别网络是通过将所述表情识别网络的训练样本输入所述表情识别网络中交替连接的卷积层与池化层进行特征提取,获得所述表情识别网络的训练样本的图像特征;将所述表情识别网络的训练样本对应的重建图像输入所述表情识别网络中另一交替连接的卷积层与池化层进行特征提取,获得所述训练样本对应的重建图像的图像特征;通过所述表情识别网络中的全连接层与分类器,将所述表情识别网络的训练样本的图像特征与所述训练样本对应的重建图像的图像特征融合,基于融合得到的图像特征对所述表情识别网络的训练样本进行类别预测,得到所述表情识别网络的训练样本中面部表情的类别预测结果;基于所述类别预测结果与所述表情识别网络的训练样本的表情标注类别计算识别损失,根据所述识别损失更新后继续训练得到的。
21.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。
22.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
23.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
CN202111323309.0A 2021-11-10 2021-11-10 表情识别模型的处理方法、装置、设备、介质和程序产品 Active CN113780249B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111323309.0A CN113780249B (zh) 2021-11-10 2021-11-10 表情识别模型的处理方法、装置、设备、介质和程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111323309.0A CN113780249B (zh) 2021-11-10 2021-11-10 表情识别模型的处理方法、装置、设备、介质和程序产品

Publications (2)

Publication Number Publication Date
CN113780249A CN113780249A (zh) 2021-12-10
CN113780249B true CN113780249B (zh) 2022-02-15

Family

ID=78873658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111323309.0A Active CN113780249B (zh) 2021-11-10 2021-11-10 表情识别模型的处理方法、装置、设备、介质和程序产品

Country Status (1)

Country Link
CN (1) CN113780249B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114943995A (zh) * 2022-05-12 2022-08-26 北京百度网讯科技有限公司 人脸识别模型的训练方法、人脸识别方法及装置
CN117351463A (zh) * 2022-06-28 2024-01-05 魔门塔(苏州)科技有限公司 参数检测方法和设备
CN117540789B (zh) * 2024-01-09 2024-04-26 腾讯科技(深圳)有限公司 模型训练方法、面部表情迁移方法、装置、设备及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503654A (zh) * 2016-10-24 2017-03-15 中国地质大学(武汉) 一种基于深度稀疏自编码网络的人脸情感识别方法
US10311334B1 (en) * 2018-12-07 2019-06-04 Capital One Services, Llc Learning to process images depicting faces without leveraging sensitive attributes in deep learning models
CN110148081B (zh) * 2019-03-25 2024-02-23 腾讯科技(深圳)有限公司 图像处理模型的训练方法、图像处理方法、装置及存储介质
CN109784424B (zh) * 2019-03-26 2021-02-09 腾讯科技(深圳)有限公司 一种图像分类模型训练的方法、图像处理的方法及装置
CN111353542B (zh) * 2020-03-03 2023-09-19 腾讯科技(深圳)有限公司 图像分类模型的训练方法、装置、计算机设备和存储介质
CN111368937B (zh) * 2020-03-19 2024-05-28 京东方科技集团股份有限公司 图像分类方法、装置、及其训练方法、装置、设备、介质
CN113610158A (zh) * 2021-08-09 2021-11-05 张家港迅见信息技术有限公司 一种深度堆栈式混合自编码网络的数据训练方法

Also Published As

Publication number Publication date
CN113780249A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
Liu et al. Hard negative generation for identity-disentangled facial expression recognition
CN113780249B (zh) 表情识别模型的处理方法、装置、设备、介质和程序产品
Ge et al. An attention mechanism based convolutional LSTM network for video action recognition
CN111401216B (zh) 图像处理、模型训练方法、装置、计算机设备和存储介质
CN109948475B (zh) 一种基于骨架特征和深度学习的人体动作识别方法
CN112784763B (zh) 基于局部与整体特征自适应融合的表情识别方法及系统
CN111553267B (zh) 图像处理方法、图像处理模型训练方法及设备
Seow et al. A comprehensive overview of Deepfake: Generation, detection, datasets, and opportunities
CN111444881A (zh) 伪造人脸视频检测方法和装置
CN112507898A (zh) 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法
CN111368672A (zh) 一种用于遗传病面部识别模型的构建方法及装置
CN110321805B (zh) 一种基于时序关系推理的动态表情识别方法
CN116311483B (zh) 基于局部面部区域重构和记忆对比学习的微表情识别方法
WO2024109374A1 (zh) 换脸模型的训练方法、装置、设备、存储介质和程序产品
Xu et al. Face expression recognition based on convolutional neural network
Wani et al. Deep learning-based video action recognition: a review
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN116486495A (zh) 一种基于注意力与生成对抗网络的人脸图像隐私保护方法
Dastbaravardeh et al. Channel Attention-Based Approach with Autoencoder Network for Human Action Recognition in Low-Resolution Frames
Megahed et al. Identify videos with facial manipulations based on convolution neural network and dynamic texture
Hummady et al. A Review: Face Recognition Techniques using Deep Learning
Trelinski et al. Deep embedding features for action recognition on raw depth maps
Zhang et al. E-MobileNeXt: face expression recognition model based on improved MobileNeXt
Saraswathi et al. Detection of synthesized videos using cnn
Li et al. Multi-task Digital Verification Code Recognition Based on Improved ALexNet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant