CN112733803A

CN112733803A - 情绪识别方法及系统

Info

Publication number: CN112733803A
Application number: CN202110100197.6A
Authority: CN
Inventors: 曹天扬; 刘昶
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-04-30

Abstract

本发明提供一种情绪识别方法及系统，方法包括：将原始人脸图像进行多尺度的变频缩放，获得大小不同的多张缩放图像；识别多张缩放图像中的正确情绪特征信息和错误情绪特征信息，并滤除多张缩放图像中的错误情绪特征信息，得到对应的多张特征图；识别多张特征图中人脸的左半脸和右半脸的情绪特征信息，得到多张缩放图像中左半脸和右半脸的情绪特征信息识别结果；分别统计多张缩放图像中左半脸和右半脸的情绪特征信息识别结果，将统计结果中出现次数最多的情绪特征信息作为最终的情绪识别结果。通过本发明的情绪识别方法及系统，大大提高了情绪识别的准确率。

Description

情绪识别方法及系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种情绪识别方法及系统。

背景技术

非配合的自然状态下，人脸的姿态复杂多变、拍摄到的非正脸五官和表情特征会发生畸变，为表情识别带来大量干扰。目前的表情识别研究大多是针对正脸开展的，这些方法面对姿态变化的人脸时，识别率会非常低。

目前主要有三种策略解决自然状态下非配合的任意姿态人脸表情识别：基于人脸关键点的方法、基于外貌特征的方法和基于姿态相关的方法。

前两种方法均会受到三维人脸投影为2D照片时，关键点之间的几何特征或外貌的特征会变形和损失，这些差异会明显干扰表情识别的准确率。

学者们又提出了基于姿态相关的表情识别策略，其主要思想是建立不同姿态样本之间的联系，借助一种姿态的表情信息识别出另一种姿态的表情类别。但是人脸姿态千变万化、很难收集齐全部的各种不同姿态人脸，而且用于训练算法的非正面表情特征会受到姿态变化的影响发生畸变、导致特征标注很容易被干扰。

除此之外，将非正面人脸重建为正脸的表情识别方案能够将任意姿态的人脸都变为正脸，可以有效消除人脸立体表情特征向2D照片投影时的畸变。但是该方案也存在一个问题，就是重建正脸中的表情特征比较弱，尤其是对于姿态角较大的人脸重建为正脸时表情特征明显弱于真正的正脸，这一问题会影响表情识别的精度。

因此，目前从任意方位实施表情识别还还存在一些亟待解决的问题，限制其推广应用：侧脸表情特征弱：侧脸成像的透视畸变严重，照片中仅能看到部分眉眼鼻嘴、五官和脸皮的表情变形量要比正脸时弱得多，严重干扰表情识别的准确度。左右半脸表情强度“不对称”：该问题在正脸表情识别中就已经很明显。兼顾侧脸和正脸的表情识别：对于任意姿态人脸，不论是正脸还是侧脸，表情识别要用一个算法实现、避免切换对识别带来的干扰。如果正脸和侧脸分开识别，若选大侧脸角做切换点、会迫使正脸识别模型要学习很多侧脸图像，导致正脸表情识别准确度下降。反之选小侧脸角做切换点，也会迫使侧脸识别模型训练时遇到同样问题。

发明内容

(一)要解决的技术问题

针对于现有的技术问题，本发明提供一种情绪识别方法及系统，用于至少部分解决以上技术问题。

(二)技术方案

本发明提供一种情绪识别方法，包括：将原始人脸图像进行多尺度的变频缩放，获得大小不同的多张缩放图像；识别多张缩放图像中的正确情绪特征信息和错误情绪特征信息，并滤除多张缩放图像中的错误情绪特征信息，得到对应的多张特征图；识别多张特征图中人脸的左半脸和右半脸的情绪特征信息，得到多张缩放图像中左半脸和右半脸的情绪特征信息识别结果；分别统计多张缩放图像中左半脸和右半脸的情绪特征信息识别结果，将统计结果中出现次数最多的情绪特征信息作为最终的情绪识别结果。

可选地，将原始人脸图像进行多尺度的变频缩放，获得大小不同的多张缩放图像包括：将原始人脸图像进行至少一次不同倍数的放大和至少一次不同倍数的缩小，获得至少一张放大的人脸图像和至少一张缩小的人脸图像；其中，对原始人脸图像进行缩放时，正确情绪特征信息和错误情绪特征信息在频域上的频带发生频移，频移大小与缩放倍数关联。

可选地，正确情绪特征信息的频带宽度大于错误情绪特征信息的频带宽度，识别多张缩放图像中的正确情绪特征信息和错误情绪特征信息，并滤除多张缩放图像中的错误情绪特征信息包括：通过具有滤波能力的多层卷积网络对多张特征图中包括的错误情绪特征信息进行过滤；其中，具有滤波能力的多层卷积网络中的各层卷积网络分别与多张特征图一一对应，各卷积网络通带的频率与对应的特征图中包括的正确情绪特征信息的频带至少部分重合。

可选地，在情绪识别方法中，预设至少一个具有滤波能力的多层卷积网络，每个具有滤波能力的多层卷积网络分别对应处理一种正确情绪特征信息。

可选地，识别多张特征图中人脸的左半脸和右半脸的情绪特征信息包括：依次在多张特征图中人脸的各个位置建立敏感区；分别检测多张左半脸与右半脸特征图中的敏感区，识别各敏感区的情绪特征信息。

可选地，分别检测多张左半脸与右半脸特征图中的敏感区，识别各敏感区的情绪特征信息包括：当多张缩放图像为多张放大图像，且当前检测多张放大图像中的其中半张脸时，以半张脸的眼睛为中心，切除至少部分多张放大图像中的另外半张脸的图像区域，使剩余的多张放大图像的面积与原始人脸图像相同；当多张放大图像为多张缩小图像，且当前检测多张缩小图像中的其中半张脸时，以半张脸的眼睛为中心，增加人脸图像四周的环境背景到多张缩小图像中，使新形成的多张缩小图像的面积与原始人脸图像相同；分别检测与所述多张缩放图像对应的所述多张特征图中左半脸与右半脸的敏感区，识别各敏感区的情绪特征信息。

可选地，分别统计多张缩放图像中左半脸和右半脸的情绪特征信息识别结果，将统计结果中出现次数最多的情绪特征信息作为最终的情绪识别结果包括：分别统计多张缩放图像中的左半脸和右半脸的各种情绪特征信息出现的总次数，和/或，分别计算左半脸和右半脸在多张缩放图像中的各种情绪特征信息的识别率的加和值；比较左半脸和右半脸上出现的各种情绪特征信息的总次数，和/或，比较左半脸和右半脸的各种情绪特征信息的识别率的加和值；将出现的总次数最多的情绪特征信息作为最终的情绪识别结果，和/或，将识别率加和值最大的情绪特征信息作为最终的情绪识别结果。

可选地，识别率至少包括两位小数位。

可选地，在将原始人脸图像进行多尺度的变频缩放之前，情绪识别方法还包括：对原始人脸图像进行3D建模，并对非正面的原始人脸图像模型进行姿态旋转，得到正面原始人脸图像模型，转换正面原始人脸图像模型为正面原始人脸图像。

本发明另一方面提供一种情绪识别系统，包括：变频缩放模块，用于将原始人脸图像进行多尺度的变频缩放，获得大小不同的多张缩放图像；滤错模块，用于识别多张缩放图像中的正确情绪特征信息和错误情绪特征信息，并滤除多张缩放图像中的错误情绪特征信息，得到对应的多张特征图；识别模块，用于识别多张特征图中人脸的左半脸和右半脸的情绪特征信息，得到多张缩放图像中左半脸和右半脸的情绪特征信息识别结果；统计输出模块，用于分别统计多张缩放图像中左半脸和右半脸的情绪特征信息识别结果，将统计结果中出现次数最多的情绪特征信息作为最终的情绪识别结果输出。

(三)有益效果

本发明提供一种情绪识别方法，通过将原始人脸图像进行多尺度变频缩放，不同程度地改变了原始人脸图像的频率，再对变频后不同带宽频率的表情信息进行滤波，滤除错误的表情信息，留下正确的表情信息，再通过深度学习卷积神经网络分别对左右半脸滤波后的正确表情进行信息提取，统计出现次数最多的情绪，达到正确识别原始图像情绪的效果，本发明通过变频增强了深度学习对表情识别任务的处理能力，提出了一种能够兼容正脸和侧脸的自然状态下任意姿态人脸表情识别方法。

本发明通过样本数据集的训练得到与深度学习特征图人脸器官位置对应的敏感区，进而通过敏感区针对左右半脸以左眼或右眼为中心从多个尺度进行表情识别，大大提高了特征图敏感区被检测到的正确表情信息的信息量，提高了情绪识别的准确度。

本发明还提出了一种对非正面人脸图像的正面化处理方法，但对于输入数据，本发明并不局限于由任意姿态人脸的重建正脸，这种金字塔式图像多尺度变频结构可以直接对任意姿态人脸进行处理，也可以大幅增加深度学习的情绪识别能力。

附图说明

图1示意性示出了本发明实施例的情绪识别方法流程图；

图2示意性示出了本发明实施例任意姿态非正面的正脸重建过程图；

图3示意性示出了本发明实施例的卷积神经网络对原始人脸图像中正确和错误表情信息处理过程的频谱图；

图4示意性示出了本发明实施例的卷积神经网络对图像频移后的人脸图像中正确和错误表情信息处理过程的频谱图；

图5示意性示出了本发明实施例正面化后金字塔式图像多尺度变频结构的图像处理过程图；

图6示意性示出了本发明实施例对放大图像敏感区的情绪检测图；

图7示意性示出了本发明实施例对缩小图像敏感区的情绪检测图；

图8示意性示出了本发明实施例的金字塔式图像多尺度变频结构图；

图9示意性示出了本发明实施例的原始人脸图；

图10示意性示出了本发明实施例的表情识别结果图；

图11示意性示出了本发明实施例的Face++表情识别平台的表情识别结果图；

图12示意性示出了本发明实施例的情绪识别系统框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，在附图或说明书描述中，相似或相同的部分都使用相同的图号。说明书中示例的各个实施例中的技术特征在无冲突的前提下可以进行自由组合形成新的方案，另外每个权利要求可以单独作为一个实施例或者各个权利要求中的技术特征可以进行组合作为新的实施例，且在附图中，实施例的形状或是厚度可扩大，并以简化或是方便标示。再者，附图中未绘示或描述的元件或实现方式，为所属技术领域中普通技术人员所知的形式。另外，虽然本文可提供包含特定值的参数的示范，但应了解，参数无需确切等于相应的值，而是可在可接受的误差容限或设计约束内近似于相应的值。

除非存在技术障碍或矛盾，本发明的上述各种实施方式可以自由组合以形成另外的实施例，这些另外的实施例均在本发明的保护范围中。

虽然结合附图对本发明进行了说明，但是附图中公开的实施例旨在对本发明优选实施方式进行示例性说明，而不能理解为对本发明的一种限制。附图中的尺寸比例仅仅是示意性的，并不能理解为对本发明的限制。

虽然本发明总体构思的一些实施例已被显示和说明，本领域普通技术人员将理解，在不背离本总体发明构思的原则和精神的情况下，可对这些实施例做出改变，本发明的范围以权利要求和它们的等同物限定。

图1示意性示出了本发明实施例的情绪识别方法流程图，如图1所示，情绪识别方法例如包括：

S101，将原始人脸图像进行多尺度的变频缩放，获得大小不同的多张缩放图像。

根据本发明的实施例，通过将原始人脸图像进行多尺度的变频缩放，获得大小不同的多张缩放图像，大小不同的多张缩放图像构成金字塔式图像多尺度变频结构。

不对称的表情是造成错误表情的根源，而正面化的模糊与不对称表情的结合会加剧错误的表情。

表情不对称的问题由两种原因造成：左右半脸表情分别由不同脑半球控制而导致左右半脸表情不对称，由肌肉和脂肪块分布不对称及运动不对称导致的局部表情不对称。而由肌肉和脂肪块不对称运动导致的局部表情不对称，产生的错误信息可以通过本发明提出的金字塔式图像多尺度变频结构予以消除。整体半脸的错误表情信息可以直接对比由金字塔式图像多尺度变频结构处理结果予以消除，主要是通过对比左右两个半脸的情绪识别结果，找出哪个半脸更能代表正确表情。

局部错误信息的消除的难度会很大。主要原因是同样的表情在每个人脸的具体体现是有差异的，即使对同一人脸，不同时间的同一种表情也会有差异。这就导致，每个人脸在任意时刻，对于任意的表情，产生的错误表情信息的位置、面积、强度都是多变的。仅能唯一确定的是：对于每张人脸中的正确表情，其所占的面积要大于错误表情信息的面积，否则它就不可能被称之为正确的表情。

根据本发明实施例，这种所占面积的不同在图像的空间域中很难有效被应用。因此本发明将其改为在图像频域中进行充分利用，可发挥很大的作用。在频域中，利用该特征能充分体现出每张脸中正确和错误表情的不同之处，具有很大的应用价值。

根据本发明实施例，将图像变换到频域时，例如可以进行离散傅里叶变换(DFT)。对于正确和错误的表情信息，本专利通过DFT变换可以证明正确情绪信息的频带宽度要宽于错误情绪信息频带宽度。正确和错误情绪信息的DFT变换分别为：

其中，f_c()和f_w()是同一张脸上正确和错误表情的时域函数，它们的尺寸为N_c和N_w，N_c大于N_w、N_c＞＞N_w，公式中n是DFT中的频率表示、它与连续信息频率的表示符f是等价的n＝f。为了简化分析，式中只显示了DFT在图像X轴的变换，在Y轴上的变换原理和结果与之相同。

令DFT结果中正确和错误情绪信息的最大频率与该区域包含像素点的数量成正比，像素点越多、包含的频率信息越多。t_s是摄像头拍摄图像传感器的对各个像素点的采样间隔，N_c是正确表情的像素点、N_w是错误表情的像素点。因为N_ct_s＞N_wt_s，所以在频域中能检测到的正确表情的频率大于错误表情的频率，即正确信息的频率要比错误信息高，正确信息的频带要宽于错误信息的频带。

根据本发明实施例，金字塔式图像多尺度变频结构就是基于正确信息的频率要比错误信息高，正确信息的频带要宽于错误信息的频带这一特征进行设计的。

根据本发明实施例，将原始人脸图像进行多尺度的变频缩放，获得大小不同的多张缩放图像例如包括：将原始人脸图像进行至少一次不同倍数的放大和至少一次不同倍数的缩小，获得至少一张放大的人脸图像和至少一张缩小的人脸图像；其中，对原始人脸图像进行缩放时，正确情绪特征信息和错误情绪特征信息在频域上的频带发生频移，频移大小与缩放倍数关联。

根据本发明实施例，为了实现图像频移，例如可以利用傅里叶变换性质中的时移特性，研制一种简单方便的图像频移方法。具体过程例如为：空间域(时域)中图像尺寸的缩放与图像频率存在呈反比的关系，图像放大时，其频率被压缩；图像缩小时，其频率被放大。具体的证明过程例如可以通过傅里叶变换性质中的时移特性予以证明：

原始图像的傅里叶变换例如为

频带例如为u∈[ω_u，1，ω_u，2]，v∈[ω_v，1，ω_v，2]。

图像区域例如放大a倍后，傅里叶变换例如为

图像带宽被压缩为

呈现为向低频段平移。只要控制好向低频的移动量，就可在卷积运算中消除错误的表情信息，保留正确的频率信息。

图像区域例如缩小到

后，傅里叶变换例如为

图像带宽被扩展为u_s∈[bω_u，1，bω_u，2]，v_s∈[bω_v，1，bω_v，2]，呈现为向高频段平移。只要控制好向高频的移动量，就可在卷积运算中消除错误的表情信息、保留正确的频率信息。

根据本发明实施例，考虑到错误的信息可能会分布在多个不同的频点，因此仅凭单独的一次向低频或向高频的频移不可能完全消除所有的错误表情信息。所以本发明设计了一种金字塔式图像多尺度变频结构，它能与深度学习的核心“卷积层”有效融合、大幅增强深度学习处理能力。对正面化后的左右半脸分别进行多次不同尺度的缩放、各层对图像缩放的变频结果分别输入到深度学习的卷积层进行信息提取和表情识别，可以彻底滤除各种错误的表情信息、并保留正确的表情信息，实现准确的表情识别结果。

根据本发明实施例，本发明对于这个频率平移量，选择例如可以为大于错误情绪信息的带宽、小于正确情绪带宽。因为每个人脸每次在做表情时的正确情绪信息与错误情绪的信息的带宽是时变的，因此本发明研发了一种“金字塔式图像多尺度变频结构”，该结构能够做到从多尺度实施对图像频率的平移，从而满足最大程度地滤除错误情绪信息，保留正确情绪信息这一需求。而图像频移将利用傅里叶变换性质中的时移特性，研制了一种能够运行在这种金字塔式结构中的简单方便的图像频移方法。

根据本发明实施例，在将原始人脸图像进行多尺度的变频缩放之前，情绪识别方法还包括：对原始人脸图像进行3D建模，并对非正面的原始人脸图像模型进行姿态旋转，得到正面原始人脸图像模型，转换正面原始人脸图像模型为正面原始人脸图像。

根据本发明实施例，例如通过引入深度学习正面化模型，对照片中人脸实施3D建模、并进行姿态旋转到正面的方案，实现任意姿态人脸正面化、为后续实现高精度的表情识别奠定基础。

图2示意性示出了本发明实施例任意姿态非正面的正脸重建过程图。

根据本发明实施例，如图2所示，本发明例如采用PRNet深度学习网络(但不局限于PRNet，也可以选用其它人脸三维重建方法)实现人脸3D建模和正面化。

根据本发明实施例，正面化的过程中，会造成远离摄像头的那部分区域出现模糊的问题，因为这些区域远离摄像头，包含的像素点原本就很少。这些模糊区域与不对称的表情相结合，会产生错误的表情信息、干扰表情识别。

根据本发明实施例，本发明研制了一种金字塔式图像多尺度变频结构，可实现对深度学习处理能力的增强，但对于输入数据，并不局限于上述的重建正脸，对于任意姿态人脸的情绪识别都会达到同样的好效果。

S102，识别多张缩放图像中的正确情绪特征信息和错误情绪特征信息，并滤除多张缩放图像中的错误情绪特征信息，得到对应的多张特征图。

根据本发明实施例，正确情绪特征信息的频带宽度大于错误情绪特征信息的频带宽度，识别多张缩放图像中的正确情绪特征信息和错误情绪特征信息，并滤除多张缩放图像中的错误情绪特征信息例如包括：通过具有滤波能力的多层卷积网络对多张特征图中包括的错误情绪特征信息进行过滤；其中，具有滤波能力的多层卷积网络中的各层卷积网络分别与多张特征图一一对应，各卷积网络通带的频率与对应的特征图中包括的正确情绪特征信息的频带至少部分重合。

根据本发明实施例，在本发明的情绪识别方法中，预设至少一个具有滤波能力的多层卷积网络，每个具有滤波能力的多层卷积网络分别对应处理一种正确情绪特征信息。

根据本发明实施例，目前用于表情识别最多，也是性能最好的方法例如包括深度学习方法。深度学习的核心包括通过预先建立好的卷积网络提取图像中的表情特征，实施表情识别。卷积网络的卷积运算的实质是滤波器，通过建立数目庞大的级联滤波器组提取图像信息。滤波器会保留图像中频率与自己通带相同的图像信息，而其它频率的图像信息都会被滤除。深度学习在训练过程中会为每一种表情都建立一组与之对应的级联滤波器组，每组滤波器的通带和与之对应的表情的频带是相一致的。

图3示意性示出了本发明实施例的卷积神经网络对原始人脸图像中正确和错误表情信息处理过程的频谱图。为了显示方便，每种表情只显示了一个滤波器。

根据本发明实施例，如图3所示，(a)中左边的频带表示正确表情信息和右边的频带表示错误表情信息。(b)中显示出与正确表情信息对应的卷积神经网络滤波器的通带。(c)中显示出正确表情信息的滤波结果的频谱。(d)中显示出与错误表情信息对应的卷积神经网络滤波器的通带。(e)中显示出错误表情信息的滤波结果的频谱。由图3可知，正确表情信息(正确情绪信息)的频带宽度大于错误表情信息(错误情绪信息)的频带宽度，对原始图像进行直接滤波并不能消除错误表情信息。

因此，根据本发明实施例，考虑到上边推导的正确表情的信息带宽要大于错误表情的带宽，如果通过对图像频率的整体频移，会出现这样一种情况，即当错误表情因为是窄带信息被移出其对应滤波器通带而被滤除时，正确表情信息因为是宽带信息，仍会与和其对应的滤波器的通带之间有一定的重合，正确信息会被部分保留。通过这样的图像频率整体平移的方案，可以利用深度学习的卷积网络有效滤除错误的表情信息，而保留很大部分的正确表情信息，由此可实现准确的表情识别。

图4示意性示出了本发明实施例的卷积神经网络对图像频移后的人脸图像中正确和错误表情信息处理过程的频谱图。

根据本发明实施例，如图4所示，(a)中左边的频带表示图像频移后的正确表情信息和右边的频带表示图像频移后的错误表情信息。(b)中显示出与正确表情信息对应的卷积神经网络滤波器的通带。(c)中显示出图像频移后的正确表情信息的滤波结果的频谱。(d)中显示出与错误表情信息对应的卷积神经网络滤波器的通带。(e)中显示出图像频移后的错误表情信息的滤波结果的频谱。由图4可知，卷积神经网络滤波器将绝大部分的错误表情信息滤除了，同时，留下了明显的正确表情信息。

S103，识别多张特征图中人脸的左半脸和右半脸的情绪特征信息，得到多张缩放图像中左半脸和右半脸的情绪特征信息识别结果。

根据本发明实施例，识别多张特征图中人脸的左半脸和右半脸的情绪特征信息例如包括：依次在多张特征图中人脸的各个位置建立敏感区。分别检测多张左半脸与右半脸特征图中的敏感区，识别各敏感区的情绪特征信息。

根据本发明实施例，分别检测多张左半脸与右半脸特征图中的敏感区，识别各敏感区的情绪特征信息例如包括：当多张缩放图像为多张放大图像，且当前检测多张放大图像中的其中半张脸时，以半张脸的眼睛为中心，切除至少部分多张放大图像中的另外半张脸的图像区域，使剩余的多张放大图像的面积与原始人脸图像相同；当多张放大图像为多张缩小图像，且当前检测多张缩小图像中的其中半张脸时，以半张脸的眼睛为中心，增加人脸图像四周的环境背景到多张缩小图像中，使新形成的多张缩小图像的面积与原始人脸图像相同；分别检测与所述多张缩放图像对应的所述多张特征图中左半脸与右半脸的敏感区，识别各敏感区的情绪特征信息。根据本发明实施例，本发明的金字塔式图像多尺度变频结构，除了多尺度频移消除错误情绪信息，还可以为情绪识别带来另一个很大的益处，即可以充分利用深度学习特征图的敏感区域提升对正确表情信息的提取量。深度学习特征图是指深度学习多层卷积层运算后输出的结果，其尺寸是原始图像缩小数倍后的结果，充满了从人脸中提取的情绪特征(即卷积层滤波器滤出的正确情绪信息)，各个器官(眼、眉、额、嘴、颊)情绪信息在特征图中的位置与原始人脸中该器官的位置对应(只是尺寸缩小数倍)。在得到特征图之后，深度学习例如可以通过预先在样本数据集进行训练，在特征图中的各个位置建立一系列的敏感区检测对应的情绪特征信息(如脸颊敏感区可检测特征图脸颊对应位置的表情特征信息)。敏感区的建立例如可以通过深度学习的全连接层(位于卷积层运算之后)实现，也可以通过样本数据集预先训练建立。根据全体敏感区检测到的表情特征信息的总量，即可实施表情识别。正确表情特征信息的总量越大，识别结果越精确。

对于传统的人脸情绪识别，每次是将一整张人脸直接送入深度学习算法，获取特征图，然后左侧脸对应左侧脸的敏感区域进行情绪特征信息采集，右侧脸对应右侧脸的敏感区域进行情绪特征信息采集，由于表情的不对称，正确情绪弱的那半张脸会拉低整体敏感区域对特征图中人脸情绪特征的提取总量，导致最终表情识别结果的准确度低、甚至是错误。

根据本发明实施例，本发明的方法能解决这一问题，金字塔图像多尺度变频结构能有效增加特征图敏感区域检测到的正确特征信息的总量。本发明例如分别对左右半脸的金字塔图像进行多尺度变频，并非只对左右半脸处理，而是变换了在图像中人脸的中心。传统处理是以面部中心为图像中心送入深度学习。而本发明对左半脸的处理以左眼为中心，整体图像向右平移，但能在图像中保留右半脸中的一部分图像；右半脸的处理以右眼为中心，整体图像向左平移，但能在图像中保留左半脸中的一部分图像。

图5示意性示出了本发明实施例正面化后金字塔式图像多尺度变频结构的图像处理过程图。

根据本发明实施例，如图5所示，以左半脸处理为例，具体处理过程例如为：

在金字塔结构放大图像时，平移图像到以左眼为图像中心，切去放大后超过原图像的外围人脸区域，确保放大的人脸与原始人脸尺寸一样。在不同图像放大尺度下，右半脸被切除的量越来越大，直至左脸彻底占满全部图像，在这一过程中，左脸的特征信息在特征图中会逐渐覆盖深度学习在训练时为左右半脸各自的敏感区，相当于半脸中的同一特征被特征图中左右脸的两个敏感区域同时检测(错误信息已被金字塔的频移过程滤除)，敏感区域(右脸的敏感区域，因为以左眼为中心时，放大图像时，图像向右平移)检测到的正确信息接近原来2倍的量(可以保证大于1倍、最大值接近2倍，具体的倍数要根据右半脸在尺度放大后图像中的保留量而定)、相当于放大情绪特征信息近两倍，非常有利于提升情绪识别准确度。以左脸颊为例，不同表情的脸颊通常会收缩或舒张(例如高兴时舒张，生气愤怒时收缩)，特征明显，在放大的左脸图像中，左脸颊不但会覆盖自己对应的左脸特征图中的敏感区域，也会随着图像的放大逐渐覆盖右脸颊本应该在特征图中对应的敏感区域。

如果左脸情绪特征强于右脸，敏感区域检测到左脸颊的强(高)情绪特征接近原来2倍的强度，相当于放大情绪特征信息接近两倍，非常有利于提升情绪识别准确度。

如果右脸情绪特征强，左脸特征图对应的敏感区域检测到正确信息也会被增加，提升情绪识别准确度，减小弱情绪左脸在金字塔各层出现的误识别。

在金字塔结构缩小图像时，平移图像到以左眼为图像中心，增加人脸图像四周的环境背景到图像中，确保缩小的人脸与原始人脸尺寸一样。在不同图像缩小尺度下，左脸会逐渐被向右平移、和右半脸一起被平移到原右脸的范围内(此时检测左脸特征信息的是右脸的敏感区域，因为以左眼为中心时图像向右平移)，在这一过程中，对应于特征图右脸各自器官的敏感区域会接收到右脸特征信息，也会接到大量来自左脸的特征信息。相当于一个敏感区域也同时收到了接近两倍的特征信息(错误的情绪信息已经通过图像收缩频移被卷积层滤除掉了)，非常有利于提升情绪识别准确度。

根据本发明实施例，如图5所示，仍以左脸颊为例，左脸颊信息会与被缩小和左移的右脸颊信息一起被特征图中的左脸颊敏感区域检测。因为在建立特征图过程中，向左平移时保留的右脸颊错误的情绪信息已经通过图像收缩频移被卷积层滤除掉了，其正确的情绪信息会和全部左脸颊正确情绪信息一同被左脸颊敏感区域检测，最终检测到的特征信息也会增加(接近2倍，至少大于1倍，具体的倍数要根据右半脸在尺度缩小后，右脸颊进入左脸颊敏感区域的面积而定，此时右脸颊区域基本全都进入到左脸特征图敏感区域中)，也会实现情绪识别准确度的提升。

图6示意性示出了本发明实施例对放大图像敏感区的情绪检测图。

根据本发明实施例，如图6所示，例如左侧粗实线田字格敏感区负责检测左脸颊1区域的情绪信息，右侧粗虚线田字格敏感区负责检测右脸颊2区域的情绪信息。这里只画了4*4格敏感区域，实际可能是48*48或64*64格敏感区域或其他需要的x*x格数，x可以为任意正整数。当以左眼为图像中心时，整体图像向右平移使得检测中心从鼻梁正上方例如眉心的位置转移到左眼，然后将图像放大，从放大后的图像中，可以看到左脸颊1区域的情绪信息可以被左侧粗实线田字格敏感区和右侧粗虚线田字格敏感区同时检测到，即如果左脸颊1区域的情绪特征强于右脸，则右侧粗虚线田字格敏感区检测到的左脸颊1区域的强(高)情绪特征接近原来2倍的强度，相当于放大情绪特征信息接近两倍，即以左右半脸进行原始人脸左右平移，再结合对图像的放大，可以有效实施情绪特征的富集平移，非常有利于提升情绪识别准确度。如果右脸颊2区域的情绪特征强，左脸颊1区域的情绪信息会被左侧粗实线田字格敏感区和右侧粗虚线田字格敏感区共同检测，检测到的正确信息也会被增加，提升情绪识别准确度，减小左脸颊1区域的弱情绪信息在金字塔各层出现误识别。

图7示意性示出了本发明实施例对缩小图像敏感区的情绪检测图。

根据本发明实施例，如图7所示，例如左侧粗实线田字格敏感区负责检测左脸颊1区域的情绪信息，右侧粗虚线田字格敏感区负责检测右脸颊2区域的情绪信息。这里只画了4*4格敏感区域，实际可能是48*48或64*64格敏感区域或其他需要的x*x格数，x可以为任意正整数。当以左眼为图像中心时，整体图像向右平移使得检测中心从鼻梁正上方例如眉心的位置转移到左眼，然后将图像缩小，从缩小后的图像中，可以看到左脸颊1区域的情绪信息和右脸颊2区域的情绪信息可以同时被左侧粗实线田字格敏感区检测到，即在建立特征图过程中，向左平移时保留的右脸颊错误的情绪信息已经通过图像收缩频移被卷积层滤除掉了，其正确的情绪信息会和全部左脸颊正确情绪信息一同被左侧粗实线田字格敏感区检测，最终检测到的特征信息也会增加(接近2倍，至少大于1倍，具体的倍数要根据右半脸在尺度缩小后进入左侧粗实线田字格敏感区的面积而定，此时右脸颊2区域基本全都进入到左侧粗实线田字格敏感区中，即以左右半脸进行原始人脸左右平移，再结合对图像的缩小，可以有效实施情绪特征的富集平移，也会实现情绪识别准确度的提升。

根据本发明实施例，上述过程是针对左脸进行描述，以左眼为中心将图像向右平移的金字塔能增加卷积层输出的特征图被特征图敏感区域检测到的正确情绪特征的信息量，非常有利于提升情绪识别准确度。

根据本发明实施例，对于右脸，同理，以右眼为中心将图像向左平移的金字塔能增加卷积层输出的特征图被特征图敏感区域检测到的正确情绪特征的信息量，非常有利于提升情绪识别准确度。

S104，分别统计多张缩放图像中左半脸和右半脸的情绪特征信息识别结果，将统计结果中出现次数最多的情绪特征信息作为最终的情绪识别结果。

根据本发明实施例，分别统计多张缩放图像中左半脸和右半脸的情绪特征信息识别结果，将统计结果中出现次数最多的情绪特征信息作为最终的情绪识别结果包括：分别统计多张缩放图像中的左半脸和右半脸的各种情绪特征信息出现的总次数，和/或，分别计算左半脸和右半脸在多张缩放图像中的各种情绪特征信息的识别率的加和值；比较左半脸和右半脸上出现的各种情绪特征信息的总次数，和/或，比较左半脸和右半脸的各种情绪特征信息的识别率的加和值；将出现的总次数最多的情绪特征信息作为最终的情绪识别结果，和/或，将识别率加和值最大的情绪特征信息作为最终的情绪识别结果。左半脸和右半脸的多张缩放图像一起构成双金字塔结构，这样不论左脸特征强，还是右脸特征强，都可以通过本发明的情绪识别方法提取出包含最强情绪特征的半脸的识别结果作为最终的情绪识别结果。

根据本发明实施例，对于左右半脸因表情不对称所引起的干扰，例如可以通过统计各自半脸在金字塔式图像多尺度变频结构每个尺度中的识别结果来解决该问题。找出每个半脸在各层识别结果中重复次数最多的表情识别结果就是真实表情。该金字塔结构中大部分图像尺寸缩放层，会将错误的表情信息消除，表情识别的精度会很高。但为了确保识别结果的可信度更高，例如可以以包含正确表情多的那半脸作为最终的表情识别结果。具体过程例如包括：因为每个人脸的左右半脸的表情不对称，其中有一半脸包含的正确表情会更多，因此在其中一个半脸的识别结果中正确的表情识别结果出现的次数会远多于另外一个半脸，因此分别统计左右半脸在金字塔结构的各层中表情识别结果最多的那种情绪，及识别次数和对于该情绪的总识别率(各层识别出该情绪时的识别率加和)，并对比这些指标实施情绪识别。

图8示意性示出了本发明实施例的金字塔式图像多尺度变频结构图。

根据本发明实施例，如图8所示，若左半脸各层识别结果最多的那种情绪的次数大于右半脸各层识别结果最多的那种情绪的次数，则左半脸识别结果最多的那种情绪作为最终的情绪识别结果。反之，则右半脸识别结果最多的那种情绪作为最终的情绪识别结果。

若左半脸识别结果最多的那种情绪的次数等于右半脸识别结果最多的那种情绪的次数，则对比左半脸识别结果最多的那种情绪在各层的识别率加和值与右半脸(即右半脸识别结果最多的那种情绪在各层的识别率加和值)进行对比，以加和值最大的对应的情绪识别结果作为最终的情绪识别结果。

根据本发明实施例，为了避免出现左右半脸识别率加和值相等的情况，本发明对金字塔结构各层识别率结果会多保留一些小数位数，例如保留至少两位小数位数。

图9示意性示出了本发明实施例的原始人脸图。

图10示意性示出了本发明实施例的表情识别结果图。

图11示意性示出了本发明实施例的Face++表情识别平台的表情识别结果图。

结合图9、图10和图11可知，通过本发明实施例的情绪识别方法可以准确的识别出原始人脸图中的表情为高兴，而著名的Face++表情识别平台由于未加处理直接使用原始人脸来识别，误将该人脸识别为“恐惧”(如长条所示)。

根据本发明实施例，本发明研制的表情识别方法，首先设计任意姿态人脸为正脸的方法，通过正面化实现表情识别。并且针对表情不对称这一常见问题，提出了能增强深度学习处理能力的金字塔式图像多尺度变频结构，用以滤除因表情不对称，及侧脸重建正脸中产生的模糊区域等造成的错误表情信息，并可以有效保存正确的表情信息、大幅提升信噪比，表情识别的准确率非常高。

综上所述，本发明实施例提出一种情绪识别方法。通过将原始人脸图像进行多尺度变频缩放，不同程度地改变了原始人脸图像的频率，再对变频后不同带宽频率的表情信息进行滤波，滤除错误的表情信息，留下正确的表情信息，再通过深度学习卷积神经网络分别对左右半脸滤波后的正确表情进行信息提取，统计出现次数最多的情绪，达到正确识别原始图像情绪的效果，通过多尺度变频缩放，以眼睛为中心来识别原始图像，也增加了敏感区能够检测到的情绪信息量，通过本发明的情绪识别方法，大大提高了情绪识别的准确率。

图12示意性示出了本发明实施例的情绪识别系统框图。

根据本发明实施例，如图12所示，本发明另一方面提供一种情绪识别系统1200，例如包括：

变频缩放模块1210，用于将原始人脸图像进行多尺度的变频缩放，获得大小不同的多张缩放图像。

滤错模块1220，用于识别多张缩放图像中的正确情绪特征信息和错误情绪特征信息，并滤除多张缩放图像中的错误情绪特征信息，得到对应的多张特征图。

识别模块1230，用于识别多张特征图中人脸的左半脸和右半脸的情绪特征信息，得到多张缩放图像中左半脸和右半脸的情绪特征信息识别结果。

统计输出模块1240，用于分别统计多张缩放图像中左半脸和右半脸的情绪特征信息识别结果，将统计结果中出现次数最多的情绪特征信息作为最终的情绪识别结果输出。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种情绪识别方法，其特征在于，包括：

将原始人脸图像进行多尺度的变频缩放，获得大小不同的多张缩放图像；

识别所述多张缩放图像中的正确情绪特征信息和错误情绪特征信息，并滤除所述多张缩放图像中的错误情绪特征信息，得到对应的多张特征图；

识别所述多张特征图中人脸的左半脸和右半脸的情绪特征信息，得到所述多张缩放图像中左半脸和右半脸的情绪特征信息识别结果；

分别统计所述多张缩放图像中左半脸和右半脸的情绪特征信息识别结果，将统计结果中出现次数最多的情绪特征信息作为最终的情绪识别结果。

2.根据权利要求1所述的情绪识别方法，其特征在于，所述将原始人脸图像进行多尺度的变频缩放，获得大小不同的多张缩放图像包括：

将所述原始人脸图像进行至少一次不同倍数的放大和至少一次不同倍数的缩小，获得至少一张放大的人脸图像和至少一张缩小的人脸图像；

其中，对所述原始人脸图像进行缩放时，所述正确情绪特征信息和所述错误情绪特征信息在频域上的频带发生频移，频移大小与缩放倍数关联。

3.根据权利要求2所述的情绪识别方法，其特征在于，所述正确情绪特征信息的频带宽度大于所述错误情绪特征信息的频带宽度，所述识别所述多张缩放图像中的正确情绪特征信息和错误情绪特征信息，并滤除所述多张缩放图像中的错误情绪特征信息包括：

通过具有滤波能力的多层卷积网络对所述多张特征图中包括的错误情绪特征信息进行过滤；

其中，所述具有滤波能力的多层卷积网络中的各层卷积网络分别与所述多张特征图一一对应，各所述卷积网络通带的频率与对应的所述特征图中包括的正确情绪特征信息的频带至少部分重合。

4.根据权利要求3所述的情绪识别方法，其特征在于，在所述情绪识别方法中，预设至少一个所述具有滤波能力的多层卷积网络，每个所述具有滤波能力的多层卷积网络分别对应处理一种正确情绪特征信息。

5.根据权利要求1所述的情绪识别方法，其特征在于，所述识别所述多张特征图中人脸的左半脸和右半脸的情绪特征信息包括：

依次在所述多张特征图中人脸的各个位置建立敏感区；

分别检测所述多张左半脸与右半脸特征图中的敏感区，识别各所述敏感区的情绪特征信息。

6.根据权利要求5所述的情绪识别方法，其特征在于，所述分别检测所述多张左半脸与右半脸特征图中的敏感区，识别各所述敏感区的情绪特征信息包括：

当所述多张缩放图像为多张放大图像，且当前检测所述多张放大图像中的其中半张脸时，以所述半张脸的眼睛为中心，切除至少部分所述多张放大图像中的另外半张脸的图像区域，使剩余的所述多张放大图像的面积与所述原始人脸图像相同；

当所述多张缩放图像为多张缩小图像，且当前检测所述多张缩小图像中的其中半张脸时，以所述半张脸的眼睛为中心，增加人脸图像四周的环境背景到所述多张缩小图像中，使新形成的所述多张缩小图像的面积与所述原始人脸图像相同；

分别检测与所述多张缩放图像对应的所述多张特征图中左半脸与右半脸的敏感区，识别各所述敏感区的情绪特征信息。

7.根据权利要求1所述的情绪识别方法，其特征在于，所述分别统计所述多张缩放图像中左半脸和右半脸的情绪特征信息识别结果，将统计结果中出现次数最多的情绪特征信息作为最终的情绪识别结果包括：

分别统计所述多张缩放图像中的左半脸和右半脸的各种情绪特征信息出现的总次数，和/或，分别计算所述左半脸和所述右半脸在所述多张缩放图像中的各种情绪特征信息的识别率的加和值；

比较所述左半脸和所述右半脸上出现的各种情绪特征信息的总次数，和/或，比较所述左半脸和所述右半脸的各种情绪特征信息的识别率的加和值；

将出现的总次数最多的情绪特征信息作为最终的情绪识别结果，和/或，将识别率加和值最大的情绪特征信息作为最终的情绪识别结果。

8.根据权利要求7所述的情绪识别方法，其特征在于，所述识别率至少包括两位小数位。

9.根据权利要求1所述的情绪识别方法，其特征在于，在所述将原始人脸图像进行多尺度的变频缩放之前，情绪识别方法还包括：

对所述原始人脸图像进行3D建模，并对非正面的原始人脸图像模型进行姿态旋转，得到正面原始人脸图像模型，转换所述正面原始人脸图像模型为正面原始人脸图像。

10.一种情绪识别系统，其特征在于，包括：

变频缩放模块，用于将原始人脸图像进行多尺度的变频缩放，获得大小不同的多张缩放图像；

滤错模块，用于识别所述多张缩放图像中的正确情绪特征信息和错误情绪特征信息，并滤除所述多张缩放图像中的错误情绪特征信息，得到对应的多张特征图；

识别模块，用于识别所述多张特征图中人脸的左半脸和右半脸的情绪特征信息，得到所述多张缩放图像中左半脸和右半脸的情绪特征信息识别结果；

统计输出模块，用于分别统计所述多张缩放图像中左半脸和右半脸的情绪特征信息识别结果，将统计结果中出现次数最多的情绪特征信息作为最终的情绪识别结果输出。