CN113920561A - 一种基于零样本学习的人脸表情识别方法及装置 - Google Patents

一种基于零样本学习的人脸表情识别方法及装置 Download PDF

Info

Publication number
CN113920561A
CN113920561A CN202111111549.4A CN202111111549A CN113920561A CN 113920561 A CN113920561 A CN 113920561A CN 202111111549 A CN202111111549 A CN 202111111549A CN 113920561 A CN113920561 A CN 113920561A
Authority
CN
China
Prior art keywords
image
attribute
similarity
facial expression
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111111549.4A
Other languages
English (en)
Inventor
李辉辉
肖湘玲
郭建华
刘晓勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN202111111549.4A priority Critical patent/CN113920561A/zh
Publication of CN113920561A publication Critical patent/CN113920561A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于零样本学习的人脸表情识别方法及装置,其中,所述方法包括:接收输入的人脸图像,并基于深度神经网络模型提取所述人脸图像的图像特征;将所述图像特征转化为图像语义向量;从数据库中提取多种人脸表情对应的属性文本信息,并将属性文本信息转化为属性语义向量;计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度,获得相似度计算结果;基于所述相似度计算结果中最大相似度对应的人脸表情类型最为所述人脸图像对应的人脸表情类型。在本发明实施例中,能够稳定迅速识别出人脸图像所对应的人脸表情类型,减少重复性工作;并且无需进行相关的样本训练,解决人脸表情训练数据不足、训练数据质量差的问题。

Description

一种基于零样本学习的人脸表情识别方法及装置
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于零样本学习的人脸表情识别方法及装置。
背景技术
在人类的日常交流中,表情是传递信息最多的方式,占比达到55%,远高于声音(38%)和语言(7%)。尽管大脑控制表情产生的内在机理尚未清楚,但表情是大脑状态表现出来的特征,其在诱发表情的刺激消失后还能持续一段时间,因此表情是可识别的。目前,人脸表情识别已是人机交互的核心,应用广泛,例如智能陪伴机器人,实现人机情感交流;智慧教室,判定学生的学习情绪状态;智能驾驶,判定驾驶员的情绪状态等,因此人脸表情识别是目前的研究热点。
人脸表情识别涉及人工智能、心理学、生物学、认知科学等多学科交叉,尽管已取得一定进展,但还存在很多困难。首先,表情识别缺乏大规模的高质量表情数据集,因为大规模表情样本的标注是很困难的,部分表情如厌恶、恐惧、伤心又难以激发,表情数据集的非平衡状态严重。其次,现有表情类别之间存在相互作用,如恐惧容易让人愤怒,但其抑制高兴,说明恐惧和愤怒、高兴之间有不同的相互作用,容易导致表情类别之间的定向误分问题。第三,人脸表情因采集个体人脸图像时可能受光照、遮挡、姿态等的影响,还与个体的年龄、性别、种族等不同而表现出较大差异,增加了准确识别表情的难度。
表情识别需要有丰富的专家知识,因此急需智能工具的辅助。目前智能工具研究存在以下问题:(1)很少有使用人脸图像进行自动表情识别的研究;(2)目前利用人脸图像识别表情的研究中,没有同时考虑专家知识和深度学习的表情识别相结合的方法;(3)现有的高质量人脸表情数据集不足。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种基于零样本学习的人脸表情识别方法及装置,能够稳定迅速识别出人脸图像所对应的人脸表情类型,减少重复性工作;并且无需进行相关的样本训练,解决人脸表情训练数据不足、训练数据质量差的问题。
为了解决上述技术问题,本发明实施例还提供了一种基于零样本学习的人脸表情识别方法,所述方法包括:
接收输入的人脸图像,并基于深度神经网络模型提取所述人脸图像的图像特征;
将所述图像特征转化为图像语义向量;
从数据库中提取多种人脸表情对应的属性文本信息,并将所述属性文本信息转化为属性语义向量;
计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度,获得相似度计算结果;
基于所述相似度计算结果中最大相似度对应的人脸表情类型最为所述人脸图像对应的人脸表情类型。
可选的,所述接收输入的人脸图像,包括:
接收图像采集设备采集的采集图像,并将所述采集图像输入目标检测网络模型中进行人脸检测,并裁剪出采集图像中的人脸区域图像,所述人脸区域图像大小为224*224;
对所述人脸区域图像进行图像颜色归一化处理,并形成输入的人脸图像。
可选的,所述深度神经网络模型为以残差网络模型为主干网络搭建18层的网络模型;其中,所述深度神经网络模型的全连接层的输入维度为512,输出维度为512;所述深度神经网络模型的平均池化层的卷积核大小为7*7、步长为1、卷积核数目为512。
可选的,所述将所述图像特征转化为图像语义向量,包括:
在所述深度神经网络模型中的原有连接层之后增设一个第二全连接层,其中,所述第二全连接层的输入维度为512,输出维度为15;
将所述深度神经网络模型输出的图像特征经过所述第二全连接层进行转化处理,获得输出的图像语义向量。
可选的,所述将所述深度神经网络模型输出的图像特征经过所述第二全连接层进行转化处理的公式如下:
Figure BDA0003274056670000031
其中,
Figure BDA0003274056670000032
表示图像语义向量;θ(x)表示所述深度神经网络模型输出的d维图像特征;θ(x)T表示θ(x)的转置;W表示第二全连接层的参数。
可选的,所述多种人脸表情包括:生气、高兴、悲伤、害怕、惊奇、讨厌、中性;
所述属性文本信息包括眉毛是否上扬、下垂、并拢和紧锁,眼镜是否怒视、眯眼和瞪大,嘴唇是否紧锁、上嘴唇上扬和微微张开,嘴角是否翘起和微微下拉,皱纹是否印堂和眼尾,其他。
可选的,所述将所述属性文本信息转化为属性语义向量,包括:
在所述属性文本信息中存在对应的表情属性的用1表示,不存在的用0表示;
基于属性文本信息中对应的表情属性的表示转化为属性语义向量;
其中,所述属性语义向量与所述图像语义向量的维度相同。
可选的,所述计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度,包括:
基于内积计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度;
计算公式如下:
Figure BDA0003274056670000033
其中,
Figure BDA0003274056670000034
表示图像语义向量,φ(y)表示每种人脸表情对应的所述属性语义向量;sy(x)表示相似度计算结果。
可选的,所述基于所述相似度计算结果中最大相似度对应的人脸表情类型最为所述人脸图像对应的人脸表情类型,包括:
基于所述相似度计算结果获得所述图像语义向量与每一个人脸表情类型对应的相似度;
取所述图像语义向量与每一个人脸表情类别对应的相似度最大的最为人脸图像对应的人脸表情类型;
具体公式如下:
Figure BDA0003274056670000041
其中,y*表示所述图像语义向量与每一个表情类别对应的相似度中的最大值;sy(x)表示相似度计算结果;Y表示人脸表情类型。
另外,本发明实施例还提供了一种基于零样本学习的人脸表情识别装置,所述装置包括:
特征提取模块:用于接收输入的人脸图像,并基于深度神经网络模型提取所述人脸图像的图像特征;
第一转化模块:用于将所述图像特征转化为图像语义向量;
第二转化模块:用于从数据库中提取多种人脸表情对应的属性文本信息,并将所述属性文本信息转化为属性语义向量;
相似度计算模块:用于计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度,获得相似度计算结果;
表情识别模块:用于基于所述相似度计算结果中最大相似度对应的人脸表情类型最为所述人脸图像对应的人脸表情类型。
在本发明实施例中,能够稳定迅速识别出人脸图像所对应的人脸表情类型,减少重复性工作;并且无需进行相关的样本训练,解决人脸表情训练数据不足、训练数据质量差的问题;并且提供了深度学习与专家领域知识结合的思路,提高了人脸表情识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例中的基于零样本学习的人脸表情识别方法的流程示意图;
图2是本发明实施例中的基于零样本学习的人脸表情识别装置的结构组成示意图;
图3是本发明实施例中的对抗网络模型的结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
请参阅图1,图1是本发明实施例中的基于零样本学习的人脸表情识别方法的流程示意图。
如图1所示,一种基于零样本学习的人脸表情识别方法,所述方法包括:
S11:接收输入的人脸图像,并基于深度神经网络模型提取所述人脸图像的图像特征;
在本发明具体实施过程中,所述接收输入的人脸图像,包括:接收图像采集设备采集的采集图像,并将所述采集图像输入目标检测网络模型中进行人脸检测,并裁剪出采集图像中的人脸区域图像,所述人脸区域图像大小为224*224;对所述人脸区域图像进行图像颜色归一化处理,并形成输入的人脸图像。
进一步的,所述深度神经网络模型为以残差网络模型为主干网络搭建18层的网络模型;其中,所述深度神经网络模型的全连接层的输入维度为512,输出维度为512;所述深度神经网络模型的平均池化层的卷积核大小为7*7、步长为1、卷积核数目为512。
具体的,通过图像采集设备采集图像,让后将该采集图像输入,然后接收到图像采集设备采集的采集图像,并将该采集图像输入目标检测网络模型(Faster R-CNN)中进行人脸检测并裁剪出采集图像中的人脸区域图像,所述人脸区域图像大小为224*224,通过裁剪,可以得到采集图像中更加精确的人脸图像区域;然后需要对裁剪的人脸图像进行图像颜色归一化处理,即所有图像的每个颜色通道的各个像素减去该通道的像素平均值然后除以该通道的像素标准差;将归一化的人脸图像作为输入人脸图像。
该深度神经网络采用残差网络模型ResNet,它是2015年提出的深度卷积神经网络,获得过ILSVRC图像识别竞的赛冠军;在本申请中,使用ResNet模型作为模型的主干网络,搭建18层的残差网络ResNet18,θ(x)表示图片经过神经网络提取出的d维特征向量,位于图中的倒数第二层(FC,512),表示全连接层,输出的特征向量为512,即d=512。本发明搭建的深度神经网络按顺序排列每一层的参数配置如表1所示。
表1.深度神经网络结构参数表
Figure BDA0003274056670000061
其中“3x3 conv,64”表示的是卷积层,它的卷积核大小是3x3,卷积核个数是64,具体参数如上表所示;其中“3x3 conv,128,/2”表示的是卷积层,它的卷积核大小是3x3,卷积核个数是64,同时步长为2,具体参数如上表所示;其中“3x3 conv,128”表示的是卷积层,它的卷积核大小是3x3,卷积核个数是128,具体参数如上表所示;其中“3x3 conv,256,/2”表示的是卷积层,它的卷积核大小是3x3,卷积核个数是256,同时步长为2,具体参数如上表所示;其中“3x3 conv,256”表示的是卷积层,它的卷积核大小是3x3,卷积核个数是256,具体参数如上表所示;其中“3x3 conv,512,/2”表示的是卷积层,它的卷积核大小是3x3,卷积核个数是512,同时步长为2,具体参数如上表所示;其中“3x3 conv,512”表示的是卷积层,它的卷积核大小是3x3,卷积核个数是512,具体参数如上表所示;其中“Avg pool'’表示的是平均池化层,具体的参数如上表所示;其中“FC,512”表示的是全连接层,输出的维度是512;其中“FC,15”表示的是全连接层,输出的维度是15。
然后将该人脸图像输入该于深度神经网络模型进行图像特征提取处理,输出该人脸图像的图像特征。
S12:将所述图像特征转化为图像语义向量;
在本发明具体实施过程中,所述将所述图像特征转化为图像语义向量,包括:在所述深度神经网络模型中的原有连接层之后增设一个第二全连接层,其中,所述第二全连接层的输入维度为512,输出维度为15;将所述深度神经网络模型输出的图像特征经过所述第二全连接层进行转化处理,获得输出的图像语义向量。
进一步的,所述将所述深度神经网络模型输出的图像特征经过所述第二全连接层进行转化处理的公式如下:
Figure BDA0003274056670000071
其中,
Figure BDA0003274056670000072
表示图像语义向量;θ(x)表示所述深度神经网络模型输出的d维图像特征;θ(x)T表示θ(x)的转置;W表示第二全连接层的参数。
具体的,即在该深度神经网络的全连接层增设一个第二全连接层,该第二全连接层的输入维度为512,输出维度为15;即可实现将深度神经网络模型输出的图像特征经过该第二全连接层进行转化处理,获得输出的图像语义向量。
既有如下公式:
Figure BDA0003274056670000081
其中,
Figure BDA0003274056670000082
表示图像语义向量;θ(x)表示所述深度神经网络模型输出的d维图像特征;θ(x)T表示θ(x)的转置;W表示第二全连接层的参数。
S13:从数据库中提取多种人脸表情对应的属性文本信息,并将所述属性文本信息转化为属性语义向量;
在本发明具体实施过程中,所述多种人脸表情包括:生气、高兴、悲伤、害怕、惊奇、讨厌、中性;所述属性文本信息包括眉毛是否上扬、下垂、并拢和紧锁,眼镜是否怒视、眯眼和瞪大,嘴唇是否紧锁、上嘴唇上扬和微微张开,嘴角是否翘起和微微下拉,皱纹是否印堂和眼尾,其他。
进一步的,所述将所述属性文本信息转化为属性语义向量,包括:在所述属性文本信息中存在对应的表情属性的用1表示,不存在的用0表示;基于属性文本信息中对应的表情属性的表示转化为属性语义向量;其中,所述属性语义向量与所述图像语义向量的维度相同。
具体的,心理学家P.Ekman和W.V.Friesen经过长期的实证研究发现,人脸表情具有共性和普适性,其具体表现形式不受种族、性别、年龄、文化背景等因素的影响,于1971年提出人类共有生气(Anger)、高兴(Joy)、悲伤(Sadness)、害怕(Fear)、惊奇(Surprise)、讨厌(Disgust)六种主要人脸表情。在实际应用中,通常包含中性(Neutral)或无情感构成常见的七种基本型情感。即:
Y={分别是:生气、高兴、悲伤、害怕、惊奇、讨厌、中性}。
根据专家知识,每种表情由15维的属性语义向量表示,该表情有的属性取1,否则取0,这些属性语义向量预先保存在数据库中。例如:φ(生气)=(0 1 1 0 1 0 0 1 0 0 00 0 0 0)表示生气表情的属性语义向量。φ(高兴)=(0 0 0 0 0 0 0 0 0 0 1 0 0 1 0)表示高兴表情的属性语义向量。具体如表2.
表2
Figure BDA0003274056670000083
Figure BDA0003274056670000091
S14:计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度,获得相似度计算结果;
在本发明具体实施过程中,所述计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度,包括:基于内积计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度;计算公式如下:
Figure BDA0003274056670000092
其中,
Figure BDA0003274056670000093
表示图像语义向量,φ(y)表示每种人脸表情对应的所述属性语义向量;sy(x)表示相似度计算结果。
具体的,根据输入人脸图像的图像语义向量,本实施案例计算其与每个表情类型y的属性语义向量之间的相似度sy,方法采用两者的内积:
Figure BDA0003274056670000094
其中,
Figure BDA0003274056670000095
表示图像语义向量,φ(y)表示每种人脸表情对应的所述属性语义向量;sy(x)表示相似度计算结果。
S15:基于所述相似度计算结果中最大相似度对应的人脸表情类型最为所述人脸图像对应的人脸表情类型。
在本发明具体实施过程中,所述基于所述相似度计算结果中最大相似度对应的人脸表情类型最为所述人脸图像对应的人脸表情类型,包括:基于所述相似度计算结果获得所述图像语义向量与每一个人脸表情类型对应的相似度;取所述图像语义向量与每一个人脸表情类别对应的相似度最大的最为人脸图像对应的人脸表情类型;
具体公式如下:
Figure BDA0003274056670000096
其中,y*表示所述图像语义向量与每一个表情类别对应的相似度中的最大值;sy(x)表示相似度计算结果;Y表示人脸表情类型。
具体的,根据相似度计算结果得到述图像语义向量与每一个人脸表情类型对应的相似度;,然后取图像语义向量与每一个人脸表情类别对应的相似度最大的最为人脸图像对应的人脸表情类型;即如下:
Figure BDA0003274056670000101
其中,y*表示所述图像语义向量与每一个表情类别对应的相似度中的最大值;sy(x)表示相似度计算结果;Y表示人脸表情类型。
在本发明中,还包括利用属性语义向量生成新的人脸图像最为输入人脸图像,用于对人脸表情识别方法进行训练数据的增强并提升后续的人脸表情识别的精度;即生成对抗网络(GAN)是由Ian Goodfellow于2014年首次提出的,其初衷即生成不存在于真实世界的数据,类似于AI具有创造力和想象力。GAN的结构主要包括生成器G(Generator)和判别器D(Discriminator)。生成器能够通过输入一个向量对应输出一张图像;而判别器是用来判别图片是来自数据集中的还是来源于生成器中生成的,其输入是图片,输出为判别图片的标签;对抗网络如图3所示,首先根据每个表情类型y,将其对应的属性语义向量Z作为生成器的输入来合成一张Fake图像。其次对合成的图像和训练数据一同输入判别器。接着通过判别器,鉴别真实图像和合成图像同时对图像进行分类。这个合成过程可以补足训练数据集,此外还可以提升分类器的质量。
在本发明实施例中,能够稳定迅速识别出人脸图像所对应的人脸表情类型,减少重复性工作;并且无需进行相关的样本训练,解决人脸表情训练数据不足、训练数据质量差的问题;并且提供了深度学习与专家领域知识结合的思路,提高了人脸表情识别的准确率。
实施例二
请参阅图2,图2是本发明实施例中的基于零样本学习的人脸表情识别装置的结构组成示意图。
如图2所示,一种基于零样本学习的人脸表情识别装置,所述装置包括:
特征提取模块21:用于接收输入的人脸图像,并基于深度神经网络模型提取所述人脸图像的图像特征;
在本发明具体实施过程中,所述接收输入的人脸图像,包括:接收图像采集设备采集的采集图像,并将所述采集图像输入目标检测网络模型中进行人脸检测,并裁剪出采集图像中的人脸区域图像,所述人脸区域图像大小为224*224;对所述人脸区域图像进行图像颜色归一化处理,并形成输入的人脸图像。
进一步的,所述深度神经网络模型为以残差网络模型为主干网络搭建18层的网络模型;其中,所述深度神经网络模型的全连接层的输入维度为512,输出维度为512;所述深度神经网络模型的平均池化层的卷积核大小为7*7、步长为1、卷积核数目为512。
具体的,通过图像采集设备采集图像,让后将该采集图像输入,然后接收到图像采集设备采集的采集图像,并将该采集图像输入目标检测网络模型(Faster R-CNN)中进行人脸检测并裁剪出采集图像中的人脸区域图像,所述人脸区域图像大小为224*224,通过裁剪,可以得到采集图像中更加精确的人脸图像区域;然后需要对裁剪的人脸图像进行图像颜色归一化处理,即所有图像的每个颜色通道的各个像素减去该通道的像素平均值然后除以该通道的像素标准差;将归一化的人脸图像作为输入人脸图像。
该深度神经网络采用残差网络模型ResNet,它是2015年提出的深度卷积神经网络,获得过ILSVRC图像识别竞的赛冠军;在本申请中,使用ResNet模型作为模型的主干网络,搭建18层的残差网络ResNet18,θ(x)表示图片经过神经网络提取出的d维特征向量,位于图中的倒数第二层(FC,512),表示全连接层,输出的特征向量为512,即d=512。本发明搭建的深度神经网络按顺序排列每一层的参数配置如表1所示。
表1.深度神经网络结构参数表
Figure BDA0003274056670000111
Figure BDA0003274056670000121
其中“3x3 conv,64”表示的是卷积层,它的卷积核大小是3x3,卷积核个数是64,具体参数如上表所示;其中“3x3 conv,128,/2”表示的是卷积层,它的卷积核大小是3x3,卷积核个数是64,同时步长为2,具体参数如上表所示;其中“3x3 conv,128”表示的是卷积层,它的卷积核大小是3x3,卷积核个数是128,具体参数如上表所示;其中“3x3 conv,256,/2”表示的是卷积层,它的卷积核大小是3x3,卷积核个数是256,同时步长为2,具体参数如上表所示;其中“3x3 conv,256”表示的是卷积层,它的卷积核大小是3x3,卷积核个数是256,具体参数如上表所示;其中“3x3 conv,512,/2”表示的是卷积层,它的卷积核大小是3x3,卷积核个数是512,同时步长为2,具体参数如上表所示;其中“3x3 conv,512”表示的是卷积层,它的卷积核大小是3x3,卷积核个数是512,具体参数如上表所示;其中“Avg pool”表示的是平均池化层,具体的参数如上表所示;其中“FC,512”表示的是全连接层,输出的维度是512;其中“FC,15”表示的是全连接层,输出的维度是15。
然后将该人脸图像输入该于深度神经网络模型进行图像特征提取处理,输出该人脸图像的图像特征。
第一转化模块22:用于将所述图像特征转化为图像语义向量;
在本发明具体实施过程中,所述将所述图像特征转化为图像语义向量,包括:在所述深度神经网络模型中的原有连接层之后增设一个第二全连接层,其中,所述第二全连接层的输入维度为512,输出维度为15;将所述深度神经网络模型输出的图像特征经过所述第二全连接层进行转化处理,获得输出的图像语义向量。
进一步的,所述将所述深度神经网络模型输出的图像特征经过所述第二全连接层进行转化处理的公式如下:
Figure BDA0003274056670000131
其中,
Figure BDA0003274056670000132
表示图像语义向量;θ(x)表示所述深度神经网络模型输出的d维图像特征;θ(x)T表示θ(x)的转置;W表示第二全连接层的参数。
具体的,即在该深度神经网络的全连接层增设一个第二全连接层,该第二全连接层的输入维度为512,输出维度为15;即可实现将深度神经网络模型输出的图像特征经过该第二全连接层进行转化处理,获得输出的图像语义向量。
既有如下公式:
Figure BDA0003274056670000133
其中,
Figure BDA0003274056670000134
表示图像语义向量;θ(x)表示所述深度神经网络模型输出的d维图像特征;θ(x)T表示θ(x)的转置;W表示第二全连接层的参数。
第二转化模块23:用于从数据库中提取多种人脸表情对应的属性文本信息,并将所述属性文本信息转化为属性语义向量;
在本发明具体实施过程中,所述多种人脸表情包括:生气、高兴、悲伤、害怕、惊奇、讨厌、中性;所述属性文本信息包括眉毛是否上扬、下垂、并拢和紧锁,眼镜是否怒视、眯眼和瞪大,嘴唇是否紧锁、上嘴唇上扬和微微张开,嘴角是否翘起和微微下拉,皱纹是否印堂和眼尾,其他。
进一步的,所述将所述属性文本信息转化为属性语义向量,包括:在所述属性文本信息中存在对应的表情属性的用1表示,不存在的用0表示;基于属性文本信息中对应的表情属性的表示转化为属性语义向量;其中,所述属性语义向量与所述图像语义向量的维度相同。
具体的,心理学家P.Ekman和W.V.Friesen经过长期的实证研究发现,人脸表情具有共性和普适性,其具体表现形式不受种族、性别、年龄、文化背景等因素的影响,于1971年提出人类共有生气(Anger)、高兴(Joy)、悲伤(Sadness)、害怕(Fear)、惊奇(Surprise)、讨厌(Disgust)六种主要人脸表情。在实际应用中,通常包含中性(Neutral)或无情感构成常见的七种基本型情感。即:
Y={分别是:生气、高兴、悲伤、害怕、惊奇、讨厌、中性}。
根据专家知识,每种表情由15维的属性语义向量表示,该表情有的属性取1,否则取0,这些属性语义向量预先保存在数据库中。例如:φ(生气)=(0 1 1 0 1 0 0 1 0 0 00 0 0 0)表示生气表情的属性语义向量。φ(高兴)=(0 0 0 0 0 0 0 0 00 1 0 0 1 0)表示高兴表情的属性语义向量。具体如表2.
表2
Figure BDA0003274056670000141
相似度计算模块24:用于计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度,获得相似度计算结果;
在本发明具体实施过程中,所述计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度,包括:基于内积计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度;计算公式如下:
Figure BDA0003274056670000142
其中,
Figure BDA0003274056670000143
表示图像语义向量,φ(y)表示每种人脸表情对应的所述属性语义向量;sy(x)表示相似度计算结果。
具体的,根据输入人脸图像的图像语义向量,本实施案例计算其与每个表情类型y的属性语义向量之间的相似度sy,方法采用两者的内积:
Figure BDA0003274056670000151
其中,
Figure BDA0003274056670000152
表示图像语义向量,φ(y)表示每种人脸表情对应的所述属性语义向量;sy(x)表示相似度计算结果。
表情识别模块25:用于基于所述相似度计算结果中最大相似度对应的人脸表情类型最为所述人脸图像对应的人脸表情类型。
在本发明具体实施过程中,所述基于所述相似度计算结果中最大相似度对应的人脸表情类型最为所述人脸图像对应的人脸表情类型,包括:基于所述相似度计算结果获得所述图像语义向量与每一个人脸表情类型对应的相似度;取所述图像语义向量与每一个人脸表情类别对应的相似度最大的最为人脸图像对应的人脸表情类型;
具体公式如下:
Figure BDA0003274056670000153
其中,y*表示所述图像语义向量与每一个表情类别对应的相似度中的最大值;sy(x)表示相似度计算结果;Y表示人脸表情类型。
具体的,根据相似度计算结果得到述图像语义向量与每一个人脸表情类型对应的相似度;,然后取图像语义向量与每一个人脸表情类别对应的相似度最大的最为人脸图像对应的人脸表情类型;即如下:
Figure BDA0003274056670000154
其中,y*表示所述图像语义向量与每一个表情类别对应的相似度中的最大值;sy(x)表示相似度计算结果;Y表示人脸表情类型。
在本发明实施例中,能够稳定迅速识别出人脸图像所对应的人脸表情类型,减少重复性工作;并且无需进行相关的样本训练,解决人脸表情训练数据不足、训练数据质量差的问题;并且提供了深度学习与专家领域知识结合的思路,提高了人脸表情识别的准确率。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
另外,以上对本发明实施例所提供的一种基于零样本学习的人脸表情识别方法及装置进行了详细介绍,本文中应采用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于零样本学习的人脸表情识别方法,其特征在于,所述方法包括:
接收输入的人脸图像,并基于深度神经网络模型提取所述人脸图像的图像特征;
将所述图像特征转化为图像语义向量;
从数据库中提取多种人脸表情对应的属性文本信息,并将所述属性文本信息转化为属性语义向量;
计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度,获得相似度计算结果;
基于所述相似度计算结果中最大相似度对应的人脸表情类型最为所述人脸图像对应的人脸表情类型。
2.根据权利要求1所述的人脸表情识别方法,其特征在于,所述接收输入的人脸图像,包括:
接收图像采集设备采集的采集图像,并将所述采集图像输入目标检测网络模型中进行人脸检测,并裁剪出采集图像中的人脸区域图像,所述人脸区域图像大小为224*224;
对所述人脸区域图像进行图像颜色归一化处理,并形成输入的人脸图像。
3.根据权利要求1所述的人脸表情识别方法,其特征在于,所述深度神经网络模型为以残差网络模型为主干网络搭建18层的网络模型;其中,所述深度神经网络模型的全连接层的输入维度为512,输出维度为512;所述深度神经网络模型的平均池化层的卷积核大小为7*7、步长为1、卷积核数目为512。
4.根据权利要求1所述的人脸表情识别方法,其特征在于,所述将所述图像特征转化为图像语义向量,包括:
在所述深度神经网络模型中的原有连接层之后增设一个第二全连接层,其中,所述第二全连接层的输入维度为512,输出维度为15;
将所述深度神经网络模型输出的图像特征经过所述第二全连接层进行转化处理,获得输出的图像语义向量。
5.根据权利要求4所述的人脸表情识别方法,其特征在于,所述将所述深度神经网络模型输出的图像特征经过所述第二全连接层进行转化处理的公式如下:
Figure FDA0003274056660000021
其中,
Figure FDA0003274056660000022
表示图像语义向量;θ(x)表示所述深度神经网络模型输出的d维图像特征;θ(x)T表示θ(x)的转置;W表示第二全连接层的参数。
6.根据权利要求1所述的人脸表情识别方法,其特征在于,所述多种人脸表情包括:生气、高兴、悲伤、害怕、惊奇、讨厌、中性;
所述属性文本信息包括眉毛是否上扬、下垂、并拢和紧锁,眼镜是否怒视、眯眼和瞪大,嘴唇是否紧锁、上嘴唇上扬和微微张开,嘴角是否翘起和微微下拉,皱纹是否印堂和眼尾,其他。
7.根据权利要求1所述的人脸表情识别方法,其特征在于,所述将所述属性文本信息转化为属性语义向量,包括:
在所述属性文本信息中存在对应的表情属性的用1表示,不存在的用0表示;
基于属性文本信息中对应的表情属性的表示转化为属性语义向量;
其中,所述属性语义向量与所述图像语义向量的维度相同。
8.根据权利要求1所述的人脸表情识别方法,其特征在于,所述计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度,包括:
基于内积计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度;
计算公式如下:
Figure FDA0003274056660000031
其中,
Figure FDA0003274056660000032
表示图像语义向量,φ(y)表示每种人脸表情对应的所述属性语义向量;sy(x)表示相似度计算结果。
9.根据权利要求1所述的人脸表情识别方法,其特征在于,所述基于所述相似度计算结果中最大相似度对应的人脸表情类型最为所述人脸图像对应的人脸表情类型,包括:
基于所述相似度计算结果获得所述图像语义向量与每一个人脸表情类型对应的相似度;
取所述图像语义向量与每一个人脸表情类别对应的相似度最大的最为人脸图像对应的人脸表情类型;
具体公式如下:
Figure FDA0003274056660000033
其中,y*表示所述图像语义向量与每一个表情类别对应的相似度中的最大值;sy(x)表示相似度计算结果;Y表示人脸表情类型。
10.一种基于零样本学习的人脸表情识别装置,其特征在于,所述装置包括:
特征提取模块:用于接收输入的人脸图像,并基于深度神经网络模型提取所述人脸图像的图像特征;
第一转化模块:用于将所述图像特征转化为图像语义向量;
第二转化模块:用于从数据库中提取多种人脸表情对应的属性文本信息,并将所述属性文本信息转化为属性语义向量;
相似度计算模块:用于计算所述图像语义向量与每种人脸表情对应的所述属性语义向量之间的相似度,获得相似度计算结果;
表情识别模块:用于基于所述相似度计算结果中最大相似度对应的人脸表情类型最为所述人脸图像对应的人脸表情类型。
CN202111111549.4A 2021-09-23 2021-09-23 一种基于零样本学习的人脸表情识别方法及装置 Pending CN113920561A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111111549.4A CN113920561A (zh) 2021-09-23 2021-09-23 一种基于零样本学习的人脸表情识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111111549.4A CN113920561A (zh) 2021-09-23 2021-09-23 一种基于零样本学习的人脸表情识别方法及装置

Publications (1)

Publication Number Publication Date
CN113920561A true CN113920561A (zh) 2022-01-11

Family

ID=79235672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111111549.4A Pending CN113920561A (zh) 2021-09-23 2021-09-23 一种基于零样本学习的人脸表情识别方法及装置

Country Status (1)

Country Link
CN (1) CN113920561A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116109841A (zh) * 2023-04-11 2023-05-12 之江实验室 一种基于动态语义向量的零样本目标检测方法及装置
WO2024000867A1 (zh) * 2022-06-30 2024-01-04 浪潮电子信息产业股份有限公司 情绪识别方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024000867A1 (zh) * 2022-06-30 2024-01-04 浪潮电子信息产业股份有限公司 情绪识别方法、装置、设备及存储介质
CN116109841A (zh) * 2023-04-11 2023-05-12 之江实验室 一种基于动态语义向量的零样本目标检测方法及装置
CN116109841B (zh) * 2023-04-11 2023-08-15 之江实验室 一种基于动态语义向量的零样本目标检测方法及装置

Similar Documents

Publication Publication Date Title
CN110750656A (zh) 一种基于知识图谱的多媒体检测方法
CN112201228A (zh) 一种基于人工智能的多模态语义识别服务接入方法
CN113920561A (zh) 一种基于零样本学习的人脸表情识别方法及装置
CN113592251B (zh) 一种多模态融合的教态分析系统
Rajan et al. American sign language alphabets recognition using hand crafted and deep learning features
Kumar et al. Facial emotion recognition and detection using cnn
Ahmed et al. Face behavior recognition through support vector machines
CN116703797A (zh) 图像融合方法、图像融合系统、计算机设备及存储介质
CN111368663A (zh) 自然场景中静态面部表情识别方法、装置、介质及设备
CN114187632A (zh) 一种基于图卷积神经网络的人脸表情识别方法及装置
CN114972884A (zh) 一种基于多模态事件本体的图像事件识别方法
Silpani et al. A feasibility study on hand gesture intention interpretation based on gesture detection and speech recognition
CN114743251A (zh) 一种基于共享集成卷积神经网络的戏曲人物面部表情识别方法
Dembani et al. UNSUPERVISED FACIAL EXPRESSION DETECTION USING GENETIC ALGORITHM.
CN111062207B (zh) 表情图像处理方法、装置、计算机存储介质及电子设备
CN113076916A (zh) 基于几何特征加权融合的动态人脸表情识别方法及系统
CN113343773A (zh) 基于浅层卷积神经网络的人脸表情识别系统
CN112784631A (zh) 一种基于深度神经网络进行人脸情绪识别的方法
CN111967295B (zh) 一种语义标签挖掘的微表情捕捉方法
Anh Interestingness improvement of face images by learning visual saliency
Dhar et al. Emotion Recognition with Music using Facial Feature Extraction and Deep Learning
CN115410061B (zh) 一种基于自然语言处理的图文情感分析系统
Korkmaz et al. Classification Of Human Facial Expressions For Emotion Recognition Using A Distributed Computer System
AU2021103865A4 (en) Forensic Tool for the Semantic-Based Image Retrieval System
CN110717434B (zh) 一种基于特征分离的表情识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination