CN114944002A - 文本描述辅助的姿势感知的人脸表情识别方法 - Google Patents

文本描述辅助的姿势感知的人脸表情识别方法 Download PDF

Info

Publication number
CN114944002A
CN114944002A CN202210683619.1A CN202210683619A CN114944002A CN 114944002 A CN114944002 A CN 114944002A CN 202210683619 A CN202210683619 A CN 202210683619A CN 114944002 A CN114944002 A CN 114944002A
Authority
CN
China
Prior art keywords
expression
text
feature
constructing
posture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210683619.1A
Other languages
English (en)
Other versions
CN114944002B (zh
Inventor
王上飞
吴毅
常亚南
李国鸣
毛萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
China Merchants Bank Co Ltd
Original Assignee
University of Science and Technology of China USTC
China Merchants Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC, China Merchants Bank Co Ltd filed Critical University of Science and Technology of China USTC
Priority to CN202210683619.1A priority Critical patent/CN114944002B/zh
Publication of CN114944002A publication Critical patent/CN114944002A/zh
Application granted granted Critical
Publication of CN114944002B publication Critical patent/CN114944002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种表情描述文本辅助的姿势感知的人脸表情识别方法,包括:1、根据表情发生时的面部单元动作和对原始人脸图像的预处理,构建出多模态数据集合;2、构建姿势分类器,从人脸图像中提取姿势特征,并选取各种姿势的聚类中心作为对应的姿势特征;3、构建表情描述文本特征提取器,从文本中提取表情文本特征;4、融合人脸视觉特征,姿势特征和表情文本特征,以跨模态的方式为视觉特征生成对应姿势和表情的注意力图,并通过同时区分注意力图加权后的视觉特征的姿势和表情类别,从而得到最优表情表征网络。本发明能有效利用先验姿势特征和表情描述文本丰富的语义信息,从而能实现任意姿势下的表情的精准识别。

Description

文本描述辅助的姿势感知的人脸表情识别方法
技术领域
本发明涉及情感计算领域,具体的是一种文本描述辅助的姿势感知的人脸表情识别方法。
背景技术
表情识别作为情感计算的一个分支,正在从实验室环境转向更加灵活多变的室外场景,其中,头部姿势的变化是影响识别性能的重要因素之一。现有的多角度表情识别分为两类:基于生成的方法和基于姿势鲁棒的方法,姿势鲁棒的方法又可以细分为基于正则化方法、基于对抗的方法、基于解缠的方法和基于子空间的方法。重构技术通常被用于基于解缠的方法,基于子空间的方法通常提取原始图像的手工特征,或者对特征空间加以约束,其他方法则主要用到各种生成对抗方法的变体。一些表情识别的方法也引入注意力机制。
然而无论是基于生成的方法还是基于姿势鲁棒的方法,以及基于注意力的方法,它们都存在一些根本上难以克服的问题。基于生成的方法通过生成大量各个角度下的各种表情图像来丰富数据集,从而使模型得到充分训练,然而生成的图像质量较差;基于姿势鲁棒的方法试图消除或者分离出姿势信息,从而得到只包含表情信息的特征,但姿势和表情以一种复杂的非线性方式耦合在一起;基于注意力机制的方法一方面没有考虑姿势变化的影响,另一方面很难保证从原始图像自动学习的注意力图的有效性。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种文本描述辅助的姿势感知的人脸表情识别方法,以期能通过引入先验姿势特征和表情描述文本并利用跨模态的注意力机制实现任意姿势下表情的精准识别,从而提高表情识别的准确性和鲁棒性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种文本描述辅助的姿势感知的人脸表情识别方法的特点在于,是按如下步骤进行:
步骤1、构建多模态数据集合A;
步骤1.1、构建多模态数据的表情描述文本集合,记为
Figure BDA0003697226840000011
其中,sk表示第k条文本,m为文本的总条数;所述第k条文本sk包含的单词,记为
Figure BDA0003697226840000012
其中,tk,l表示所述第k条文本sk中的第l个单词,Nk表示第k条文本信息的单词长度;
步骤1.2、构建多模态数据的表情图像数据集合:
获取真实人脸图像数据集并使用图像旋转、裁剪以及归一化的方法进行预处理,从而得到表情图像数据集
Figure BDA0003697226840000013
其中,xi,yi,vi分别表示第i个人脸图像及对应的表情类别和姿势类别,yi∈{1,2,…,m′},vi∈{1,2,…,n},N是表情图像数据集D中图像的数量,m′是表情的总类别数,n是姿势的总类别数,且m′=m;
步骤2、构建姿势分类器,包含:姿势特征提取器Ep,分类器Cp和特征对齐器AL:
步骤2.1、构建所述姿势特征提取器Ep为ResNet50结构:
所述ResNet50结构由一个卷积层,一个批归一化层,一个ReLU激活函数层,一个最大池化层,四个深度残差块和一个平均池化层组成;
步骤2.2、提取姿势特征:
将所述表情图像数据集D的第i个人脸图像xi输入所述姿势特征提取器Ep中,获得第i个人脸图像xi的姿势特征
Figure BDA0003697226840000021
步骤2.3、构建所述分类器Cp,包含一个全连接层:
将所述姿势特征
Figure BDA0003697226840000022
输入到所述分类器Cp中,得到第i个人脸图像xi预测的姿势类别v′i
步骤2.4、利用式(1)构建姿势分类损失Lpose
Lpose=crossentropy(v′i,vi) (1)
式(1)中,crossentropy()表示交叉熵函数;
步骤2.5、利用式(2)计算第j种姿势的特征fj,从而得到n种姿势的特征:
Figure BDA0003697226840000023
式(2)中,nj表示预测的姿势类别v′i和真实的姿势类别vi都为第j种姿势类别的姿势特征集合的特征数量;
步骤2.6、构建所述特征对齐器AL,包含一个全连接层:
将所述第j种姿势的特征fj输入到所述特征对齐器AL中,得到对齐后的第j种姿势特征
Figure BDA0003697226840000024
步骤3、构建表情描述文本特征提取器,包含:分词器Et,文本内特征编码器Eintra和文本间特征编码器Einter
步骤3.1、构建所述分词器Et,依次包含文本预处理层、特殊符号添加层、符号数字化层和序列对齐层;
将所述表情描述文本集合S的第k条文本sk输入到所述分词器Et中进行处理,获得对应的第k个数字序列
Figure BDA0003697226840000031
以及对应的第k个位置编码为pck
步骤3.2、构建文本内特征编码器Eintra,包含:嵌入层和多层Transformer编码器;
所述Transformer编码器由一个多头自注意力子层和一个前馈子层以残差方式连接而成;
将所述第k个数字序列
Figure BDA0003697226840000032
和第k个位置编码pck输入到所述文本内特征编码器Eintra中进行处理,获得第k个初步表情描述文本特征
Figure BDA0003697226840000033
步骤3.3、构建所述文本间特征编码器Einter,包含:多层Transformer编码器;
将所有初步表情描述文本特征
Figure BDA0003697226840000034
输入到所述文本间特征编码器Einter中进行处理,获得最终表情描述文本特征
Figure BDA0003697226840000035
其中,
Figure BDA0003697226840000036
表示第k条表情文本描述特征;
步骤4、构建跨模态模块,包含:图像视觉特征提取器Ev,姿势分类器Cp和表情分类器Ce
步骤4.1、构建所述图像视觉特征提取器Ev,包含部分ResNet50的层结构;
所述部分ResNet50的层结构包含一个卷积层,一个批归一化层,一个ReLU激活函数层,一个最大池化层和三个深度残差块;
将所述表情图像集D的第i个人脸图像xi输入到图像视觉特征提取器Ev中进行处理,获得第i个人脸图像xi的视觉特征
Figure BDA0003697226840000037
步骤4.2、生成注意力图:
步骤4.2.1、利用式(3)计算对齐后的第j种姿势特征
Figure BDA0003697226840000038
第k种表情文本描述特征
Figure BDA0003697226840000039
与视觉特征
Figure BDA00036972268400000310
的余弦矩阵
Figure BDA00036972268400000311
Figure BDA00036972268400000312
式(4)中,×表示矩阵乘法,|·|表示沿着第0维求和;
步骤4.3.2、利用式(4)计算余弦矩阵
Figure BDA00036972268400000313
经激活函数ReLU后的矩阵
Figure BDA00036972268400000314
Figure BDA00036972268400000315
步骤4.3.3、利用式(5)计算矩阵
Figure BDA00036972268400000316
经归一化函数Norm后的注意力图
Figure BDA00036972268400000317
Figure BDA00036972268400000318
步骤4.4、利用式(6)计算第i个人脸图像xi的最终特征Fi
Figure BDA00036972268400000319
式(6)中,w和h分别表示视觉特征
Figure BDA0003697226840000041
的宽度和高度,
Figure BDA0003697226840000042
表示注意力图
Figure BDA0003697226840000043
中按照先行后列的顺序排列后的第q个注意力权重,
Figure BDA0003697226840000044
表示视觉特征
Figure BDA0003697226840000048
中按照先行后列的顺序排列后的第q个视觉特征;
步骤4.4、构建姿势分类器Cp和表情分类器Ce
所述姿势分类器Cp和表情分类器Ce均为一个全连接层;
步骤4.5、将所述最终特征Fi分别输入到所述分类器Cp和分类器Ce中,并相应得到所述分类器Cp预测的人脸图像xi的姿势类别
Figure BDA0003697226840000045
和所述分类器Ce预测的人脸图像xi的表情类别
Figure BDA0003697226840000046
步骤4.6、利用式(7)构建总分类损失Lall
Figure BDA0003697226840000047
步骤4.7、基于构建的多模态数据集合A,利用梯度下降的方法对所述文本间特征编码器Einter,图像视觉特征提取器Ev,姿势分类器Cp和表情分类器Ce进行训练,计算所述总分类损失Lall用于更新网络参数,并在总分类损失Lall最小时停止训练,从而得到最优表情表征网络,用于同时对姿势和表情进行识别。
与现有技术相比,本发明的有益效果在于:
1)本发明提出利用先验姿势特征和同时做姿势和表情分类的多任务学习方法,从而能自动适应角度的变化。这不同于已有的通过强行消除或者分离出姿势的方法,因而能够增强表情识别的姿势鲁棒性。
2)本发明提出的方法从表情文本中提取丰富的语义信息,并通过跨模态注意力机制生成注意力图,注意力图表征人脸各个区域的重要程度。通过对提取特征使用注意力图加权,可以使模型更加关注具有表情区分度的区域,从而能更有效的将表情文本应用在表情识别任务中,提高表情识别的准确性。
3)本发明构建一个自动适应姿势变化,主动关注引起表情的关键区域的深度神经网络,解决了注意力机制在多姿势条件下效果降低的问题,从而使得模型在各种姿势下都能捕获到表情相关的关键面部区域。
附图说明
图1为本发明提出方法的结构图。
图2为本发明表示惊讶的面部图像和对应的描述文本图;
图3为本发明姿势特征降维后的可视化效果图。
具体实施方式
本实施例中,参见图1,一种文本描述辅助的姿势感知的人脸表情识别方法是按如下步骤进行:
步骤1、构建多模态数据集合A;
步骤1.1、构建多模态数据的表情描述文本集合,记为
Figure BDA0003697226840000052
其中,sk表示第k条文本,m为文本的总条数;第k条文本sk包含的单词,记为
Figure BDA0003697226840000053
其中,tk,l表示第k条文本sk中的第l个单词,Nk表示第k条文本信息的单词长度;在实施案例中,参考Paul Ekman所著的《面部动作编码系统》一书中对于面部单元动作的描述,并结合表情和动作单元的映射关系,从而分别总结出对应于表情数据集Multi-PIE中六种表情的描述文本,和对应于BU-3DFE数据集中除中性表情以外的六种表情的描述文本。如表1是本实施例中总结的上述两个数据集中出现的所有表情的描述文本。在两个数据集上分别进行实验时,m均为6,且任意一条表情描述文本预处理后的长度不超过512。如图2是一个表示惊讶的人脸图像及对应的描述文本,虚线椭圆圈出该表情产生时面部显著变化的区域,右边的文本给出了对应的描述;
表1表情描述文本
Figure BDA0003697226840000051
Figure BDA0003697226840000061
步骤1.2、构建多模态数据的表情图像数据集合:
获取真实人脸图像数据集并使用图像旋转、裁剪以及归一化的方法进行预处理,从而得到表情图像数据集
Figure BDA0003697226840000062
其中,xi,yi,vi分别表示第i个人脸图像及对应的表情类别和姿势类别,yi∈{1,2,…,m′},vi∈{1,2,…,n},N是表情图像数据集D中图像的数量,m′是表情的总类别数,n是姿势的总类别数,且m′=m;本实施例中,表情数据集Multi-PIE分5个姿势和7个姿势两种实验设置,所选取的人脸图像数量分别为7095和6174,图像分辨率为128*128,表情数据集BU-3DFE分5个姿势、7个姿势和35个姿势三种实验设置,所选取的人脸图像数量分别为12000、16800和21000,图像分辨率为256*256,其中的人脸图像是从人脸3D模型通过工具渲染得到的;
步骤2、构建姿势分类器,包含:姿势特征提取器Ep,分类器Cp和特征对齐器AL:
步骤2.1、构建姿势特征提取器Ep为ResNet50结构:
ResNet50结构由一个卷积层,一个批归一化层,一个ReLU激活函数层,一个最大池化层,四个深度残差块和一个平均池化层组成;
步骤2.2、提取姿势特征:
将表情图像数据集D的第i个人脸图像xi输入姿势特征提取器Ep中,获得第i个人脸图像xi的姿势特征
Figure BDA0003697226840000063
步骤2.3、构建分类器Cp,包含一个全连接层:
将姿势特征
Figure BDA0003697226840000071
输入到分类器Cp中,得到第i个人脸图像xi预测的姿势类别v′i
步骤2.4、利用式(1)构建姿势分类损失Lpose
Lpose=crossentropy(v′i,vi) (1)
式(1)中,crossentropy()表示交叉熵函数;
步骤2.5、利用式(2)计算第j种姿势的特征fj,从而得到n种姿势的特征:
Figure BDA0003697226840000072
式(2)中,nj表示预测的姿势类别v′i和真实的姿势类别vi都为第j种姿势类别的姿势特征集合的特征数量;如图3所示,本实施例中,以表情数据集Multi-PIE的7种角度实验设置为例,本方法遵循subject-independent的原则,选取其中4/5的数据做为训练集,剩下1/5的数据作为测试集,用训练后的姿势特征提取器Ep提取测试集中所有图像的姿势特征,并利用工具t-SNE将姿势特征映射到二维空间,最后将其表示在平面上,其中不同灰度表示不同的角度的姿势特征,其呈现明显的聚类现象,因而,姿势特征可以用做先验知识,从而使得模型具备自动适应角度变化的能力;为了消除外观和光照引起的偏差,本方法用预测的姿势类别和真实的姿势类别相同的所有姿势特征的聚类中心作为该类别的特征。
步骤2.6、构建特征对齐器AL,包含一个全连接层:
将第j种姿势的特征fj输入到特征对齐器AL中,得到对齐后的第j种姿势特征
Figure BDA0003697226840000073
在本实施例中,人脸图像的姿势特征长度为2048,通过对齐器FC,将其映射到和最终表情描述文本特征相同的长度1024;
步骤3、构建表情描述文本特征提取器,包含:分词器Et,文本内特征编码器Eintra和文本间特征编码器Einter
步骤3.1、构建分词器Et,依次包含文本预处理层、特殊符号添加层、符号数字化层和序列对齐层;
将表情描述文本集合S的第k条文本sk输入到分词器Et中进行处理,获得对应的第k个数字序列
Figure BDA0003697226840000074
以及对应的第k个位置编码为pck;在本实施例中,所有数字序列的长度均为512,位置编码的长度也为512,后续不足512的部分均用0补齐;
步骤3.2、构建文本内特征编码器Eintra,包含:嵌入层和多层Transformer编码器;
Transformer编码器由一个多头自注意力子层和一个前馈子层以残差方式连接而成;
将第k个数字序列
Figure BDA0003697226840000081
和第k个位置编码pck输入到所述文本内特征编码器Eintra中进行处理,获得第k个初步表情描述文本特征
Figure BDA0003697226840000082
在本实施例中,嵌入层会先将数字序列和位置编码分别嵌入到512*768的高维空间并相加,作为多层Transformer编码器的输入。多层Transformer编码器的层数设置为12,隐层大小设置为768,多头的数量设置为12。由于输出特征的第一部分内容就能表示输入序列的深层特征,因而所有初步表情描述文本特征的长度均为768。文本内特征编码器Eintra中的多层Transformer编码器用预训练参数初始化并在训练过程中保持冻结;
步骤3.3、构建文本间特征编码器Einter,包含:多层Transformer编码器;
将所有初步表情描述文本特征
Figure BDA0003697226840000083
输入到文本间特征编码器Einter中进行处理,获得最终表情描述文本特征
Figure BDA0003697226840000084
其中,
Figure BDA0003697226840000085
表示第k条表情文本描述特征;在本实施例中,每个初步表情描述文本特征
Figure BDA0003697226840000086
被看作整个输入序列的一个词嵌入,所以输入特征的长度为6*768。在最后输出层之后添加一个包含1024个神经元的全连接层,因而所有最终表情描述文本特征的长度为1024。文本间特征编码器Einter中的多层Transformer编码器同上,其参数随机初始化,并随着训练而更新。;
步骤4、构建跨模态模块,包含:图像视觉特征提取器Ev,姿势分类器Cp和表情分类器Ce
步骤4.1、构建图像视觉特征提取器Ev,包含部分ResNet50的层结构;
部分ResNet50的层结构包含一个卷积层,一个批归一化层,一个ReLU激活函数层,一个最大池化层和三个深度残差块;
将表情图像集D的第i个人脸图像xi输入到图像视觉特征提取器Ev中进行处理,获得第i个人脸图像xi的视觉特征
Figure BDA0003697226840000087
在本实施例中,当人脸图像尺寸分别为128*128和256*256时,视觉特征的尺寸分别为1024*8*8和1024*16*16,也即,视觉特征的通道数,姿势特征的长度和表情描述文本特征的长度需保持一致,从而实现姿势特征和表情描述文本特征直接相加形成融合特征,继而和视觉特征计算注意力图;
步骤4.2、生成注意力图:
步骤4.2.1、利用式(3)计算对齐后的第j种姿势特征
Figure BDA0003697226840000088
第k种表情文本描述特征
Figure BDA0003697226840000089
与视觉特征
Figure BDA00036972268400000810
的余弦矩阵
Figure BDA00036972268400000811
Figure BDA00036972268400000812
式(4)中,×表示矩阵乘法,|·|表示沿着第0维求和;在本实施例中,若视觉特征的尺寸为c*w*h,以输入图像尺寸为256*256为例,则c,w和h分别为1024,16和16,那么余弦矩阵的尺寸为w*h;
步骤4.3.2、利用式(4)计算余弦矩阵
Figure BDA0003697226840000091
经激活函数ReLU后的矩阵
Figure BDA0003697226840000092
Figure BDA0003697226840000093
步骤4.3.3、利用式(5)计算矩阵
Figure BDA0003697226840000094
经归一化函数Norm后的注意力图
Figure BDA0003697226840000095
Figure BDA0003697226840000096
在本实施例中,归一化函数的做法是对于矩阵
Figure BDA0003697226840000097
中的所有元素,都除以矩阵中所有元素的和,具体的数学公式如式(6)所示;
Figure BDA0003697226840000098
式(6)中,
Figure BDA0003697226840000099
表示矩阵
Figure BDA00036972268400000910
第r行第c列的元素;
步骤4.4、利用式(7)计算第i个人脸图像xi的最终特征Fi
Figure BDA00036972268400000911
式(7)中,w和h分别表示视觉特征
Figure BDA00036972268400000912
的宽度和高度,
Figure BDA00036972268400000913
表示注意力图
Figure BDA00036972268400000914
中按照先行后列的顺序排列后的第q个注意力权重,
Figure BDA00036972268400000915
表示视觉特征
Figure BDA00036972268400000916
中按照先行后列的顺序排列后的第q个视觉特征;
步骤4.4、构建姿势分类器Cp和表情分类器Ce
姿势分类器Cp和表情分类器Ce均为一个全连接层;
步骤4.5、将最终特征Fi分别输入到分类器Cp和分类器Ce中,并相应得到分类器Cp预测的人脸图像xi的姿势类别
Figure BDA00036972268400000917
和分类器Ce预测的人脸图像xi的表情类别
Figure BDA00036972268400000918
步骤4.6、利用式(8)构建总分类损失Lall
Figure BDA00036972268400000919
步骤4.7、基于构建的多模态数据集合A,利用梯度下降的方法对所述文本间特征编码器Einter,图像视觉特征提取器Ev,姿势分类器Cp和表情分类器Ce进行训练,计算所述总分类损失Lall用于更新网络参数,并在总分类损失Lall最小时停止训练,从而得到最优表情表征网络,用于同时对姿势和表情进行识别。对于所有的更新网络,均采用BertAdam优化,其初始学习率为1e-5,随着训练批次的推进,学习率动态调整,从而使得模型达到全局最优。
实施例:
为了验证本发明方法中的有效性,本实验例在常用的多角度表情数据集Multi-PIE和BU-3DFE上进行实验。本实验按照subject-independent的原则,随机选择4/5的图像训练网络,剩下的1/5的图像用做测试,使用准确率作为评价标准,并给出与已有方法在两个数据集上的结果比较,如表2所示;
表2在Multi-PIE和BU-3DFE两个数据集上和已有方法相比的表情识别准确率
Figure BDA0003697226840000101
表2的实验结果显示本发明方法和其他方法相比效果都要好,从而证明了本发明提出方法的可行性。

Claims (1)

1.一种文本描述辅助的姿势感知的人脸表情识别方法,其特征在于,是按如下步骤进行:
步骤1、构建多模态数据集合A;
步骤1.1、构建多模态数据的表情描述文本集合,记为
Figure FDA0003697226830000011
其中,sk表示第k条文本,m为文本的总条数;所述第k条文本sk包含的单词,记为
Figure FDA0003697226830000012
其中,tk,l表示所述第k条文本sk中的第l个单词,Nk表示第k条文本信息的单词长度;
步骤1.2、构建多模态数据的表情图像数据集合:
获取真实人脸图像数据集并使用图像旋转、裁剪以及归一化的方法进行预处理,从而得到表情图像数据集
Figure FDA0003697226830000013
其中,xi,yi,vi分别表示第i个人脸图像及对应的表情类别和姿势类别,yi∈{1,2,…,m'},vi∈{1,2,…,n},N是表情图像数据集D中图像的数量,m'是表情的总类别数,n是姿势的总类别数,且m'=m;
步骤2、构建姿势分类器,包含:姿势特征提取器Ep,分类器Cp和特征对齐器AL:
步骤2.1、构建所述姿势特征提取器Ep为ResNet50结构:
所述ResNet50结构由一个卷积层,一个批归一化层,一个ReLU激活函数层,一个最大池化层,四个深度残差块和一个平均池化层组成;
步骤2.2、提取姿势特征:
将所述表情图像数据集D的第i个人脸图像xi输入所述姿势特征提取器Ep中,获得第i个人脸图像xi的姿势特征
Figure FDA0003697226830000014
步骤2.3、构建所述分类器Cp,包含一个全连接层:
将所述姿势特征
Figure FDA0003697226830000015
输入到所述分类器Cp中,得到第i个人脸图像xi预测的姿势类别v'i
步骤2.4、利用式(1)构建姿势分类损失Lpose
Lpose=crossentropy(v′i,vi) (1)
式(1)中,crossentropy()表示交叉熵函数;
步骤2.5、利用式(2)计算第j种姿势的特征fj,从而得到n种姿势的特征:
Figure FDA0003697226830000016
式(2)中,nj表示预测的姿势类别v'i和真实的姿势类别vi都为第j种姿势类别的姿势特征集合的特征数量;
步骤2.6、构建所述特征对齐器AL,包含一个全连接层:
将所述第j种姿势的特征fj输入到所述特征对齐器AL中,得到对齐后的第j种姿势特征
Figure FDA0003697226830000021
步骤3、构建表情描述文本特征提取器,包含:分词器Et,文本内特征编码器Eintra和文本间特征编码器Einter
步骤3.1、构建所述分词器Et,依次包含文本预处理层、特殊符号添加层、符号数字化层和序列对齐层;
将所述表情描述文本集合S的第k条文本sk输入到所述分词器Et中进行处理,获得对应的第k个数字序列
Figure FDA0003697226830000022
以及对应的第k个位置编码为pck
步骤3.2、构建文本内特征编码器Eintra,包含:嵌入层和多层Transformer编码器;
所述Transformer编码器由一个多头自注意力子层和一个前馈子层以残差方式连接而成;
将所述第k个数字序列
Figure FDA0003697226830000023
和第k个位置编码pck输入到所述文本内特征编码器Eintra中进行处理,获得第k个初步表情描述文本特征
Figure FDA0003697226830000024
步骤3.3、构建所述文本间特征编码器Einter,包含:多层Transformer编码器;
将所有初步表情描述文本特征
Figure FDA0003697226830000025
输入到所述文本间特征编码器Einter中进行处理,获得最终表情描述文本特征
Figure FDA0003697226830000026
其中,
Figure FDA0003697226830000027
表示第k条表情文本描述特征;
步骤4、构建跨模态模块,包含:图像视觉特征提取器Ev,姿势分类器Cp和表情分类器Ce
步骤4.1、构建所述图像视觉特征提取器Ev,包含部分ResNet50的层结构;
所述部分ResNet50的层结构包含一个卷积层,一个批归一化层,一个ReLU激活函数层,一个最大池化层和三个深度残差块;
将所述表情图像集D的第i个人脸图像xi输入到图像视觉特征提取器Ev中进行处理,获得第i个人脸图像xi的视觉特征
Figure FDA0003697226830000028
步骤4.2、生成注意力图:
步骤4.2.1、利用式(3)计算对齐后的第j种姿势特征
Figure FDA0003697226830000029
第k种表情文本描述特征
Figure FDA00036972268300000210
与视觉特征
Figure FDA00036972268300000211
的余弦矩阵
Figure FDA00036972268300000212
Figure FDA00036972268300000213
式(4)中,×表示矩阵乘法,|·|表示沿着第0维求和;
步骤4.3.2、利用式(4)计算余弦矩阵
Figure FDA0003697226830000031
经激活函数ReLU后的矩阵
Figure FDA0003697226830000032
Figure FDA0003697226830000033
步骤4.3.3、利用式(5)计算矩阵
Figure FDA0003697226830000034
经归一化函数Norm后的注意力图
Figure FDA0003697226830000035
Figure FDA0003697226830000036
步骤4.4、利用式(6)计算第i个人脸图像xi的最终特征Fi
Figure FDA0003697226830000037
式(6)中,w和h分别表示视觉特征
Figure FDA0003697226830000038
的宽度和高度,
Figure FDA0003697226830000039
表示注意力图
Figure FDA00036972268300000310
中按照先行后列的顺序排列后的第q个注意力权重,
Figure FDA00036972268300000311
表示视觉特征
Figure FDA00036972268300000312
中按照先行后列的顺序排列后的第q个视觉特征;
步骤4.4、构建姿势分类器Cp和表情分类器Ce
所述姿势分类器Cp和表情分类器Ce均为一个全连接层;
步骤4.5、将所述最终特征Fi分别输入到所述分类器Cp和分类器Ce中,并相应得到所述分类器Cp预测的人脸图像xi的姿势类别
Figure FDA00036972268300000313
和所述分类器Ce预测的人脸图像xi的表情类别
Figure FDA00036972268300000314
步骤4.6、利用式(7)构建总分类损失Lall
Figure FDA00036972268300000315
步骤4.7、基于构建的多模态数据集合A,利用梯度下降的方法对所述文本间特征编码器Einter,图像视觉特征提取器Ev,姿势分类器Cp和表情分类器Ce进行训练,计算所述总分类损失Lall用于更新网络参数,并在总分类损失Lall最小时停止训练,从而得到最优表情表征网络,用于同时对姿势和表情进行识别。
CN202210683619.1A 2022-06-16 2022-06-16 文本描述辅助的姿势感知的人脸表情识别方法 Active CN114944002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210683619.1A CN114944002B (zh) 2022-06-16 2022-06-16 文本描述辅助的姿势感知的人脸表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210683619.1A CN114944002B (zh) 2022-06-16 2022-06-16 文本描述辅助的姿势感知的人脸表情识别方法

Publications (2)

Publication Number Publication Date
CN114944002A true CN114944002A (zh) 2022-08-26
CN114944002B CN114944002B (zh) 2024-04-16

Family

ID=82910360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210683619.1A Active CN114944002B (zh) 2022-06-16 2022-06-16 文本描述辅助的姿势感知的人脸表情识别方法

Country Status (1)

Country Link
CN (1) CN114944002B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117456039A (zh) * 2023-12-25 2024-01-26 深圳墨世科技有限公司 基于联合训练的aigc魔术头像生成方法、装置及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190012526A1 (en) * 2017-07-04 2019-01-10 Microsoft Technology Licensing, Llc Image recognition with promotion of underrepresented classes
CN109409222A (zh) * 2018-09-20 2019-03-01 中国地质大学(武汉) 一种基于移动端的多视角人脸表情识别方法
CN111582059A (zh) * 2020-04-20 2020-08-25 哈尔滨工程大学 一种基于变分自编码器的人脸表情识别方法
WO2020199693A1 (zh) * 2019-03-29 2020-10-08 中国科学院深圳先进技术研究院 一种大姿态下的人脸识别方法、装置及设备
US20210201003A1 (en) * 2019-12-30 2021-07-01 Affectiva, Inc. Synthetic data for neural network training using vectors
CN113869276A (zh) * 2021-10-15 2021-12-31 山东大学 基于微表情的谎言识别方法及系统
WO2022052530A1 (zh) * 2020-09-10 2022-03-17 深圳前海微众银行股份有限公司 人脸矫正模型的训练方法、装置、电子设备及存储介质
CN114511906A (zh) * 2022-01-20 2022-05-17 重庆邮电大学 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190012526A1 (en) * 2017-07-04 2019-01-10 Microsoft Technology Licensing, Llc Image recognition with promotion of underrepresented classes
CN109409222A (zh) * 2018-09-20 2019-03-01 中国地质大学(武汉) 一种基于移动端的多视角人脸表情识别方法
WO2020199693A1 (zh) * 2019-03-29 2020-10-08 中国科学院深圳先进技术研究院 一种大姿态下的人脸识别方法、装置及设备
US20210201003A1 (en) * 2019-12-30 2021-07-01 Affectiva, Inc. Synthetic data for neural network training using vectors
CN111582059A (zh) * 2020-04-20 2020-08-25 哈尔滨工程大学 一种基于变分自编码器的人脸表情识别方法
WO2022052530A1 (zh) * 2020-09-10 2022-03-17 深圳前海微众银行股份有限公司 人脸矫正模型的训练方法、装置、电子设备及存储介质
CN113869276A (zh) * 2021-10-15 2021-12-31 山东大学 基于微表情的谎言识别方法及系统
CN114511906A (zh) * 2022-01-20 2022-05-17 重庆邮电大学 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孔德壮;朱梦宇;于江坤;: "人脸表情识别在辅助医疗中的应用及方法研究", 生命科学仪器, no. 02 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117456039A (zh) * 2023-12-25 2024-01-26 深圳墨世科技有限公司 基于联合训练的aigc魔术头像生成方法、装置及设备
CN117456039B (zh) * 2023-12-25 2024-02-27 深圳墨世科技有限公司 基于联合训练的aigc魔术头像生成方法、装置及设备

Also Published As

Publication number Publication date
CN114944002B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
Rahman et al. A new benchmark on american sign language recognition using convolutional neural network
Alonso et al. Adversarial generation of handwritten text images conditioned on sequences
CN108804530B (zh) 对图像的区域加字幕
CN110717431B (zh) 一种结合多视角注意力机制的细粒度视觉问答方法
US11783615B2 (en) Systems and methods for language driven gesture understanding
CN111160343B (zh) 一种基于Self-Attention的离线数学公式符号识别方法
CN111161200A (zh) 基于注意力机制的人体姿态迁移方法
Gallo et al. Image and encoded text fusion for multi-modal classification
CN115471851B (zh) 融合双重注意力机制的缅甸语图像文本识别方法及装置
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN113255457A (zh) 基于人脸表情识别的动画角色面部表情生成方法及系统
WO2022188697A1 (zh) 提取生物特征的方法、装置、设备、介质及程序产品
CN115761757A (zh) 基于解耦特征引导的多模态文本页面分类方法
CN109492610B (zh) 一种行人重识别方法、装置及可读存储介质
CN111428443A (zh) 一种基于实体上下文语义交互的实体链接方法
CN116311483B (zh) 基于局部面部区域重构和记忆对比学习的微表情识别方法
CN113837366A (zh) 一种多风格字体生成方法
CN114842547A (zh) 基于手势动作生成与识别的手语教学方法、装置及系统
CN116611024A (zh) 一种基于事实和情感对立性的多模态反讽检测方法
CN114944002A (zh) 文本描述辅助的姿势感知的人脸表情识别方法
CN114840649A (zh) 一种基于跨模态互注意力神经网络的学生认知诊断方法
CN112651225B (zh) 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法
Wen et al. A sequence-to-sequence framework based on transformer with masked language model for optical music recognition
CN111104868B (zh) 一种基于卷积神经网络特征的跨质量人脸识别方法
CN113780350B (zh) 一种基于ViLBERT和BiLSTM的图像描述方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant