CN114944002B - 文本描述辅助的姿势感知的人脸表情识别方法 - Google Patents

文本描述辅助的姿势感知的人脸表情识别方法 Download PDF

Info

Publication number
CN114944002B
CN114944002B CN202210683619.1A CN202210683619A CN114944002B CN 114944002 B CN114944002 B CN 114944002B CN 202210683619 A CN202210683619 A CN 202210683619A CN 114944002 B CN114944002 B CN 114944002B
Authority
CN
China
Prior art keywords
expression
gesture
feature
text
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210683619.1A
Other languages
English (en)
Other versions
CN114944002A (zh
Inventor
王上飞
吴毅
常亚南
李国鸣
毛萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
China Merchants Bank Co Ltd
Original Assignee
University of Science and Technology of China USTC
China Merchants Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC, China Merchants Bank Co Ltd filed Critical University of Science and Technology of China USTC
Priority to CN202210683619.1A priority Critical patent/CN114944002B/zh
Publication of CN114944002A publication Critical patent/CN114944002A/zh
Application granted granted Critical
Publication of CN114944002B publication Critical patent/CN114944002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种表情描述文本辅助的姿势感知的人脸表情识别方法,包括:1、根据表情发生时的面部单元动作和对原始人脸图像的预处理,构建出多模态数据集合;2、构建姿势分类器,从人脸图像中提取姿势特征,并选取各种姿势的聚类中心作为对应的姿势特征;3、构建表情描述文本特征提取器,从文本中提取表情文本特征;4、融合人脸视觉特征,姿势特征和表情文本特征,以跨模态的方式为视觉特征生成对应姿势和表情的注意力图,并通过同时区分注意力图加权后的视觉特征的姿势和表情类别,从而得到最优表情表征网络。本发明能有效利用先验姿势特征和表情描述文本丰富的语义信息,从而能实现任意姿势下的表情的精准识别。

Description

文本描述辅助的姿势感知的人脸表情识别方法
技术领域
本发明涉及情感计算领域,具体的是一种文本描述辅助的姿势感知的人脸表情识别方法。
背景技术
表情识别作为情感计算的一个分支,正在从实验室环境转向更加灵活多变的室外场景,其中,头部姿势的变化是影响识别性能的重要因素之一。现有的多角度表情识别分为两类:基于生成的方法和基于姿势鲁棒的方法,姿势鲁棒的方法又可以细分为基于正则化方法、基于对抗的方法、基于解缠的方法和基于子空间的方法。重构技术通常被用于基于解缠的方法,基于子空间的方法通常提取原始图像的手工特征,或者对特征空间加以约束,其他方法则主要用到各种生成对抗方法的变体。一些表情识别的方法也引入注意力机制。
然而无论是基于生成的方法还是基于姿势鲁棒的方法,以及基于注意力的方法,它们都存在一些根本上难以克服的问题。基于生成的方法通过生成大量各个角度下的各种表情图像来丰富数据集,从而使模型得到充分训练,然而生成的图像质量较差;基于姿势鲁棒的方法试图消除或者分离出姿势信息,从而得到只包含表情信息的特征,但姿势和表情以一种复杂的非线性方式耦合在一起;基于注意力机制的方法一方面没有考虑姿势变化的影响,另一方面很难保证从原始图像自动学习的注意力图的有效性。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种文本描述辅助的姿势感知的人脸表情识别方法,以期能通过引入先验姿势特征和表情描述文本并利用跨模态的注意力机制实现任意姿势下表情的精准识别,从而提高表情识别的准确性和鲁棒性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种文本描述辅助的姿势感知的人脸表情识别方法的特点在于,是按如下步骤进行:
步骤1、构建多模态数据集合A;
步骤1.1、构建多模态数据的表情描述文本集合,记为其中,sk表示第k条文本,m为文本的总条数;所述第k条文本sk包含的单词,记为/>其中,tk,l表示所述第k条文本sk中的第l个单词,Nk表示第k条文本信息的单词长度;
步骤1.2、构建多模态数据的表情图像数据集合:
获取真实人脸图像数据集并使用图像旋转、裁剪以及归一化的方法进行预处理,从而得到表情图像数据集其中,xi,yi,vi分别表示第i个人脸图像及对应的表情类别和姿势类别,yi∈{1,2,…,m′},vi∈{1,2,…,n},N是表情图像数据集D中图像的数量,m′是表情的总类别数,n是姿势的总类别数,且m′=m;
步骤2、构建姿势分类器,包含:姿势特征提取器Ep,分类器Cp和特征对齐器AL:
步骤2.1、构建所述姿势特征提取器Ep为ResNet50结构:
所述ResNet50结构由一个卷积层,一个批归一化层,一个ReLU激活函数层,一个最大池化层,四个深度残差块和一个平均池化层组成;
步骤2.2、提取姿势特征:
将所述表情图像数据集D的第i个人脸图像xi输入所述姿势特征提取器Ep中,获得第i个人脸图像xi的姿势特征
步骤2.3、构建所述分类器Cp,包含一个全连接层:
将所述姿势特征输入到所述分类器Cp中,得到第i个人脸图像xi预测的姿势类别v′i
步骤2.4、利用式(1)构建姿势分类损失Lpose
Lpose=crossentropy(v′i,vi) (1)
式(1)中,crossentropy()表示交叉熵函数;
步骤2.5、利用式(2)计算第j种姿势的特征fj,从而得到n种姿势的特征:
式(2)中,nj表示预测的姿势类别v′i和真实的姿势类别vi都为第j种姿势类别的姿势特征集合的特征数量;
步骤2.6、构建所述特征对齐器AL,包含一个全连接层:
将所述第j种姿势的特征fj输入到所述特征对齐器AL中,得到对齐后的第j种姿势特征
步骤3、构建表情描述文本特征提取器,包含:分词器Et,文本内特征编码器Eintra和文本间特征编码器Einter
步骤3.1、构建所述分词器Et,依次包含文本预处理层、特殊符号添加层、符号数字化层和序列对齐层;
将所述表情描述文本集合S的第k条文本sk输入到所述分词器Et中进行处理,获得对应的第k个数字序列以及对应的第k个位置编码为pck
步骤3.2、构建文本内特征编码器Eintra,包含:嵌入层和多层Transformer编码器;
所述Transformer编码器由一个多头自注意力子层和一个前馈子层以残差方式连接而成;
将所述第k个数字序列和第k个位置编码pck输入到所述文本内特征编码器Eintra中进行处理,获得第k个初步表情描述文本特征/>
步骤3.3、构建所述文本间特征编码器Einter,包含:多层Transformer编码器;
将所有初步表情描述文本特征输入到所述文本间特征编码器Einter中进行处理,获得最终表情描述文本特征/>其中,/>表示第k条表情文本描述特征;
步骤4、构建跨模态模块,包含:图像视觉特征提取器Ev,姿势分类器Cp和表情分类器Ce
步骤4.1、构建所述图像视觉特征提取器Ev,包含部分ResNet50的层结构;
所述部分ResNet50的层结构包含一个卷积层,一个批归一化层,一个ReLU激活函数层,一个最大池化层和三个深度残差块;
将所述表情图像集D的第i个人脸图像xi输入到图像视觉特征提取器Ev中进行处理,获得第i个人脸图像xi的视觉特征
步骤4.2、生成注意力图:
步骤4.2.1、利用式(3)计算对齐后的第j种姿势特征第k种表情文本描述特征与视觉特征/>的余弦矩阵/>
式(4)中,×表示矩阵乘法,|·|表示沿着第0维求和;
步骤4.3.2、利用式(4)计算余弦矩阵经激活函数ReLU后的矩阵/>
步骤4.3.3、利用式(5)计算矩阵经归一化函数Norm后的注意力图/>
步骤4.4、利用式(6)计算第i个人脸图像xi的最终特征Fi
式(6)中,w和h分别表示视觉特征的宽度和高度,/>表示注意力图/>中按照先行后列的顺序排列后的第q个注意力权重,/>表示视觉特征/>中按照先行后列的顺序排列后的第q个视觉特征;
步骤4.4、构建姿势分类器Cp和表情分类器Ce
所述姿势分类器Cp和表情分类器Ce均为一个全连接层;
步骤4.5、将所述最终特征Fi分别输入到所述分类器Cp和分类器Ce中,并相应得到所述分类器Cp预测的人脸图像xi的姿势类别和所述分类器Ce预测的人脸图像xi的表情类别/>
步骤4.6、利用式(7)构建总分类损失Lall
步骤4.7、基于构建的多模态数据集合A,利用梯度下降的方法对所述文本间特征编码器Einter,图像视觉特征提取器Ev,姿势分类器Cp和表情分类器Ce进行训练,计算所述总分类损失Lall用于更新网络参数,并在总分类损失Lall最小时停止训练,从而得到最优表情表征网络,用于同时对姿势和表情进行识别。
与现有技术相比,本发明的有益效果在于:
1)本发明提出利用先验姿势特征和同时做姿势和表情分类的多任务学习方法,从而能自动适应角度的变化。这不同于已有的通过强行消除或者分离出姿势的方法,因而能够增强表情识别的姿势鲁棒性。
2)本发明提出的方法从表情文本中提取丰富的语义信息,并通过跨模态注意力机制生成注意力图,注意力图表征人脸各个区域的重要程度。通过对提取特征使用注意力图加权,可以使模型更加关注具有表情区分度的区域,从而能更有效的将表情文本应用在表情识别任务中,提高表情识别的准确性。
3)本发明构建一个自动适应姿势变化,主动关注引起表情的关键区域的深度神经网络,解决了注意力机制在多姿势条件下效果降低的问题,从而使得模型在各种姿势下都能捕获到表情相关的关键面部区域。
附图说明
图1为本发明提出方法的结构图。
图2为本发明表示惊讶的面部图像和对应的描述文本图;
图3为本发明姿势特征降维后的可视化效果图。
具体实施方式
本实施例中,参见图1,一种文本描述辅助的姿势感知的人脸表情识别方法是按如下步骤进行:
步骤1、构建多模态数据集合A;
步骤1.1、构建多模态数据的表情描述文本集合,记为其中,sk表示第k条文本,m为文本的总条数;第k条文本sk包含的单词,记为/>其中,tk,l表示第k条文本sk中的第l个单词,Nk表示第k条文本信息的单词长度;在实施案例中,参考Paul Ekman所著的《面部动作编码系统》一书中对于面部单元动作的描述,并结合表情和动作单元的映射关系,从而分别总结出对应于表情数据集Multi-PIE中六种表情的描述文本,和对应于BU-3DFE数据集中除中性表情以外的六种表情的描述文本。如表1是本实施例中总结的上述两个数据集中出现的所有表情的描述文本。在两个数据集上分别进行实验时,m均为6,且任意一条表情描述文本预处理后的长度不超过512。如图2是一个表示惊讶的人脸图像及对应的描述文本,虚线椭圆圈出该表情产生时面部显著变化的区域,右边的文本给出了对应的描述;
表1表情描述文本
步骤1.2、构建多模态数据的表情图像数据集合:
获取真实人脸图像数据集并使用图像旋转、裁剪以及归一化的方法进行预处理,从而得到表情图像数据集其中,xi,yi,vi分别表示第i个人脸图像及对应的表情类别和姿势类别,yi∈{1,2,…,m′},vi∈{1,2,…,n},N是表情图像数据集D中图像的数量,m′是表情的总类别数,n是姿势的总类别数,且m′=m;本实施例中,表情数据集Multi-PIE分5个姿势和7个姿势两种实验设置,所选取的人脸图像数量分别为7095和6174,图像分辨率为128*128,表情数据集BU-3DFE分5个姿势、7个姿势和35个姿势三种实验设置,所选取的人脸图像数量分别为12000、16800和21000,图像分辨率为256*256,其中的人脸图像是从人脸3D模型通过工具渲染得到的;
步骤2、构建姿势分类器,包含:姿势特征提取器Ep,分类器Cp和特征对齐器AL:
步骤2.1、构建姿势特征提取器Ep为ResNet50结构:
ResNet50结构由一个卷积层,一个批归一化层,一个ReLU激活函数层,一个最大池化层,四个深度残差块和一个平均池化层组成;
步骤2.2、提取姿势特征:
将表情图像数据集D的第i个人脸图像xi输入姿势特征提取器Ep中,获得第i个人脸图像xi的姿势特征
步骤2.3、构建分类器Cp,包含一个全连接层:
将姿势特征输入到分类器Cp中,得到第i个人脸图像xi预测的姿势类别v′i
步骤2.4、利用式(1)构建姿势分类损失Lpose
Lpose=crossentropy(v′i,vi) (1)
式(1)中,crossentropy()表示交叉熵函数;
步骤2.5、利用式(2)计算第j种姿势的特征fj,从而得到n种姿势的特征:
式(2)中,nj表示预测的姿势类别v′i和真实的姿势类别vi都为第j种姿势类别的姿势特征集合的特征数量;如图3所示,本实施例中,以表情数据集Multi-PIE的7种角度实验设置为例,本方法遵循subject-independent的原则,选取其中4/5的数据做为训练集,剩下1/5的数据作为测试集,用训练后的姿势特征提取器Ep提取测试集中所有图像的姿势特征,并利用工具t-SNE将姿势特征映射到二维空间,最后将其表示在平面上,其中不同灰度表示不同的角度的姿势特征,其呈现明显的聚类现象,因而,姿势特征可以用做先验知识,从而使得模型具备自动适应角度变化的能力;为了消除外观和光照引起的偏差,本方法用预测的姿势类别和真实的姿势类别相同的所有姿势特征的聚类中心作为该类别的特征。
步骤2.6、构建特征对齐器AL,包含一个全连接层:
将第j种姿势的特征fj输入到特征对齐器AL中,得到对齐后的第j种姿势特征在本实施例中,人脸图像的姿势特征长度为2048,通过对齐器FC,将其映射到和最终表情描述文本特征相同的长度1024;
步骤3、构建表情描述文本特征提取器,包含:分词器Et,文本内特征编码器Eintra和文本间特征编码器Einter
步骤3.1、构建分词器Et,依次包含文本预处理层、特殊符号添加层、符号数字化层和序列对齐层;
将表情描述文本集合S的第k条文本sk输入到分词器Et中进行处理,获得对应的第k个数字序列以及对应的第k个位置编码为pck;在本实施例中,所有数字序列的长度均为512,位置编码的长度也为512,后续不足512的部分均用0补齐;
步骤3.2、构建文本内特征编码器Eintra,包含:嵌入层和多层Transformer编码器;
Transformer编码器由一个多头自注意力子层和一个前馈子层以残差方式连接而成;
将第k个数字序列和第k个位置编码pck输入到所述文本内特征编码器Eintra中进行处理,获得第k个初步表情描述文本特征/>在本实施例中,嵌入层会先将数字序列和位置编码分别嵌入到512*768的高维空间并相加,作为多层Transformer编码器的输入。多层Transformer编码器的层数设置为12,隐层大小设置为768,多头的数量设置为12。由于输出特征的第一部分内容就能表示输入序列的深层特征,因而所有初步表情描述文本特征的长度均为768。文本内特征编码器Eintra中的多层Transformer编码器用预训练参数初始化并在训练过程中保持冻结;
步骤3.3、构建文本间特征编码器Einter,包含:多层Transformer编码器;
将所有初步表情描述文本特征输入到文本间特征编码器Einter中进行处理,获得最终表情描述文本特征/>其中,/>表示第k条表情文本描述特征;在本实施例中,每个初步表情描述文本特征/>被看作整个输入序列的一个词嵌入,所以输入特征的长度为6*768。在最后输出层之后添加一个包含1024个神经元的全连接层,因而所有最终表情描述文本特征的长度为1024。文本间特征编码器Einter中的多层Transformer编码器同上,其参数随机初始化,并随着训练而更新。;
步骤4、构建跨模态模块,包含:图像视觉特征提取器Ev,姿势分类器Cp和表情分类器Ce
步骤4.1、构建图像视觉特征提取器Ev,包含部分ResNet50的层结构;
部分ResNet50的层结构包含一个卷积层,一个批归一化层,一个ReLU激活函数层,一个最大池化层和三个深度残差块;
将表情图像集D的第i个人脸图像xi输入到图像视觉特征提取器Ev中进行处理,获得第i个人脸图像xi的视觉特征在本实施例中,当人脸图像尺寸分别为128*128和256*256时,视觉特征的尺寸分别为1024*8*8和1024*16*16,也即,视觉特征的通道数,姿势特征的长度和表情描述文本特征的长度需保持一致,从而实现姿势特征和表情描述文本特征直接相加形成融合特征,继而和视觉特征计算注意力图;
步骤4.2、生成注意力图:
步骤4.2.1、利用式(3)计算对齐后的第j种姿势特征第k种表情文本描述特征与视觉特征/>的余弦矩阵/>
式(4)中,×表示矩阵乘法,|·|表示沿着第0维求和;在本实施例中,若视觉特征的尺寸为c*w*h,以输入图像尺寸为256*256为例,则c,w和h分别为1024,16和16,那么余弦矩阵的尺寸为w*h;
步骤4.3.2、利用式(4)计算余弦矩阵经激活函数ReLU后的矩阵/>
步骤4.3.3、利用式(5)计算矩阵经归一化函数Norm后的注意力图/>
在本实施例中,归一化函数的做法是对于矩阵中的所有元素,都除以矩阵中所有元素的和,具体的数学公式如式(6)所示;
式(6)中,表示矩阵/>第r行第c列的元素;
步骤4.4、利用式(7)计算第i个人脸图像xi的最终特征Fi
式(7)中,w和h分别表示视觉特征的宽度和高度,/>表示注意力图/>中按照先行后列的顺序排列后的第q个注意力权重,/>表示视觉特征/>中按照先行后列的顺序排列后的第q个视觉特征;
步骤4.4、构建姿势分类器Cp和表情分类器Ce
姿势分类器Cp和表情分类器Ce均为一个全连接层;
步骤4.5、将最终特征Fi分别输入到分类器Cp和分类器Ce中,并相应得到分类器Cp预测的人脸图像xi的姿势类别和分类器Ce预测的人脸图像xi的表情类别/>
步骤4.6、利用式(8)构建总分类损失Lall
步骤4.7、基于构建的多模态数据集合A,利用梯度下降的方法对所述文本间特征编码器Einter,图像视觉特征提取器Ev,姿势分类器Cp和表情分类器Ce进行训练,计算所述总分类损失Lall用于更新网络参数,并在总分类损失Lall最小时停止训练,从而得到最优表情表征网络,用于同时对姿势和表情进行识别。对于所有的更新网络,均采用BertAdam优化,其初始学习率为1e-5,随着训练批次的推进,学习率动态调整,从而使得模型达到全局最优。
实施例:
为了验证本发明方法中的有效性,本实验例在常用的多角度表情数据集Multi-PIE和BU-3DFE上进行实验。本实验按照subject-independent的原则,随机选择4/5的图像训练网络,剩下的1/5的图像用做测试,使用准确率作为评价标准,并给出与已有方法在两个数据集上的结果比较,如表2所示;
表2在Multi-PIE和BU-3DFE两个数据集上和已有方法相比的表情识别准确率
表2的实验结果显示本发明方法和其他方法相比效果都要好,从而证明了本发明提出方法的可行性。

Claims (1)

1.一种文本描述辅助的姿势感知的人脸表情识别方法,其特征在于,是按如下步骤进行:
步骤1、构建多模态数据集合A;
步骤1.1、构建多模态数据的表情描述文本集合,记为其中,sk表示第k条文本,m为文本的总条数;所述第k条文本sk包含的单词,记为/>其中,tk,l表示所述第k条文本sk中的第l个单词,Nk表示第k条文本信息的单词长度;
步骤1.2、构建多模态数据的表情图像数据集合:
获取真实人脸图像数据集并使用图像旋转、裁剪以及归一化的方法进行预处理,从而得到表情图像数据集其中,xi,yi,vi分别表示第i个人脸图像及对应的表情类别和姿势类别,yi∈{1,2,…,m'},vi∈{1,2,…,n},N是表情图像数据集D中图像的数量,m'是表情的总类别数,n是姿势的总类别数,且m'=m;
步骤2、构建姿势分类器,包含:姿势特征提取器Ep,分类器Cp和特征对齐器AL:
步骤2.1、构建所述姿势特征提取器Ep为ResNet50结构:
所述ResNet50结构由一个卷积层,一个批归一化层,一个ReLU激活函数层,一个最大池化层,四个深度残差块和一个平均池化层组成;
步骤2.2、提取姿势特征:
将所述表情图像数据集D的第i个人脸图像xi输入所述姿势特征提取器Ep中,获得第i个人脸图像xi的姿势特征
步骤2.3、构建所述分类器Cp,包含一个全连接层:
将所述姿势特征输入到所述分类器Cp中,得到第i个人脸图像xi预测的姿势类别v'i
步骤2.4、利用式(1)构建姿势分类损失Lpose
Lpose=crossentropy(v′i,vi) (1)
式(1)中,crossentropy()表示交叉熵函数;
步骤2.5、利用式(2)计算第j种姿势的特征fj,从而得到n种姿势的特征:
式(2)中,nj表示预测的姿势类别v'i和真实的姿势类别vi都为第j种姿势类别的姿势特征集合的特征数量;
步骤2.6、构建所述特征对齐器AL,包含一个全连接层:
将所述第j种姿势的特征fj输入到所述特征对齐器AL中,得到对齐后的第j种姿势特征
步骤3、构建表情描述文本特征提取器,包含:分词器Et,文本内特征编码器Eintra和文本间特征编码器Einter
步骤3.1、构建所述分词器Et,依次包含文本预处理层、特殊符号添加层、符号数字化层和序列对齐层;
将所述表情描述文本集合S的第k条文本sk输入到所述分词器Et中进行处理,获得对应的第k个数字序列以及对应的第k个位置编码为pck
步骤3.2、构建文本内特征编码器Eintra,包含:嵌入层和多层Transformer编码器;
所述Transformer编码器由一个多头自注意力子层和一个前馈子层以残差方式连接而成;
将所述第k个数字序列和第k个位置编码pck输入到所述文本内特征编码器Eintra中进行处理,获得第k个初步表情描述文本特征/>
步骤3.3、构建所述文本间特征编码器Einter,包含:多层Transformer编码器;
将所有初步表情描述文本特征输入到所述文本间特征编码器Einter中进行处理,获得最终表情描述文本特征/>其中,/>表示第k条表情文本描述特征;
步骤4、构建跨模态模块,包含:图像视觉特征提取器Ev,姿势分类器Cp和表情分类器Ce
步骤4.1、构建所述图像视觉特征提取器Ev,包含部分ResNet50的层结构;
所述部分ResNet50的层结构包含一个卷积层,一个批归一化层,一个ReLU激活函数层,一个最大池化层和三个深度残差块;
将所述表情图像集D的第i个人脸图像xi输入到图像视觉特征提取器Ev中进行处理,获得第i个人脸图像xi的视觉特征
步骤4.2、生成注意力图:
步骤4.2.1、利用式(3)计算对齐后的第j种姿势特征第k种表情文本描述特征/>与视觉特征/>的余弦矩阵/>
式(4)中,×表示矩阵乘法,|·|表示沿着第0维求和;
步骤4.3.2、利用式(4)计算余弦矩阵经激活函数ReLU后的矩阵/>
步骤4.3.3、利用式(5)计算矩阵经归一化函数Norm后的注意力图/>
步骤4.4、利用式(6)计算第i个人脸图像xi的最终特征Fi
式(6)中,w和h分别表示视觉特征的宽度和高度,/>表示注意力图/>中按照先行后列的顺序排列后的第q个注意力权重,/>表示视觉特征/>中按照先行后列的顺序排列后的第q个视觉特征;
步骤4.4、构建姿势分类器Cp和表情分类器Ce
所述姿势分类器Cp和表情分类器Ce均为一个全连接层;
步骤4.5、将所述最终特征Fi分别输入到所述分类器Cp和分类器Ce中,并相应得到所述分类器Cp预测的人脸图像xi的姿势类别和所述分类器Ce预测的人脸图像xi的表情类别
步骤4.6、利用式(7)构建总分类损失Lall
步骤4.7、基于构建的多模态数据集合A,利用梯度下降的方法对所述文本间特征编码器Einter,图像视觉特征提取器Ev,姿势分类器Cp和表情分类器Ce进行训练,计算所述总分类损失Lall用于更新网络参数,并在总分类损失Lall最小时停止训练,从而得到最优表情表征网络,用于同时对姿势和表情进行识别。
CN202210683619.1A 2022-06-16 2022-06-16 文本描述辅助的姿势感知的人脸表情识别方法 Active CN114944002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210683619.1A CN114944002B (zh) 2022-06-16 2022-06-16 文本描述辅助的姿势感知的人脸表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210683619.1A CN114944002B (zh) 2022-06-16 2022-06-16 文本描述辅助的姿势感知的人脸表情识别方法

Publications (2)

Publication Number Publication Date
CN114944002A CN114944002A (zh) 2022-08-26
CN114944002B true CN114944002B (zh) 2024-04-16

Family

ID=82910360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210683619.1A Active CN114944002B (zh) 2022-06-16 2022-06-16 文本描述辅助的姿势感知的人脸表情识别方法

Country Status (1)

Country Link
CN (1) CN114944002B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117456039B (zh) * 2023-12-25 2024-02-27 深圳墨世科技有限公司 基于联合训练的aigc魔术头像生成方法、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409222A (zh) * 2018-09-20 2019-03-01 中国地质大学(武汉) 一种基于移动端的多视角人脸表情识别方法
CN111582059A (zh) * 2020-04-20 2020-08-25 哈尔滨工程大学 一种基于变分自编码器的人脸表情识别方法
WO2020199693A1 (zh) * 2019-03-29 2020-10-08 中国科学院深圳先进技术研究院 一种大姿态下的人脸识别方法、装置及设备
CN113869276A (zh) * 2021-10-15 2021-12-31 山东大学 基于微表情的谎言识别方法及系统
WO2022052530A1 (zh) * 2020-09-10 2022-03-17 深圳前海微众银行股份有限公司 人脸矫正模型的训练方法、装置、电子设备及存储介质
CN114511906A (zh) * 2022-01-20 2022-05-17 重庆邮电大学 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10546232B2 (en) * 2017-07-04 2020-01-28 Microsoft Technology Licensing, Llc Image recognition with promotion of underrepresented classes
US11769056B2 (en) * 2019-12-30 2023-09-26 Affectiva, Inc. Synthetic data for neural network training using vectors

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409222A (zh) * 2018-09-20 2019-03-01 中国地质大学(武汉) 一种基于移动端的多视角人脸表情识别方法
WO2020199693A1 (zh) * 2019-03-29 2020-10-08 中国科学院深圳先进技术研究院 一种大姿态下的人脸识别方法、装置及设备
CN111582059A (zh) * 2020-04-20 2020-08-25 哈尔滨工程大学 一种基于变分自编码器的人脸表情识别方法
WO2022052530A1 (zh) * 2020-09-10 2022-03-17 深圳前海微众银行股份有限公司 人脸矫正模型的训练方法、装置、电子设备及存储介质
CN113869276A (zh) * 2021-10-15 2021-12-31 山东大学 基于微表情的谎言识别方法及系统
CN114511906A (zh) * 2022-01-20 2022-05-17 重庆邮电大学 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
人脸表情识别在辅助医疗中的应用及方法研究;孔德壮;朱梦宇;于江坤;;生命科学仪器(02);全文 *

Also Published As

Publication number Publication date
CN114944002A (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
Rahman et al. A new benchmark on american sign language recognition using convolutional neural network
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
Fan et al. Label distribution-based facial attractiveness computation by deep residual learning
US11783615B2 (en) Systems and methods for language driven gesture understanding
CN109886072B (zh) 基于双向Ladder结构的人脸属性分类系统
Bhavana et al. Hand sign recognition using CNN
CN110175248B (zh) 一种基于深度学习和哈希编码的人脸图像检索方法和装置
CN107491729B (zh) 基于余弦相似度激活的卷积神经网络的手写数字识别方法
WO2022188697A1 (zh) 提取生物特征的方法、装置、设备、介质及程序产品
CN115761757A (zh) 基于解耦特征引导的多模态文本页面分类方法
CN113780249B (zh) 表情识别模型的处理方法、装置、设备、介质和程序产品
CN112686345A (zh) 一种基于注意力机制的脱机英文手写识别方法
CN112651940A (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN113255602A (zh) 基于多模态数据的动态手势识别方法
CN114944002B (zh) 文本描述辅助的姿势感知的人脸表情识别方法
Guetari et al. Real time emotion recognition in video stream, using B-CNN and F-CNN
CN116758621B (zh) 基于自注意力机制的遮挡人脸面部表情深度卷积识别方法
CN113780350B (zh) 一种基于ViLBERT和BiLSTM的图像描述方法
CN116244464A (zh) 一种基于多模态数据融合的手绘图像实时检索方法
Liu et al. Two-Channel feature extraction convolutional neural network for facial expression recognition
Bhoir et al. A decision-making tool for creating and identifying face sketches
Thakar et al. Sign Language to Text Conversion in Real Time using Transfer Learning
Khubchandani et al. Sign Language Recognition
Moharkar et al. A scene perception system for visually impaired based on object detection and classification using CNN
CN110570349A (zh) 一种基于生成对抗网络由父母照片生成子女照片的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant