CN114944002A - 文本描述辅助的姿势感知的人脸表情识别方法 - Google Patents
文本描述辅助的姿势感知的人脸表情识别方法 Download PDFInfo
- Publication number
- CN114944002A CN114944002A CN202210683619.1A CN202210683619A CN114944002A CN 114944002 A CN114944002 A CN 114944002A CN 202210683619 A CN202210683619 A CN 202210683619A CN 114944002 A CN114944002 A CN 114944002A
- Authority
- CN
- China
- Prior art keywords
- expression
- text
- feature
- constructing
- posture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000008921 facial expression Effects 0.000 title claims abstract description 8
- 230000008447 perception Effects 0.000 title claims abstract description 5
- 230000014509 gene expression Effects 0.000 claims abstract description 113
- 230000036544 posture Effects 0.000 claims abstract description 74
- 230000000007 visual effect Effects 0.000 claims abstract description 40
- 238000010586 diagram Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 8
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000002864 sequence alignment Methods 0.000 claims description 3
- 230000001815 facial effect Effects 0.000 abstract description 6
- 230000009471 action Effects 0.000 abstract description 3
- 230000007246 mechanism Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 241001270131 Agaricus moelleri Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000011541 reaction mixture Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/70—Multimodal biometrics, e.g. combining information from different biometric modalities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种表情描述文本辅助的姿势感知的人脸表情识别方法,包括:1、根据表情发生时的面部单元动作和对原始人脸图像的预处理,构建出多模态数据集合;2、构建姿势分类器,从人脸图像中提取姿势特征,并选取各种姿势的聚类中心作为对应的姿势特征;3、构建表情描述文本特征提取器,从文本中提取表情文本特征;4、融合人脸视觉特征,姿势特征和表情文本特征,以跨模态的方式为视觉特征生成对应姿势和表情的注意力图,并通过同时区分注意力图加权后的视觉特征的姿势和表情类别,从而得到最优表情表征网络。本发明能有效利用先验姿势特征和表情描述文本丰富的语义信息,从而能实现任意姿势下的表情的精准识别。
Description
技术领域
本发明涉及情感计算领域,具体的是一种文本描述辅助的姿势感知的人脸表情识别方法。
背景技术
表情识别作为情感计算的一个分支,正在从实验室环境转向更加灵活多变的室外场景,其中,头部姿势的变化是影响识别性能的重要因素之一。现有的多角度表情识别分为两类:基于生成的方法和基于姿势鲁棒的方法,姿势鲁棒的方法又可以细分为基于正则化方法、基于对抗的方法、基于解缠的方法和基于子空间的方法。重构技术通常被用于基于解缠的方法,基于子空间的方法通常提取原始图像的手工特征,或者对特征空间加以约束,其他方法则主要用到各种生成对抗方法的变体。一些表情识别的方法也引入注意力机制。
然而无论是基于生成的方法还是基于姿势鲁棒的方法,以及基于注意力的方法,它们都存在一些根本上难以克服的问题。基于生成的方法通过生成大量各个角度下的各种表情图像来丰富数据集,从而使模型得到充分训练,然而生成的图像质量较差;基于姿势鲁棒的方法试图消除或者分离出姿势信息,从而得到只包含表情信息的特征,但姿势和表情以一种复杂的非线性方式耦合在一起;基于注意力机制的方法一方面没有考虑姿势变化的影响,另一方面很难保证从原始图像自动学习的注意力图的有效性。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种文本描述辅助的姿势感知的人脸表情识别方法,以期能通过引入先验姿势特征和表情描述文本并利用跨模态的注意力机制实现任意姿势下表情的精准识别,从而提高表情识别的准确性和鲁棒性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种文本描述辅助的姿势感知的人脸表情识别方法的特点在于,是按如下步骤进行:
步骤1、构建多模态数据集合A;
步骤1.1、构建多模态数据的表情描述文本集合,记为其中,sk表示第k条文本,m为文本的总条数;所述第k条文本sk包含的单词,记为其中,tk,l表示所述第k条文本sk中的第l个单词,Nk表示第k条文本信息的单词长度;
步骤1.2、构建多模态数据的表情图像数据集合:
获取真实人脸图像数据集并使用图像旋转、裁剪以及归一化的方法进行预处理,从而得到表情图像数据集其中,xi,yi,vi分别表示第i个人脸图像及对应的表情类别和姿势类别,yi∈{1,2,…,m′},vi∈{1,2,…,n},N是表情图像数据集D中图像的数量,m′是表情的总类别数,n是姿势的总类别数,且m′=m;
步骤2、构建姿势分类器,包含:姿势特征提取器Ep,分类器Cp和特征对齐器AL:
步骤2.1、构建所述姿势特征提取器Ep为ResNet50结构:
所述ResNet50结构由一个卷积层,一个批归一化层,一个ReLU激活函数层,一个最大池化层,四个深度残差块和一个平均池化层组成;
步骤2.2、提取姿势特征:
步骤2.3、构建所述分类器Cp,包含一个全连接层:
步骤2.4、利用式(1)构建姿势分类损失Lpose:
Lpose=crossentropy(v′i,vi) (1)
式(1)中,crossentropy()表示交叉熵函数;
步骤2.5、利用式(2)计算第j种姿势的特征fj,从而得到n种姿势的特征:
式(2)中,nj表示预测的姿势类别v′i和真实的姿势类别vi都为第j种姿势类别的姿势特征集合的特征数量;
步骤2.6、构建所述特征对齐器AL,包含一个全连接层:
步骤3、构建表情描述文本特征提取器,包含:分词器Et,文本内特征编码器Eintra和文本间特征编码器Einter:
步骤3.1、构建所述分词器Et,依次包含文本预处理层、特殊符号添加层、符号数字化层和序列对齐层;
步骤3.2、构建文本内特征编码器Eintra,包含:嵌入层和多层Transformer编码器;
所述Transformer编码器由一个多头自注意力子层和一个前馈子层以残差方式连接而成;
步骤3.3、构建所述文本间特征编码器Einter,包含:多层Transformer编码器;
步骤4、构建跨模态模块,包含:图像视觉特征提取器Ev,姿势分类器Cp和表情分类器Ce:
步骤4.1、构建所述图像视觉特征提取器Ev,包含部分ResNet50的层结构;
所述部分ResNet50的层结构包含一个卷积层,一个批归一化层,一个ReLU激活函数层,一个最大池化层和三个深度残差块;
步骤4.2、生成注意力图:
式(4)中,×表示矩阵乘法,|·|表示沿着第0维求和;
步骤4.4、利用式(6)计算第i个人脸图像xi的最终特征Fi:
步骤4.4、构建姿势分类器Cp和表情分类器Ce:
所述姿势分类器Cp和表情分类器Ce均为一个全连接层;
步骤4.6、利用式(7)构建总分类损失Lall:
步骤4.7、基于构建的多模态数据集合A,利用梯度下降的方法对所述文本间特征编码器Einter,图像视觉特征提取器Ev,姿势分类器Cp和表情分类器Ce进行训练,计算所述总分类损失Lall用于更新网络参数,并在总分类损失Lall最小时停止训练,从而得到最优表情表征网络,用于同时对姿势和表情进行识别。
与现有技术相比,本发明的有益效果在于:
1)本发明提出利用先验姿势特征和同时做姿势和表情分类的多任务学习方法,从而能自动适应角度的变化。这不同于已有的通过强行消除或者分离出姿势的方法,因而能够增强表情识别的姿势鲁棒性。
2)本发明提出的方法从表情文本中提取丰富的语义信息,并通过跨模态注意力机制生成注意力图,注意力图表征人脸各个区域的重要程度。通过对提取特征使用注意力图加权,可以使模型更加关注具有表情区分度的区域,从而能更有效的将表情文本应用在表情识别任务中,提高表情识别的准确性。
3)本发明构建一个自动适应姿势变化,主动关注引起表情的关键区域的深度神经网络,解决了注意力机制在多姿势条件下效果降低的问题,从而使得模型在各种姿势下都能捕获到表情相关的关键面部区域。
附图说明
图1为本发明提出方法的结构图。
图2为本发明表示惊讶的面部图像和对应的描述文本图;
图3为本发明姿势特征降维后的可视化效果图。
具体实施方式
本实施例中,参见图1,一种文本描述辅助的姿势感知的人脸表情识别方法是按如下步骤进行:
步骤1、构建多模态数据集合A;
步骤1.1、构建多模态数据的表情描述文本集合,记为其中,sk表示第k条文本,m为文本的总条数;第k条文本sk包含的单词,记为其中,tk,l表示第k条文本sk中的第l个单词,Nk表示第k条文本信息的单词长度;在实施案例中,参考Paul Ekman所著的《面部动作编码系统》一书中对于面部单元动作的描述,并结合表情和动作单元的映射关系,从而分别总结出对应于表情数据集Multi-PIE中六种表情的描述文本,和对应于BU-3DFE数据集中除中性表情以外的六种表情的描述文本。如表1是本实施例中总结的上述两个数据集中出现的所有表情的描述文本。在两个数据集上分别进行实验时,m均为6,且任意一条表情描述文本预处理后的长度不超过512。如图2是一个表示惊讶的人脸图像及对应的描述文本,虚线椭圆圈出该表情产生时面部显著变化的区域,右边的文本给出了对应的描述;
表1表情描述文本
步骤1.2、构建多模态数据的表情图像数据集合:
获取真实人脸图像数据集并使用图像旋转、裁剪以及归一化的方法进行预处理,从而得到表情图像数据集其中,xi,yi,vi分别表示第i个人脸图像及对应的表情类别和姿势类别,yi∈{1,2,…,m′},vi∈{1,2,…,n},N是表情图像数据集D中图像的数量,m′是表情的总类别数,n是姿势的总类别数,且m′=m;本实施例中,表情数据集Multi-PIE分5个姿势和7个姿势两种实验设置,所选取的人脸图像数量分别为7095和6174,图像分辨率为128*128,表情数据集BU-3DFE分5个姿势、7个姿势和35个姿势三种实验设置,所选取的人脸图像数量分别为12000、16800和21000,图像分辨率为256*256,其中的人脸图像是从人脸3D模型通过工具渲染得到的;
步骤2、构建姿势分类器,包含:姿势特征提取器Ep,分类器Cp和特征对齐器AL:
步骤2.1、构建姿势特征提取器Ep为ResNet50结构:
ResNet50结构由一个卷积层,一个批归一化层,一个ReLU激活函数层,一个最大池化层,四个深度残差块和一个平均池化层组成;
步骤2.2、提取姿势特征:
步骤2.3、构建分类器Cp,包含一个全连接层:
步骤2.4、利用式(1)构建姿势分类损失Lpose:
Lpose=crossentropy(v′i,vi) (1)
式(1)中,crossentropy()表示交叉熵函数;
步骤2.5、利用式(2)计算第j种姿势的特征fj,从而得到n种姿势的特征:
式(2)中,nj表示预测的姿势类别v′i和真实的姿势类别vi都为第j种姿势类别的姿势特征集合的特征数量;如图3所示,本实施例中,以表情数据集Multi-PIE的7种角度实验设置为例,本方法遵循subject-independent的原则,选取其中4/5的数据做为训练集,剩下1/5的数据作为测试集,用训练后的姿势特征提取器Ep提取测试集中所有图像的姿势特征,并利用工具t-SNE将姿势特征映射到二维空间,最后将其表示在平面上,其中不同灰度表示不同的角度的姿势特征,其呈现明显的聚类现象,因而,姿势特征可以用做先验知识,从而使得模型具备自动适应角度变化的能力;为了消除外观和光照引起的偏差,本方法用预测的姿势类别和真实的姿势类别相同的所有姿势特征的聚类中心作为该类别的特征。
步骤2.6、构建特征对齐器AL,包含一个全连接层:
步骤3、构建表情描述文本特征提取器,包含:分词器Et,文本内特征编码器Eintra和文本间特征编码器Einter:
步骤3.1、构建分词器Et,依次包含文本预处理层、特殊符号添加层、符号数字化层和序列对齐层;
将表情描述文本集合S的第k条文本sk输入到分词器Et中进行处理,获得对应的第k个数字序列以及对应的第k个位置编码为pck;在本实施例中,所有数字序列的长度均为512,位置编码的长度也为512,后续不足512的部分均用0补齐;
步骤3.2、构建文本内特征编码器Eintra,包含:嵌入层和多层Transformer编码器;
Transformer编码器由一个多头自注意力子层和一个前馈子层以残差方式连接而成;
将第k个数字序列和第k个位置编码pck输入到所述文本内特征编码器Eintra中进行处理,获得第k个初步表情描述文本特征在本实施例中,嵌入层会先将数字序列和位置编码分别嵌入到512*768的高维空间并相加,作为多层Transformer编码器的输入。多层Transformer编码器的层数设置为12,隐层大小设置为768,多头的数量设置为12。由于输出特征的第一部分内容就能表示输入序列的深层特征,因而所有初步表情描述文本特征的长度均为768。文本内特征编码器Eintra中的多层Transformer编码器用预训练参数初始化并在训练过程中保持冻结;
步骤3.3、构建文本间特征编码器Einter,包含:多层Transformer编码器;
将所有初步表情描述文本特征输入到文本间特征编码器Einter中进行处理,获得最终表情描述文本特征其中,表示第k条表情文本描述特征;在本实施例中,每个初步表情描述文本特征被看作整个输入序列的一个词嵌入,所以输入特征的长度为6*768。在最后输出层之后添加一个包含1024个神经元的全连接层,因而所有最终表情描述文本特征的长度为1024。文本间特征编码器Einter中的多层Transformer编码器同上,其参数随机初始化,并随着训练而更新。;
步骤4、构建跨模态模块,包含:图像视觉特征提取器Ev,姿势分类器Cp和表情分类器Ce:
步骤4.1、构建图像视觉特征提取器Ev,包含部分ResNet50的层结构;
部分ResNet50的层结构包含一个卷积层,一个批归一化层,一个ReLU激活函数层,一个最大池化层和三个深度残差块;
将表情图像集D的第i个人脸图像xi输入到图像视觉特征提取器Ev中进行处理,获得第i个人脸图像xi的视觉特征在本实施例中,当人脸图像尺寸分别为128*128和256*256时,视觉特征的尺寸分别为1024*8*8和1024*16*16,也即,视觉特征的通道数,姿势特征的长度和表情描述文本特征的长度需保持一致,从而实现姿势特征和表情描述文本特征直接相加形成融合特征,继而和视觉特征计算注意力图;
步骤4.2、生成注意力图:
式(4)中,×表示矩阵乘法,|·|表示沿着第0维求和;在本实施例中,若视觉特征的尺寸为c*w*h,以输入图像尺寸为256*256为例,则c,w和h分别为1024,16和16,那么余弦矩阵的尺寸为w*h;
步骤4.4、利用式(7)计算第i个人脸图像xi的最终特征Fi:
步骤4.4、构建姿势分类器Cp和表情分类器Ce:
姿势分类器Cp和表情分类器Ce均为一个全连接层;
步骤4.6、利用式(8)构建总分类损失Lall:
步骤4.7、基于构建的多模态数据集合A,利用梯度下降的方法对所述文本间特征编码器Einter,图像视觉特征提取器Ev,姿势分类器Cp和表情分类器Ce进行训练,计算所述总分类损失Lall用于更新网络参数,并在总分类损失Lall最小时停止训练,从而得到最优表情表征网络,用于同时对姿势和表情进行识别。对于所有的更新网络,均采用BertAdam优化,其初始学习率为1e-5,随着训练批次的推进,学习率动态调整,从而使得模型达到全局最优。
实施例:
为了验证本发明方法中的有效性,本实验例在常用的多角度表情数据集Multi-PIE和BU-3DFE上进行实验。本实验按照subject-independent的原则,随机选择4/5的图像训练网络,剩下的1/5的图像用做测试,使用准确率作为评价标准,并给出与已有方法在两个数据集上的结果比较,如表2所示;
表2在Multi-PIE和BU-3DFE两个数据集上和已有方法相比的表情识别准确率
表2的实验结果显示本发明方法和其他方法相比效果都要好,从而证明了本发明提出方法的可行性。
Claims (1)
1.一种文本描述辅助的姿势感知的人脸表情识别方法,其特征在于,是按如下步骤进行:
步骤1、构建多模态数据集合A;
步骤1.1、构建多模态数据的表情描述文本集合,记为其中,sk表示第k条文本,m为文本的总条数;所述第k条文本sk包含的单词,记为其中,tk,l表示所述第k条文本sk中的第l个单词,Nk表示第k条文本信息的单词长度;
步骤1.2、构建多模态数据的表情图像数据集合:
获取真实人脸图像数据集并使用图像旋转、裁剪以及归一化的方法进行预处理,从而得到表情图像数据集其中,xi,yi,vi分别表示第i个人脸图像及对应的表情类别和姿势类别,yi∈{1,2,…,m'},vi∈{1,2,…,n},N是表情图像数据集D中图像的数量,m'是表情的总类别数,n是姿势的总类别数,且m'=m;
步骤2、构建姿势分类器,包含:姿势特征提取器Ep,分类器Cp和特征对齐器AL:
步骤2.1、构建所述姿势特征提取器Ep为ResNet50结构:
所述ResNet50结构由一个卷积层,一个批归一化层,一个ReLU激活函数层,一个最大池化层,四个深度残差块和一个平均池化层组成;
步骤2.2、提取姿势特征:
步骤2.3、构建所述分类器Cp,包含一个全连接层:
步骤2.4、利用式(1)构建姿势分类损失Lpose:
Lpose=crossentropy(v′i,vi) (1)
式(1)中,crossentropy()表示交叉熵函数;
步骤2.5、利用式(2)计算第j种姿势的特征fj,从而得到n种姿势的特征:
式(2)中,nj表示预测的姿势类别v'i和真实的姿势类别vi都为第j种姿势类别的姿势特征集合的特征数量;
步骤2.6、构建所述特征对齐器AL,包含一个全连接层:
步骤3、构建表情描述文本特征提取器,包含:分词器Et,文本内特征编码器Eintra和文本间特征编码器Einter:
步骤3.1、构建所述分词器Et,依次包含文本预处理层、特殊符号添加层、符号数字化层和序列对齐层;
步骤3.2、构建文本内特征编码器Eintra,包含:嵌入层和多层Transformer编码器;
所述Transformer编码器由一个多头自注意力子层和一个前馈子层以残差方式连接而成;
步骤3.3、构建所述文本间特征编码器Einter,包含:多层Transformer编码器;
步骤4、构建跨模态模块,包含:图像视觉特征提取器Ev,姿势分类器Cp和表情分类器Ce:
步骤4.1、构建所述图像视觉特征提取器Ev,包含部分ResNet50的层结构;
所述部分ResNet50的层结构包含一个卷积层,一个批归一化层,一个ReLU激活函数层,一个最大池化层和三个深度残差块;
步骤4.2、生成注意力图:
式(4)中,×表示矩阵乘法,|·|表示沿着第0维求和;
步骤4.4、利用式(6)计算第i个人脸图像xi的最终特征Fi:
步骤4.4、构建姿势分类器Cp和表情分类器Ce:
所述姿势分类器Cp和表情分类器Ce均为一个全连接层;
步骤4.6、利用式(7)构建总分类损失Lall:
步骤4.7、基于构建的多模态数据集合A,利用梯度下降的方法对所述文本间特征编码器Einter,图像视觉特征提取器Ev,姿势分类器Cp和表情分类器Ce进行训练,计算所述总分类损失Lall用于更新网络参数,并在总分类损失Lall最小时停止训练,从而得到最优表情表征网络,用于同时对姿势和表情进行识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210683619.1A CN114944002B (zh) | 2022-06-16 | 2022-06-16 | 文本描述辅助的姿势感知的人脸表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210683619.1A CN114944002B (zh) | 2022-06-16 | 2022-06-16 | 文本描述辅助的姿势感知的人脸表情识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114944002A true CN114944002A (zh) | 2022-08-26 |
CN114944002B CN114944002B (zh) | 2024-04-16 |
Family
ID=82910360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210683619.1A Active CN114944002B (zh) | 2022-06-16 | 2022-06-16 | 文本描述辅助的姿势感知的人脸表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114944002B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117456039A (zh) * | 2023-12-25 | 2024-01-26 | 深圳墨世科技有限公司 | 基于联合训练的aigc魔术头像生成方法、装置及设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190012526A1 (en) * | 2017-07-04 | 2019-01-10 | Microsoft Technology Licensing, Llc | Image recognition with promotion of underrepresented classes |
CN109409222A (zh) * | 2018-09-20 | 2019-03-01 | 中国地质大学(武汉) | 一种基于移动端的多视角人脸表情识别方法 |
CN111582059A (zh) * | 2020-04-20 | 2020-08-25 | 哈尔滨工程大学 | 一种基于变分自编码器的人脸表情识别方法 |
WO2020199693A1 (zh) * | 2019-03-29 | 2020-10-08 | 中国科学院深圳先进技术研究院 | 一种大姿态下的人脸识别方法、装置及设备 |
US20210201003A1 (en) * | 2019-12-30 | 2021-07-01 | Affectiva, Inc. | Synthetic data for neural network training using vectors |
CN113869276A (zh) * | 2021-10-15 | 2021-12-31 | 山东大学 | 基于微表情的谎言识别方法及系统 |
WO2022052530A1 (zh) * | 2020-09-10 | 2022-03-17 | 深圳前海微众银行股份有限公司 | 人脸矫正模型的训练方法、装置、电子设备及存储介质 |
CN114511906A (zh) * | 2022-01-20 | 2022-05-17 | 重庆邮电大学 | 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备 |
-
2022
- 2022-06-16 CN CN202210683619.1A patent/CN114944002B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190012526A1 (en) * | 2017-07-04 | 2019-01-10 | Microsoft Technology Licensing, Llc | Image recognition with promotion of underrepresented classes |
CN109409222A (zh) * | 2018-09-20 | 2019-03-01 | 中国地质大学(武汉) | 一种基于移动端的多视角人脸表情识别方法 |
WO2020199693A1 (zh) * | 2019-03-29 | 2020-10-08 | 中国科学院深圳先进技术研究院 | 一种大姿态下的人脸识别方法、装置及设备 |
US20210201003A1 (en) * | 2019-12-30 | 2021-07-01 | Affectiva, Inc. | Synthetic data for neural network training using vectors |
CN111582059A (zh) * | 2020-04-20 | 2020-08-25 | 哈尔滨工程大学 | 一种基于变分自编码器的人脸表情识别方法 |
WO2022052530A1 (zh) * | 2020-09-10 | 2022-03-17 | 深圳前海微众银行股份有限公司 | 人脸矫正模型的训练方法、装置、电子设备及存储介质 |
CN113869276A (zh) * | 2021-10-15 | 2021-12-31 | 山东大学 | 基于微表情的谎言识别方法及系统 |
CN114511906A (zh) * | 2022-01-20 | 2022-05-17 | 重庆邮电大学 | 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备 |
Non-Patent Citations (1)
Title |
---|
孔德壮;朱梦宇;于江坤;: "人脸表情识别在辅助医疗中的应用及方法研究", 生命科学仪器, no. 02 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117456039A (zh) * | 2023-12-25 | 2024-01-26 | 深圳墨世科技有限公司 | 基于联合训练的aigc魔术头像生成方法、装置及设备 |
CN117456039B (zh) * | 2023-12-25 | 2024-02-27 | 深圳墨世科技有限公司 | 基于联合训练的aigc魔术头像生成方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114944002B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rahman et al. | A new benchmark on american sign language recognition using convolutional neural network | |
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
Alonso et al. | Adversarial generation of handwritten text images conditioned on sequences | |
CN111581405B (zh) | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 | |
CN108804530B (zh) | 对图像的区域加字幕 | |
CN110717431B (zh) | 一种结合多视角注意力机制的细粒度视觉问答方法 | |
CN111160343B (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
CN111161200A (zh) | 基于注意力机制的人体姿态迁移方法 | |
Gallo et al. | Image and encoded text fusion for multi-modal classification | |
CN115471851B (zh) | 融合双重注意力机制的缅甸语图像文本识别方法及装置 | |
CN114549850B (zh) | 一种解决模态缺失问题的多模态图像美学质量评价方法 | |
CN113255457A (zh) | 基于人脸表情识别的动画角色面部表情生成方法及系统 | |
WO2022188697A1 (zh) | 提取生物特征的方法、装置、设备、介质及程序产品 | |
CN115761757A (zh) | 基于解耦特征引导的多模态文本页面分类方法 | |
CN113837366A (zh) | 一种多风格字体生成方法 | |
CN111428443A (zh) | 一种基于实体上下文语义交互的实体链接方法 | |
CN109492610B (zh) | 一种行人重识别方法、装置及可读存储介质 | |
CN116311483B (zh) | 基于局部面部区域重构和记忆对比学习的微表情识别方法 | |
CN114842547A (zh) | 基于手势动作生成与识别的手语教学方法、装置及系统 | |
CN114944002A (zh) | 文本描述辅助的姿势感知的人脸表情识别方法 | |
CN114840649A (zh) | 一种基于跨模态互注意力神经网络的学生认知诊断方法 | |
CN112651225B (zh) | 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法 | |
CN116758621B (zh) | 基于自注意力机制的遮挡人脸面部表情深度卷积识别方法 | |
CN113780350B (zh) | 一种基于ViLBERT和BiLSTM的图像描述方法 | |
Wen et al. | A sequence-to-sequence framework based on transformer with masked language model for optical music recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |