CN115631530B - 一种基于人脸动作单元的公平人脸表情识别方法 - Google Patents
一种基于人脸动作单元的公平人脸表情识别方法 Download PDFInfo
- Publication number
- CN115631530B CN115631530B CN202211651570.8A CN202211651570A CN115631530B CN 115631530 B CN115631530 B CN 115631530B CN 202211651570 A CN202211651570 A CN 202211651570A CN 115631530 B CN115631530 B CN 115631530B
- Authority
- CN
- China
- Prior art keywords
- sample
- expression
- network
- face
- local area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开一种基于人脸动作单元的公平人脸表情识别方法,包括:获取训练图片及人脸动作单元所在局部区域;构建平衡特征融合网络;对所述平衡特征融合网络添加权重分配,根据训练图片及人脸单元所在局部区域,通过联合损失函数对所述平衡特征融合网络进行优化,通过优化后的网络以实现公平人脸表情识别方法。
Description
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种基于人脸动作单元的公平人脸表情识别方法。
背景技术
近年来,基于深度学习的人脸表情识别技术引起了越来越多的计算机视觉研究人员的关注并通过不断地探索已经取得了不小的成功。人脸表情是传播人类情感信息与协调人际关系的重要方式。因此,人脸表情识别技术在人机交互,安全驾驶和犯罪侦测等有着广泛的应用。然而,由数据驱使的深度学习存在偏见,人脸表情识别同样在人口统计学属性上存在偏见。已有研究在这些属性上提升人脸表情识别的公平性取得了一定的进展,但针对表情类别的偏见研究比较少。存在表情类别偏见的人脸表情识别技术应用在日常生活中将会带来不利的影响。例如,表情识别在安全驾驶领域中,作为提醒司机驾驶安全的辅助工具,实时拍摄司机的表情图像来判断其是否处于疲劳状态,以此来进行安全提醒。然而,人脸表情识别系统存在类别偏见,由此不能及时准确地判断司机的表情并做出安全提醒,那将大大提高交通事故发生的概率,这与应用人脸表情识别在实际应用中的初衷是背道而驰的。所以,提高人脸表情识别的类别公平性成为了当前的迫切需求。
有研究表明,人脸表情识别常用的数据集存在数据不平衡现象,消极类表情(害怕和厌恶等)的数据量远少于积极类表情(高兴和惊讶等)的数据量。然而,基于深度学习的方法往往容易受数据集的影响,数据集在消极类表情上存在偏见,模型训练在此类数据集上势必会学习到这种偏见。根据人脸动作编码系统,人脸表情可以被定量解析为多个人脸动作单元的组合。通过添加人脸动作单元信息作为表情特征的补充,可以丰富人脸表情特征。特征融合与注意力机制在计算机视觉中是近年来的研究热点。特征融合可以让模型在多种特征的结合下,学习到更多的可区分特征。注意力机制表明特征图上的不同区域对于预测结果的重要程度是不一样的,引入该机制,可以提高模型对重要特征的提取。但是,简单的将这两种技术引入人脸表情识别,不能在类别公平性和整体准确性之间有一个比较好的权衡,因此需要对其进一步改进与完善。
发明内容
为解决上述现有技术中所存在的问题,本发明提供一种基于人脸动作单元的公平人脸表情识别方法,能够有效提高消极类表情的性能,增强表情类别的公平性。
为了实现上述技术目的,本发明提供如下技术方案:
一种基于人脸动作单元的公平人脸表情识别方法,包括:
获取训练图片及人脸动作单元所在局部区域;构建平衡特征融合网络;对所述平衡特征融合网络添加权重分配,根据训练图片及人脸动作单元所在局部区域,通过联合损失函数对所述平衡特征融合网络进行优化,通过优化后的网络以实现公平人脸表情识别方法。
可选的,获取训练图片及人脸动作单元所在局部区域的过程包括:
获取人脸表情图片,对人脸表情图片进行标准化,得到训练图片,通过人脸关键点检测获取训练图片中的人脸动作单元所在局部区域。
可选的,所述平衡特征融合网络包括:残差网络、局部区域特征提取网络、特征融合模块和注意力机制模块;其中通过所述残差网络对训练图片进行特征提取得到表情特征;通过所述局部区域特征提取网络对人脸动作单元所在局部区域进行特征提取,得到局部区域特征;通过所述特征融合模块用于对局部区域特征融合,并将融合后的特征与表情特征进行拼接,生成表情相关特征;通过所述注意力机制模块生成跨空间维度及通道维度的注意力图,通过注意力图对表情相关特征进行分类,生成人脸表情识别结果。
可选的,局部区域特征提取网络内包含感兴趣池化层。
可选的,注意力机制模块包括第一分支、第二分支及第三分支,通过第一分支及第二分支捕获通道和空间之间的跨维度交互信息,通过第三分支捕获空间的交互信息。每个分支都包含最大池化层和平均池化层,一个卷积层和激活函数,其中卷积层中的卷积核大小为3×3,激活函数是Sigmoid。
可选的,对所述平衡特征融合网络添加权重分配的过程包括:
在所述平衡特征融合网络中的所述特征融合模块中,对局部区域特征融合的过程中,训练图片及人脸动作单元所在局部区域,建立表情类别与局部区域的关系映射,将损失值大于表情类别平均损失值的表情类别进行筛选,基于关系映射,统计筛选后的表情类别中存在的局部区域的出现个数,对所述出现个数进行归一化处理,得到融合过程中的权重,根据所述权重对局部区域特征进行融合。
可选的,所述联合损失函数为交叉熵损失函数及平衡均方误差损失函数的和。
本发明具有如下技术效果:
1.本发明采用人脸动作单元来研究表情识别的类别偏见问题,利用了人脸动作单元的线性组合可以表示六类基本表情这一特点,提取其特征作为基础表情特征的补充,可以克服模型因表情类别数据量分布不平衡而产生准确性差异的问题,从而缓解表情识别中的类别偏见。
2.本发明搭建了一个平衡特征融合网络,该网络在把与人脸动作单元特征补充到基础表情特征上时,对消极类表情相关的人脸动作单元局部特征分配更高的权重,提高了网络对消极类表情的特征提取。同时注意力机制能够挑选出重要的特征进行分类。最后平衡特征融合网络在联合损失函数(交叉熵和平衡均方误差损失)的优化下,能够达到在提升公平性同时又确保整体准确性不下降的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的平衡特征融合网络的结构和流程示意图;
图2为本发明的人脸动作单元对应局部区域示意图。
图3为本发明的注意力机制的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明公开了一种基于人脸动作单元和特征加权融合的公平人脸表情识别方法,包括:1对训练样本集中的图片进行标准化处理并获得人脸动作单元所在局部区域;2构建平衡特征融合网络,该网络包括ResNet50、局部区域特征提取网络、特征融合和注意力机制四个模块;3 构建人脸动作单元特征所在局部区域权重分配模块,以提高模型对消极类表情的特征提取能力;4 由注意力机制模块挑选中重要的特征用于分类,确保整体分类性能;5 构建联合损失函数对平衡特征融合网络进行优化训练,该损失函数由交叉熵损失函数和平衡均方误差损失函数组成。本发明采用人脸动作单元和特征加权融合的方式来提高模型对消极类表情的特征提取,从而避免人脸表情识别在消极类群体上做出的不公平决策。
如图1所示,为本实施例的基于人脸动作单元和特征加权融合的公平人脸表情识别方法的结构和流程图。本实施例的流程如下:
步骤一,对训练样本集中的人脸表情图像进行标准化处理,统一裁剪为224×224大小,并通过人脸关键点获取预定义的人脸动作单元所在的局部区域矩形框。根据人脸动作单元分布的区域,在人脸图像上划分7个局部区域,这里主要用到了13个人脸动作单元(AU),如图2所示,其中编号为1、2、5和7的人脸动作单元为同一个局部区域;编号为4、6、9和23的人脸动作单元分别为单独的局部区域;编号为12和15的人脸动作单元为同一个局部区域;编号为16、20和26的人脸动作单元为同一个局部区域,一共7个人脸动作单元所在的局部区域。
步骤二,搭建一个包含ResNet50、局部区域特征提取网络、特征融合和注意力机制的平衡特征融合网络。其具体实施流程如下:
S2.1:构建一个由多个残差块组成的50层残差网络(ResNet50)提取表情基础特征;每个残差块都包含三层卷积层和残差连接单元,这三层卷积层为1层卷积核大小为3×3的卷积层,2层卷积核大小为1×1的卷积层;
S2.2:构建一个人脸动作单元所在局部区域特征提取网络,该网络由感兴趣池化层组成(RoI Pooling);
S2.3:构建特征融合模块,该模块主要包含两个操作,首先对各个人脸动作单元所在的局部区域特征进行相加得到组合的人脸动作单元所在局部区域,然后将组合后的人脸动作单元所在局部区域特征与表情特征进行在维度上的拼接;
S2.4:构建一个注意力机制模块用于生成跨空间维度和通道维度的注意力图;如图3所示,该注意力机制包括三个分支,前两个分支捕获通道C和空间H或W之间的跨维度交互信息,最后一个分支用于捕获空间H与W的交互信息。每个分支都包含最大池化层和平均池化层,一个卷积层和激活函数,其中卷积层中的卷积核大小为3×3,激活函数采用Sigmoid;
步骤三,在人脸动作单元所在局部区域融合过程中,添加权重分配,提高模型对消极类表情的特征提取能力;其具体实施流程如下:
S3.1:建立人脸表情与预定义人脸动作单元所在局部区域的关系映射;
S3.2:根据公式(1)计算出来的每个样本的损失值,按照其对应的表情类别标签进
行统计,得到各类表情的训练损失值并计算基于表情类别的平均损失值。将损失值大于表
情类别平均损失值的表情类别筛选出来,根据关系映射统计这些表情中,存在的局部区域
出现的次数,其中,表示第个局部区域出现的次数,表
示局部区域的个数;
步骤四,使用注意力机制挑选出重要的特征进行表情分类;
整个网络通过反向传播算法进行优化。
所述步骤3中,我们通过训练损失值获得性能较差的表情类,进而获得这些表情类中出现较多的局部区域以提高模型对这些区域的特征提取能力
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (4)
1.一种基于人脸动作单元的公平人脸表情识别方法,其特征在于,包括:
获取训练图片及人脸动作单元所在局部区域;构建平衡特征融合网络;对所述平衡特征融合网络添加权重分配,根据训练图片及人脸单元所在局部区域,通过联合损失函数对所述平衡特征融合网络进行优化,通过优化后的网络以实现公平人脸表情识别方法;
所述平衡特征融合网络包括:残差网络、局部区域特征提取网络、特征融合模块和注意力机制模块;其中通过所述残差网络对训练图片进行特征提取得到表情特征;通过所述局部区域特征提取网络对人脸动作单元所在局部区域进行特征提取,得到局部区域特征;通过所述特征融合模块用于对局部区域特征融合,并将融合后的特征与表情特征进行拼接,生成表情相关特征;通过所述注意力机制模块生成跨空间维度及通道维度的注意力图,通过注意力图对表情相关特征进行分类,生成人脸表情识别结果;
对所述平衡特征融合网络添加权重分配的过程包括:
在所述平衡特征融合网络中的所述特征融合模块中,对局部区域特征融合的过程中,训练图片及人脸动作单元所在局部区域,建立表情类别与局部区域的关系映射,将损失值大于表情类别平均损失值的表情类别进行筛选,基于关系映射,统计筛选后的表情类别中存在的局部区域的出现个数,对所述出现个数进行归一化处理,得到融合过程中的权重,根据所述权重对局部区域特征进行融合;
所述联合损失函数为交叉熵损失函数及平衡均方误差损失函数的和;
其中,/>表示为样本数量,/>表示为样本类别的数量,/>样本/>的真实类别取值,其中取值为0或1,/>为真实类别,当样本/>的真实类别时/>则取1,否则取,/>表示样本/>属于真实类别/>的预测概率;
2.根据权利要求1所述的方法,其特征在于:
获取训练图片及人脸动作单元所在局部区域的过程包括:
获取人脸表情图片,对人脸表情图片进行标准化,得到训练图片,通过人脸关键点检测获取训练图片中的人脸动作单元所在局部区域。
3.根据权利要求1所述的方法,其特征在于:
局部区域特征提取网络内包含感兴趣池化层。
4.根据权利要求1所述的方法,其特征在于:
注意力机制模块包括第一分支、第二分支及第三分支,通过第一分支及第二分支捕获通道和空间之间的跨维度交互信息,通过第三分支捕获空间的交互信息;每个分支都包含最大池化层和平均池化层,一个卷积层和激活函数,其中卷积层中的卷积核大小为3×3,激活函数是Sigmoid。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211651570.8A CN115631530B (zh) | 2022-12-22 | 2022-12-22 | 一种基于人脸动作单元的公平人脸表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211651570.8A CN115631530B (zh) | 2022-12-22 | 2022-12-22 | 一种基于人脸动作单元的公平人脸表情识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115631530A CN115631530A (zh) | 2023-01-20 |
CN115631530B true CN115631530B (zh) | 2023-03-28 |
Family
ID=84909852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211651570.8A Active CN115631530B (zh) | 2022-12-22 | 2022-12-22 | 一种基于人脸动作单元的公平人脸表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115631530B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949565A (zh) * | 2021-03-25 | 2021-06-11 | 重庆邮电大学 | 基于注意力机制的单样本部分遮挡人脸识别方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784764B (zh) * | 2021-01-27 | 2022-07-12 | 南京邮电大学 | 一种基于局部与全局注意力机制的表情识别方法及系统 |
CN112699855B (zh) * | 2021-03-23 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像场景识别方法、装置及电子设备 |
CN114783034A (zh) * | 2022-05-12 | 2022-07-22 | 东南大学 | 基于局部敏感特征与全局特征融合的人脸表情识别方法 |
DE202022105196U1 (de) * | 2022-09-14 | 2022-09-22 | Anish Monsley Kirupakaran | System zur Erkennung von Gesichtsausdrücken in Echtzeit |
CN115457643B (zh) * | 2022-11-09 | 2023-04-07 | 暨南大学 | 一种基于增量技术和注意力机制的公平人脸表情识别方法 |
-
2022
- 2022-12-22 CN CN202211651570.8A patent/CN115631530B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949565A (zh) * | 2021-03-25 | 2021-06-11 | 重庆邮电大学 | 基于注意力机制的单样本部分遮挡人脸识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115631530A (zh) | 2023-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
WO2021042828A1 (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
CN111368886B (zh) | 一种基于样本筛选的无标注车辆图片分类方法 | |
CN110084151B (zh) | 基于非局部网络深度学习的视频异常行为判别方法 | |
CN110287960A (zh) | 自然场景图像中曲线文字的检测识别方法 | |
CN110852368A (zh) | 全局与局部特征嵌入及图文融合的情感分析方法与系统 | |
CN114743020B (zh) | 一种结合标签语义嵌入和注意力融合的食物识别方法 | |
CN110490136B (zh) | 一种基于知识蒸馏的人体行为预测方法 | |
CN114187311A (zh) | 一种图像语义分割方法、装置、设备及存储介质 | |
CN113011357A (zh) | 基于时空融合的深度伪造人脸视频定位方法 | |
CN111325237B (zh) | 一种基于注意力交互机制的图像识别方法 | |
CN111079594A (zh) | 一种基于双流协同网络的视频动作分类识别方法 | |
CN112183672A (zh) | 图像分类方法、特征提取网络的训练方法和装置 | |
CN112529638B (zh) | 基于用户分类和深度学习的服务需求动态预测方法及系统 | |
KR20200010672A (ko) | 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템 | |
CN112668638A (zh) | 一种图像美学质量评估和语义识别联合分类方法及系统 | |
CN115359264A (zh) | 一种密集型分布的粘连细胞深度学习识别方法 | |
CN115114409A (zh) | 一种基于软参数共享的民航不安全事件联合抽取方法 | |
CN113657473A (zh) | 一种基于迁移学习的Web服务分类方法 | |
CN111611375B (zh) | 一种基于深度学习和转折关系的文本情感分类方法 | |
CN112560668A (zh) | 一种基于场景先验知识的人体行为识别方法 | |
CN115631530B (zh) | 一种基于人脸动作单元的公平人脸表情识别方法 | |
CN116975711A (zh) | 多视图数据分类方法以及相关设备 | |
CN110705638A (zh) | 一种利用深度网络学习模糊信息特征技术的信用评级预测分类方法 | |
CN116467930A (zh) | 一种基于Transformer的结构化数据通用建模方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |