CN115631526A - 基于自监督学习技术的被遮挡的人脸表情识别方法及应用 - Google Patents

基于自监督学习技术的被遮挡的人脸表情识别方法及应用 Download PDF

Info

Publication number
CN115631526A
CN115631526A CN202211334926.5A CN202211334926A CN115631526A CN 115631526 A CN115631526 A CN 115631526A CN 202211334926 A CN202211334926 A CN 202211334926A CN 115631526 A CN115631526 A CN 115631526A
Authority
CN
China
Prior art keywords
image
self
occlusion
training
supervision learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211334926.5A
Other languages
English (en)
Inventor
王上飞
王佳禾
丁赫彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Original Assignee
University of Science and Technology of China USTC
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC, Institute of Artificial Intelligence of Hefei Comprehensive National Science Center filed Critical University of Science and Technology of China USTC
Priority to CN202211334926.5A priority Critical patent/CN115631526A/zh
Publication of CN115631526A publication Critical patent/CN115631526A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于自监督学习技术的被遮挡的人脸表情识别方法及应用,该方法的步骤包括:1、对一个包含无标签人脸图像的数据库进行图像预处理;2、构建自监督学习的前置任务阶段网络模型;3、构造相似性损失和遮挡识别损失;4、使用梯度下降法对自监督学习的前置任务阶段网络模型参数进行优化;5、对N类人脸表情图像的数据库进行图像预处理;6、构建自监督学习的下游任务阶段网络模型;7、构造分类损失;8、使用梯度下降法对自监督学习的下游任务阶段网络模型参数进行优化;9、利用训练好的分类器对待测人脸图像进行人脸表情的分类识别。本发明能克服图像遮挡对人脸表情识别效果造成的负影响,从而能实现人脸表情的精准识别。

Description

基于自监督学习技术的被遮挡的人脸表情识别方法及应用
技术领域
本发明属于遮挡表情识别,情感计算,自监督学习领域,具体的说是一种基于自监督学习技术的被遮挡的人脸表情识别方法及应用。
背景技术
被遮挡的人脸表情识别作为人脸表情识别的一种复杂情况,在真实生产、生活中有着广泛的应用。现有的被遮挡的人脸表情识别方法主要分为四类,分别是:基于鲁棒人脸特征的方法、基于无遮挡的人脸图像重建的方法、基于子区域分析的方法和基于无遮挡的人脸图像辅助的方法。基于鲁棒人脸特征的方法旨在找到一种对遮挡不敏感,但对不同表情具有可区分性的特征表示。但遮挡可能在人脸图像中的任意位置上出现,因此很难找到一种对遮挡具有鲁棒性的人脸特征表示;基于无遮挡的人脸图像重建的方法旨在使用生成模型重建待识别图像的无遮挡版本,然后根据重建后的图像进行表情分类。但是生成的图像的真实度通常都不高,这直接影响了面部表情识别的性能;基于子区域分析的方法将图像划分为若干区域,再从这些子区域和整个图像中进行面部表情识别。一般来说进行面部子区域分割会使用到面部关键点检测和注意力机制技术,但对被遮挡的面部图像进行面部关键点检测仍然是具有挑战性的,这也影响了该类方法对面部表情识别的精度;基于无遮挡的人脸图像辅助的方法通常采用无遮挡人脸图像作为特权信息来辅助被遮挡的人脸表情识别。在训练过程中,这些方法一般会构建两个网络:一个用于无遮挡的人脸表情识别,另一个用于被遮挡的人脸表情识别。在测试过程中,这些方法假设所有的人脸图像都被遮挡,只使用被遮挡的人脸表情识别网络进行识别。但是在现实场景中人们无法知道人脸图像是否是被遮挡的。此外,上述所有方法都需要完整的表情标注图像进行训练,但因为遮挡部分的类型和位置是无限的,为这些方法收集具有各种表情和遮挡的大规模图像数据集是十分困难的。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于自监督学习技术的被遮挡的人脸表情识别方法及应用,以期能使用无遮挡人脸和遮挡图案位置信息协助被遮挡人脸表情的识别,从而能提升被遮挡人脸表情识别的准确率。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于自监督学习的被遮挡人脸表情识别方法的特点是按如下步骤进行:
步骤1、对包含无标签人脸图像的数据库进行图像预处理:
根据数据库中每张图像的人脸关键点信息,对包含无标签人脸图像的数据库中的每张图像进行尺寸裁剪、缩放和旋转的操作,使得图像中的人脸处于在中间位置后,得到处理后的图像集,记作
Figure BDA0003914367870000021
其中,Np表示训练样本的总数,
Figure BDA0003914367870000022
表示第i张无遮挡的人脸图像;H代表图像的高度,W代表图像的宽度;
从Nc种遮挡图案中随机选择的一种遮挡图案并随机添加到第i张无遮挡的人脸图像上,生成第i张有遮挡的人脸图像
Figure BDA0003914367870000023
Figure BDA0003914367870000024
对应的遮挡掩码记为M(i)∈{0,1}H×W
将处理后的图像集
Figure BDA0003914367870000025
经过合成后的被遮挡图像集及其对应的遮挡掩码集记作自监督学习的前置任务阶段数据集
Figure BDA0003914367870000026
步骤2、构建自监督学习的前置任务阶段网络模型,包括:前置特征提取器Fb,图像特征提取器F,遮挡识别器Uo和特征映射头R;
前置特征提取器Fb由输入卷积层、批归一化层和ReLU激活函数构成;
图像特征提取器F由最大池化层、Resnet特征提取层和均值池化层构成;
遮挡识别器Uo由输入卷积层、上采样卷积层和输出卷积层构成,输入卷积层和上采样卷积层后均接入批归一化层和ReLU激活函数,输出卷积层后接入批归一化层;
特征映射头R由输入线性层、ReLU激活函数和输出线性层构成;
遮挡识别器Uo和特征映射头R中的参数需要进行初始化;
步骤3、构造相似性损失和遮挡识别损失;
步骤3.1、相似性损失:
步骤3.1.1、将所述第i张无遮挡的人脸图像
Figure BDA0003914367870000027
输入所述前置特征提取器Fb中进行处理,得到第i个无遮挡前置特征
Figure BDA0003914367870000028
将所述第i张有遮挡的人脸图像
Figure BDA0003914367870000029
输入所述前置特征提取器Fb中进行处理,得到第i个有遮挡前置特征
Figure BDA00039143678700000210
步骤3.1.2、将所述无遮挡前置特征
Figure BDA00039143678700000211
输入所述图像特征提取器F中进行处理,得到无遮挡中间特征
Figure BDA00039143678700000212
将所述有遮挡前置特征
Figure BDA00039143678700000213
输入所述图像特征提取器F中进行处理,得到有遮挡中间特征
Figure BDA00039143678700000214
步骤3.1.3、将所述无遮挡中间特征
Figure BDA00039143678700000215
输入所述特征映射头R中进行处理,得到无遮挡面部表示
Figure BDA00039143678700000216
将所述有遮挡中间特征
Figure BDA0003914367870000031
输入所述特征映射头R中进行处理,得到有遮挡面部表示
Figure BDA0003914367870000032
Figure BDA0003914367870000033
步骤3.1.4利用式(1)构建相似性损失函数
Figure BDA0003914367870000034
Figure BDA0003914367870000035
式(1)中,
Figure BDA0003914367870000036
Figure BDA0003914367870000037
分别表示
Figure BDA0003914367870000038
Figure BDA0003914367870000039
的相似性损失,并由式(2)和式(3)得到:
Figure BDA00039143678700000310
Figure BDA00039143678700000311
式(2)和式(3)中,τ表示温度参数,sim()表示余弦相似度函数;z表示除
Figure BDA00039143678700000312
之外的所有面部表示的集合中的任意一个面部表示,z'表示除
Figure BDA00039143678700000313
之外的所有面部表示的集合中的任意一个面部表示;
步骤3.2、遮挡识别损失:
步骤3.2.1、将所述有遮挡前置特征
Figure BDA00039143678700000314
输入所述遮挡识别器Uo中进行处理,得到遮挡预测矩阵
Figure BDA00039143678700000315
步骤3.2.3、利用式(4)构建遮挡识别损失函数
Figure BDA00039143678700000316
Figure BDA00039143678700000317
式(4)中,M[g,k]表示遮挡掩码M(i)中第g行第k列的像素点是否属于遮挡图案,
Figure BDA00039143678700000318
表示遮挡预测矩阵
Figure BDA00039143678700000319
中第g行第k列的像素点属于遮挡图案的预测概率;
步骤4、使用梯度下降法对自监督学习的前置任务阶段网络模型参数进行优化;
步骤4.1、利用式(5)构建自监督学习的前置任务阶段网络模型的总损失函数函数
Figure BDA00039143678700000320
Figure BDA00039143678700000321
式(5)中,λss和λmask分别是控制相似性损失和遮挡识别损失权重的权重因子;
步骤4.2、设置外部的总训练步数为K,外部的当前训练步数为k;设置内部的总训练步数为Kb,内部的当前训练步数为kb;设置训练中每次采样的样本数为B;初始化k=1,kb=1;
步骤4.3、从自监督学习的前置任务阶段数据集
Figure BDA0003914367870000041
中进行外部第k次内部第kb次随机不放回的取出B组样本
Figure BDA0003914367870000042
并作为外部第k次内部第kb次迭代的训练样本;其中,
Figure BDA0003914367870000043
表示所述第j张无遮挡的人脸图像,
Figure BDA0003914367870000044
表示所述第j张有遮挡的人脸图像,M(j)表示所述第j张有遮挡图像对应的遮挡掩码;
步骤4.4、将外部第k次内部第kb次迭代的训练样本
Figure BDA0003914367870000045
输入自监督学习的前置任务阶段网络模型中,并使用梯度下降法对所述自监督学习的前置任务阶段网络模型进行训练,同时计算总损失函数函数
Figure BDA0003914367870000046
以外部第k次内部第kb次更新网络模型参数;
步骤4.5、将kb+1赋值给kb后,判断kb*B≥Np是否成立,若成立,则执行步骤4.6,否则返回步骤4.3继续执行;
步骤4.6、将k+1赋值给k后,判断k≥K是否成立,若成立,则表示自监督学习的前置任务阶段网络模型训练结束,并得到自监督学习的前置任务阶段训练后的前置特征提取器F'b,图像特征提取器F',遮挡识别器U'o和特征映射头R',执行步骤5,否则,初始化kb=1后,返回步骤4.3继续执行;
步骤5、对包含具有N类人脸表情图像的数据库进行图像预处理;
对数据库中所有的人脸图像进行裁剪、缩放和旋转操作,得到归一化后的人脸图像数据集
Figure BDA0003914367870000047
共有Nfo+Nfc个训练样本,其中,
Figure BDA0003914367870000048
表示无遮挡的人脸图像,
Figure BDA0003914367870000049
是向
Figure BDA00039143678700000416
中添加遮挡之后的有遮挡的人脸图像,y(i')∈{0,1,…,Ne-1}表示第i'个样本的表情标签;
步骤6、构建自监督学习的下游任务阶段网络模型,包括自监督学习的前置任务阶段训练后的前置特征提取器F'b,自监督学习的前置任务阶段训练后的图像特征提取器F'和表情分类器C;
表情分类器C依次由一个线性层、一个批归一化层、一个ReLU激活函数、一个线性层、一个批归一化层、一个ReLU激活函数和一个线性层组成,其中线性层参数需要进行初始化;
步骤7、构造分类损失;
步骤7.1、从所述
Figure BDA00039143678700000411
中任意取一对样本与他们的真实标签
Figure BDA00039143678700000412
将样本
Figure BDA00039143678700000413
输入所述前置特征提取器F'b,得到前置特征
Figure BDA00039143678700000414
将样本
Figure BDA00039143678700000415
输入所述前置特征提取器F'b,得到前置特征
Figure BDA0003914367870000051
步骤7.2、将所述前置特征
Figure BDA0003914367870000052
分别输入所述图像特征提取器F',得到中间特征
Figure BDA0003914367870000053
Figure BDA0003914367870000054
将所述前置特征
Figure BDA0003914367870000055
分别输入所述图像特征提取器F',得到中间特征
Figure BDA0003914367870000056
步骤7.3、将所述中间特征
Figure BDA0003914367870000057
输入表情分类器C,得到分类概率向量
Figure BDA0003914367870000058
将所述中间特征
Figure BDA0003914367870000059
输入表情分类器C,得到分类概率向量
Figure BDA00039143678700000510
步骤7.4、利用式(6)构建分类损失
Figure BDA00039143678700000511
Figure BDA00039143678700000512
式(6)中,
Figure BDA00039143678700000513
表示交叉熵损失函数,softmax表示softmax函数;
步骤8、使用梯度下降法对自监督学习的下游任务阶段网络模型参数进行优化;
步骤8.1、设置总的训练步数为K',当前总的训练步数为k';设置内部的训练步数为K'b,当前内部的训练步数为k'b;设置训练中每次采样的样本数为B';初始化k',k'b为1;
步骤8.2、从所述
Figure BDA00039143678700000514
中进行外部第k'次内部第k'b次随机不放回的取出B'组样本
Figure BDA00039143678700000515
并作为外部第k'次内部第k'b次迭代的训练样本;
步骤8.3、将训练样本输入自监督学习的下游任务阶段网络模型,使用梯度下降法根据式(6)优化前置特征提取器F'b,图像特征提取器F'和表情分类器C;
步骤8.4、将k'b+1赋值给k'b后,判断k'b*B'≥Nfo是否成立,若成立,则执行步骤8.5,否则,返回步骤8.2继续执行;
步骤8.5、将k'+1赋值给k'后,判断k'≥K'是否成立,若成立,则表示自监督学习的下游任务阶段网络模型训练结束,并得到自监督学习的下游任务阶段训练后的前置特征提取器F”b,图像特征提取器F”和表情分类器C',执行步骤9,否则,将初始化k'b=1后,返回步骤8.2继续执行;
步骤9、利用训练好的自监督学习的下游任务阶段训练后的前置特征提取器F”b,图像特征提取器F”和表情分类器C'对待测的人脸图像进行预测,以实现人脸表情的分类识别。
本发明一种电子设备,包括存储器以及处理器,其特点在于,所述存储器用于存储支持处理器执行所述被遮挡人脸表情识别方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特点在于,所述计算机程序被处理器运行时执行所述被遮挡人脸表情识别方法的步骤。
与现有技术相比,本发明的有益效果在于:
1、本发明通过提出向无遮挡的人脸图像添加遮挡图案的方法生成被遮挡的人脸表情图像,并使用在这一过程中的无遮挡人脸图像和遮挡图案的位置信息来辅助进行被遮挡的人脸图像的表情识别。解决了现有的被遮挡表情识别方法受限于样本数量、多样性的问题,实现了效果更为优秀的被遮挡人脸表情识别。
2、本发明通过提出使用对比学习的技术,以相似性损失衡量无遮挡人脸图像特征与有遮挡人脸图像特征之间的差距,使得有遮挡人脸图像的特征表示更趋近与相同表情的无遮挡人脸图像的特征表示,指导了网络从有遮挡人脸图像中提取对遮挡更具有鲁棒性的特征表示,提升了在实际环境中的可用性。
3、本发明通过提出遮挡预测损失,使得网络能够预测出有遮挡图像上遮挡图案的位置,并更少的关注遮挡图案区域上的信息,以此降低遮挡带来的影响,提高所提取特征表示与表情的相关性,有效提升了被遮挡表情的识别准确率。
4、本发明通过提出使用自监督学习技术,通过在自监督学习的前置任务阶段中应用相似性损失和遮挡预测损失,为自监督学习的下游任务阶段提供一个具有更好初始参数的特征提取器,在提高被遮挡人脸表情识别率的同时也使得该方法能够更容易的迁移到其他数据集上,拥有更佳的泛化能力。
附图说明
图1为本发明模型自监督学习的前置任务阶段的框架图。
图2为本发明模型自监督学习的下游任务阶段的框架图。
具体实施方式
本实施例中,如图1所示,一种基于自监督学习的被遮挡人脸表情识别方法的前置任务阶段是按如下步骤进行:
步骤1、对包含无标签人脸图像的数据库进行图像预处理:
根据数据库中每张图像的人脸关键点信息,对包含无标签人脸图像的数据库中的每张图像进行尺寸裁剪、缩放和旋转的操作,使得图像中的人脸处于在中间位置后,得到处理后的图像集,记作
Figure BDA0003914367870000061
其中,Np表示训练样本的总数,
Figure BDA0003914367870000062
表示第i张无遮挡的人脸图像;H代表图像的高度,W代表图像的宽度;本实施例中,经过归一化处理后的所有人脸图像的像素大小为224×224;即H=224,W=224。使用VGGFace2作为无标签人脸图像数据库,VGGFace2包含来自9131个人的3141890张图像,该数据库是从GoogleImage Search下载的,在种族、年龄和姿势方面有很大差异,在本实施例中作为自监督学习的前置任务阶段数据集使用,即Np=3141890;
从Nc种遮挡图案中随机选择的一种遮挡图案并随机添加到第i张无遮挡的人脸图像上,生成第i张有遮挡的人脸图像
Figure BDA0003914367870000071
Figure BDA0003914367870000072
对应的遮挡掩码记为M(i)∈{0,1}H×W;本实施例中,Nc=15,分别为5种手部遮挡图案,5种食物遮挡图案和5种饮品遮挡图案。
将处理后的图像集
Figure BDA0003914367870000073
经过合成后的被遮挡图像集及其对应的遮挡掩码集记作自监督学习的前置任务阶段数据集
Figure BDA0003914367870000074
步骤2、构建自监督学习的前置任务阶段网络模型,包括:前置特征提取器Fb,图像特征提取器F,遮挡识别器Uo和特征映射头R;
本实施例中,前置特征提取器Fb依次由一个输入卷积层、一个批归一化层和一个ReLU激活函数构成;本实施例中,输入卷积层、批归一化层和ReLU激活函数均由resnet34预训练网络提供,分别为resnet34.conv1、resnet34.bn1和resnet34.relu;
图像特征提取器F依次由一个最大池化层、四个Resnet特征提取层和一个均值池化层构成;本实施例中,最大池化层和四个Resnet特征提取层均由resnet34预训练网络提供,分别为resnet34.maxpool和resnet34.layer1-4,均值池化层为尺寸为1×1的自适应均值池化层;
遮挡识别器Uo依次由一个输入卷积层(本实施例中该卷积层设置为输入通道数为64,输出通道数为32,卷积核尺寸为3×3,填充为1)、一个上采样卷积层(本实施例中该卷积层设置为尺度因子为2,采样模式为bilinear)和一个输出卷积层(本实施例中该卷积层设置为输入通道数为32,输出通道数为1,卷积核尺寸为3×3,填充为1)构成,输入卷积层和上采样卷积层后均接入一个批归一化层(本实施例中批归一化特征数为32)和ReLU激活函数,输出卷积层后接入一个批归一化层(本实施例中批归一化特征数为1);
本实施例中,特征映射头R依次由一个输入线性层(本实施例中该线性层输入数量为512,输出数量为128)、一个ReLU激活函数和一个输出线性层(本实施例中该线性层输入数量为128,输出数量为128)构成;
遮挡识别器Uo和特征映射头R中的参数需要进行初始化;本实施例中所有的卷积层使用kaiming正态分布进行权值初始化,如果卷积层中存在偏移量则将偏移量初始化为常数0、所有批归一化层中的权重均初始化为常数1、所有批归一化层中的偏移量初始化为常数0、所有的线性层均使用正态分布初始化权值(均值为0,方差为0.005的正态分布),线性层中的偏移量初始化为常数0;
步骤3、构造相似性损失和遮挡识别损失;
步骤3.1、相似性损失:
步骤3.1.1、将第i张无遮挡的人脸图像
Figure BDA0003914367870000081
输入前置特征提取器Fb中进行处理,得到第i个无遮挡前置特征
Figure BDA0003914367870000082
将第i张有遮挡的人脸图像
Figure BDA0003914367870000083
输入前置特征提取器Fb中进行处理,得到第i个有遮挡前置特征
Figure BDA0003914367870000084
步骤3.1.2、将无遮挡前置特征
Figure BDA0003914367870000085
输入图像特征提取器F中进行处理,得到无遮挡中间特征
Figure BDA0003914367870000086
将有遮挡前置特征
Figure BDA0003914367870000087
输入图像特征提取器F中进行处理,得到有遮挡中间特征
Figure BDA0003914367870000088
Figure BDA0003914367870000089
步骤3.1.3、将无遮挡中间特征
Figure BDA00039143678700000810
输入特征映射头R中进行处理,得到无遮挡面部表示
Figure BDA00039143678700000811
将有遮挡中间特征
Figure BDA00039143678700000812
输入特征映射头R中进行处理,得到有遮挡面部表示
Figure BDA00039143678700000813
步骤3.1.4本方法期望相同人脸的有遮挡面部表示和无遮挡面部表示是相似的,而对比学习最大化正对之间的相似性,最小化负对之间的相似性的特点满足了本方法的需要,所以本方法根据对比学习的思想利用式(1)构建相似性损失函数
Figure BDA00039143678700000814
Figure BDA00039143678700000815
由于
Figure BDA00039143678700000816
是从
Figure BDA00039143678700000817
变换得到的,其特征应当更为相似,因此本方法将
Figure BDA00039143678700000818
视为正对,将
Figure BDA00039143678700000819
Figure BDA00039143678700000820
视为负对,所以有式(1)中,
Figure BDA00039143678700000821
Figure BDA00039143678700000822
分别表示
Figure BDA00039143678700000823
Figure BDA00039143678700000824
的相似性损失,并由式(2)和式(3)得到:
Figure BDA00039143678700000825
Figure BDA00039143678700000826
式(2)和式(3)中,τ表示温度参数,sim()表示余弦相似度函数作为相似度度量方法;z表示除
Figure BDA0003914367870000091
之外的所有面部表示的集合中的任意一个面部表示,z'表示除
Figure BDA0003914367870000092
之外的所有面部表示的集合中的任意一个面部表示;
步骤3.2、遮挡识别损失:
步骤3.2.1、在人脸图像中,被遮挡的区域通常仅包含较少的甚至不包含关于表情的信息,如果网络能够得知遮挡所在的位置,并更少的关注被遮挡区域上的信息,那么遮挡带来的影响就会更小,网络也能够获得与表情更相关的特征,因此本方法将有遮挡前置特征
Figure BDA0003914367870000093
输入遮挡识别器Uo中进行处理,得到遮挡预测矩阵
Figure BDA0003914367870000094
步骤3.2.3、利用类似交叉熵的思想监督网络预测遮挡位置的结果,因此有式(4)构建遮挡识别损失函数
Figure BDA0003914367870000095
Figure BDA0003914367870000096
式(4)中,M[g,k]表示遮挡掩码M(i)中第g行第k列的像素点是否属于遮挡图案,
Figure BDA0003914367870000097
表示遮挡预测矩阵
Figure BDA0003914367870000098
中第g行第k列的像素点属于遮挡图案的预测概率;
步骤4、使用梯度下降法对自监督学习的前置任务阶段网络模型的参数进行优化;
步骤4.1、利用式(5)构建自监督学习的前置任务阶段网络模型的总损失函数函数
Figure BDA0003914367870000099
Figure BDA00039143678700000910
式(5)中,λss和λmask分别是控制相似性损失和遮挡识别损失权重的权重因子(本实施例中λss=5,λmask=1);
步骤4.2、本实施例中,设置外部的总训练步数为K=2,外部的当前训练步数为k;设置内部的总训练步数为Kb=4910,内部的当前训练步数为kb;设置训练中每次采样的样本数为B=64;初始化k=1,kb=1;
步骤4.3、从自监督学习的前置任务阶段数据集
Figure BDA00039143678700000911
中进行外部第k次内部第kb次随机不放回的取出B组样本
Figure BDA00039143678700000912
并作为外部第k次内部第kb次迭代的训练样本;其中,
Figure BDA00039143678700000913
表示第j张无遮挡的人脸图像,
Figure BDA00039143678700000914
表示第j张有遮挡的人脸图像,M(j)表示第j张有遮挡图像对应的遮挡掩码;
步骤4.4、将外部第k次内部第kb次迭代的训练样本
Figure BDA00039143678700000915
输入自监督学习的前置任务阶段网络模型中,并使用梯度下降法对自监督学习的前置任务阶段网络模型进行训练,同时计算总损失函数函数
Figure BDA0003914367870000101
以外部第k次内部第kb次更新网络模型参数;
步骤4.5、将kb+1赋值给kb后,判断是否全部训练样本已经被取出,即判断kb*B≥Np是否成立,若成立,则执行步骤4.6,否则返回步骤4.3继续执行;
步骤4.6、将k+1赋值给k后,判断k≥K是否成立,若成立,则表示自监督学习的前置任务阶段网络模型训练结束,并得到自监督学习的前置任务阶段训练后的前置特征提取器F'b,图像特征提取器F',遮挡识别器U'o和特征映射头R',作为下一阶段的初始网络,执行步骤5,否则,初始化kb=1后,返回步骤4.3继续执行;
本实施例中,如图2所示,一种基于自监督学习的被遮挡人脸表情识别方法的下游任务阶段是按如下步骤进行:
步骤5、对包含具有N类人脸表情图像的数据库进行图像预处理;
对数据库中所有的人脸图像进行裁剪、缩放和旋转操作,得到归一化后的人脸图像数据集
Figure BDA0003914367870000102
共有Nfo+Nfc个训练样本,其中
Figure BDA0003914367870000103
表示无遮挡的人脸图像,
Figure BDA0003914367870000104
是向
Figure BDA0003914367870000105
中添加遮挡之后的有遮挡的人脸图像,y(i')∈{0,1,…,Ne-1}表示第i'个样本的表情标签。本实施例中共在三个数据库进行了后续操作,分别为RAF-DB、AffectNet和CK+。在RAF-DB中本方法将所有人脸图像归一化处理为224×224的像素大小;即H=224,W=224,Nfo=Nfc=12271,Ne=7;在AffectNet中本方法将所有人脸图像归一化处理为224×224的像素大小;即H=224,W=224,Nfo=Nfc=287651,Ne=7;在AffectNet中本方法将所有人脸图像归一化处理为48×48的像素大小;即H=48,W=48,Nfo=Nfc=636,Ne=7;
步骤6、构建自监督学习的下游任务阶段网络模型,包括自监督学习的前置任务阶段训练后的前置特征提取器F'b,自监督学习的前置任务阶段训练后的图像特征提取器F'和表情分类器C;
表情分类器C依次由一个线性层(本实施例中该线性层设置为输入数为512,输出数为256)、一个批归一化层(本实施例中批归一化特征数为256)、一个ReLU激活函数、一个线性层(本实施例中该线性层设置为输入数为256,输出数为128)、一个批归一化层(本实施例中批归一化特征数为128)、一个ReLU激活函数和一个线性层(本实施例中该线性层设置为输入数为128,输出数为128)组成,其中线性层参数需要进行初始化(本实施例中都使用正态分布初始化权值(均值为0,方差为0.003的正态分布),偏移量初始化为常数0);
步骤7、构造分类损失;
步骤7.1、从
Figure BDA0003914367870000111
中任意取一对样本与他们的真实标签
Figure BDA0003914367870000112
将样本
Figure BDA0003914367870000113
输入前置特征提取器F'b,得到前置特征
Figure BDA0003914367870000114
将样本
Figure BDA0003914367870000115
输入前置特征提取器F'b,得到前置特征
Figure BDA0003914367870000116
步骤7.2、将的前置特征
Figure BDA0003914367870000117
分别输入图像特征提取器F',得到中间特征
Figure BDA0003914367870000118
将的前置特征
Figure BDA0003914367870000119
分别输入图像特征提取器F',得到中间特征
Figure BDA00039143678700001110
步骤7.3、将中间特征
Figure BDA00039143678700001111
输入表情分类器C,得到分类概率向量
Figure BDA00039143678700001112
将中间特征
Figure BDA00039143678700001113
输入表情分类器C,得到分类概率向量
Figure BDA00039143678700001114
步骤7.4、使用交叉熵损失来优化该分类任务,即利用式(6)构建分类损失
Figure BDA00039143678700001115
Figure BDA00039143678700001116
其中,
Figure BDA00039143678700001117
表示交叉熵损失函数,softmax表示softmax函数。
步骤8、使用梯度下降法对自监督学习的下游任务阶段网络模型参数进行优化;
步骤8.1、本实施例中,设置总的训练步数为K'=20,当前总的训练步数为k';设置内部的训练步数为K'b(在RAF-DB上K'b=31;在AffectNet上K'b=411;在RAF-DB上K'b=8;),当前内部的训练步数为k'b;设置训练中每次采样的样本数为B'=64;初始化k',k'b为1;
步骤8.2、从
Figure BDA00039143678700001118
中进行外部第k'次内部第k'b次随机不放回的取出B'组样本
Figure BDA00039143678700001119
并作为外部第k'次内部第k'b次迭代的训练样本;
步骤8.3、将训练样本输入自监督学习的下游任务阶段网络模型,使用梯度下降法根据式(6)优化前置特征提取器F'b,图像特征提取器F'和表情分类器C。
步骤8.4、将k'b+1赋值给k'b后,判断是否全部训练样本已经被取出,即判断k'b*B'≥Nfo是否成立,若成立,则执行步骤8.5,否则返回步骤8.2继续执行;
步骤8.5、将k'+1赋值给k'后,判断k'≥K'是否成立,若成立,则表示自监督学习的下游任务阶段网络模型训练结束,并得到自监督学习的下游任务阶段训练后的前置特征提取器F”b,图像特征提取器F”和表情分类器C',执行步骤9,否则将1赋值给k'b后返回步骤8.2继续执行;
步骤9、利用训练好的自监督学习的下游任务阶段训练后的前置特征提取器F”b,图像特征提取器F”和表情分类器C'对待测的人脸图像进行预测,以实现人脸表情的分类识别。
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行该被遮挡人脸表情识别方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行该被遮挡人脸表情识别方法的步骤。

Claims (3)

1.一种基于自监督学习的被遮挡人脸表情识别方法,其特征是按如下步骤进行:
步骤1、对包含无标签人脸图像的数据库进行图像预处理:
根据数据库中每张图像的人脸关键点信息,对包含无标签人脸图像的数据库中的每张图像进行尺寸裁剪、缩放和旋转的操作,使得图像中的人脸处于在中间位置后,得到处理后的图像集,记作
Figure FDA0003914367860000011
其中,Np表示训练样本的总数,
Figure FDA0003914367860000012
表示第i张无遮挡的人脸图像;H代表图像的高度,W代表图像的宽度;
从Nc种遮挡图案中随机选择的一种遮挡图案并随机添加到第i张无遮挡的人脸图像上,生成第i张有遮挡的人脸图像
Figure FDA0003914367860000013
Figure FDA0003914367860000014
对应的遮挡掩码记为M(i)∈{0,1}H×W
将处理后的图像集
Figure FDA0003914367860000015
经过合成后的被遮挡图像集及其对应的遮挡掩码集记作自监督学习的前置任务阶段数据集
Figure FDA0003914367860000016
步骤2、构建自监督学习的前置任务阶段网络模型,包括:前置特征提取器Fb,图像特征提取器F,遮挡识别器Uo和特征映射头R;
前置特征提取器Fb由输入卷积层、批归一化层和ReLU激活函数构成;
图像特征提取器F由最大池化层、Resnet特征提取层和均值池化层构成;
遮挡识别器Uo由输入卷积层、上采样卷积层和输出卷积层构成,输入卷积层和上采样卷积层后均接入批归一化层和ReLU激活函数,输出卷积层后接入批归一化层;
特征映射头R由输入线性层、ReLU激活函数和输出线性层构成;
遮挡识别器Uo和特征映射头R中的参数需要进行初始化;
步骤3、构造相似性损失和遮挡识别损失;
步骤3.1、相似性损失:
步骤3.1.1、将所述第i张无遮挡的人脸图像
Figure FDA0003914367860000017
输入所述前置特征提取器Fb中进行处理,得到第i个无遮挡前置特征
Figure FDA0003914367860000018
将所述第i张有遮挡的人脸图像
Figure FDA0003914367860000019
输入所述前置特征提取器Fb中进行处理,得到第i个有遮挡前置特征
Figure FDA00039143678600000110
步骤3.1.2、将所述无遮挡前置特征
Figure FDA00039143678600000111
输入所述图像特征提取器F中进行处理,得到无遮挡中间特征
Figure FDA00039143678600000112
将所述有遮挡前置特征
Figure FDA00039143678600000113
输入所述图像特征提取器F中进行处理,得到有遮挡中间特征
Figure FDA0003914367860000021
步骤3.1.3、将所述无遮挡中间特征
Figure FDA0003914367860000022
输入所述特征映射头R中进行处理,得到无遮挡面部表示
Figure FDA0003914367860000023
将所述有遮挡中间特征
Figure FDA0003914367860000024
输入所述特征映射头R中进行处理,得到有遮挡面部表示
Figure FDA0003914367860000025
Figure FDA0003914367860000026
步骤3.1.4利用式(1)构建相似性损失函数
Figure FDA0003914367860000027
Figure FDA0003914367860000028
式(1)中,
Figure FDA0003914367860000029
Figure FDA00039143678600000210
分别表示
Figure FDA00039143678600000211
Figure FDA00039143678600000212
的相似性损失,并由式(2)和式(3)得到:
Figure FDA00039143678600000213
Figure FDA00039143678600000214
式(2)和式(3)中,τ表示温度参数,sim( )表示余弦相似度函数;z表示除
Figure FDA00039143678600000215
之外的所有面部表示的集合中的任意一个面部表示,z'表示除
Figure FDA00039143678600000216
之外的所有面部表示的集合中的任意一个面部表示;
步骤3.2、遮挡识别损失:
步骤3.2.1、将所述有遮挡前置特征
Figure FDA00039143678600000217
输入所述遮挡识别器Uo中进行处理,得到遮挡预测矩阵
Figure FDA00039143678600000218
步骤3.2.3、利用式(4)构建遮挡识别损失函数
Figure FDA00039143678600000219
Figure FDA00039143678600000220
式(4)中,M[g,k]表示遮挡掩码M(i)中第g行第k列的像素点是否属于遮挡图案,
Figure FDA00039143678600000221
表示遮挡预测矩阵
Figure FDA00039143678600000222
中第g行第k列的像素点属于遮挡图案的预测概率;
步骤4、使用梯度下降法对自监督学习的前置任务阶段网络模型参数进行优化;
步骤4.1、利用式(5)构建自监督学习的前置任务阶段网络模型的总损失函数函数
Figure FDA00039143678600000223
Figure FDA0003914367860000031
式(5)中,λss和λmask分别是控制相似性损失和遮挡识别损失权重的权重因子;
步骤4.2、设置外部的总训练步数为K,外部的当前训练步数为k;设置内部的总训练步数为Kb,内部的当前训练步数为kb;设置训练中每次采样的样本数为B;初始化k=1,kb=1;
步骤4.3、从自监督学习的前置任务阶段数据集
Figure FDA0003914367860000032
中进行外部第k次内部第kb次随机不放回的取出B组样本
Figure FDA0003914367860000033
并作为外部第k次内部第kb次迭代的训练样本;其中,
Figure FDA0003914367860000034
表示所述第j张无遮挡的人脸图像,
Figure FDA0003914367860000035
表示所述第j张有遮挡的人脸图像,M(j)表示所述第j张有遮挡图像对应的遮挡掩码;
步骤4.4、将外部第k次内部第kb次迭代的训练样本
Figure FDA0003914367860000036
输入自监督学习的前置任务阶段网络模型中,并使用梯度下降法对所述自监督学习的前置任务阶段网络模型进行训练,同时计算总损失函数函数
Figure FDA0003914367860000037
以外部第k次内部第kb次更新网络模型参数;
步骤4.5、将kb+1赋值给kb后,判断kb*B≥Np是否成立,若成立,则执行步骤4.6,否则返回步骤4.3继续执行;
步骤4.6、将k+1赋值给k后,判断k≥K是否成立,若成立,则表示自监督学习的前置任务阶段网络模型训练结束,并得到自监督学习的前置任务阶段训练后的前置特征提取器F'b,图像特征提取器F',遮挡识别器U'o和特征映射头R',执行步骤5,否则,初始化kb=1后,返回步骤4.3继续执行;
步骤5、对包含具有N类人脸表情图像的数据库进行图像预处理;
对数据库中所有的人脸图像进行裁剪、缩放和旋转操作,得到归一化后的人脸图像数据集
Figure FDA0003914367860000038
共有Nfo+Nfc个训练样本,其中,
Figure FDA0003914367860000039
表示无遮挡的人脸图像,
Figure FDA00039143678600000310
是向
Figure FDA00039143678600000311
中添加遮挡之后的有遮挡的人脸图像,y(i’)∈{0,1,…,Ne-1}表示第i'个样本的表情标签;
步骤6、构建自监督学习的下游任务阶段网络模型,包括自监督学习的前置任务阶段训练后的前置特征提取器F'b,自监督学习的前置任务阶段训练后的图像特征提取器F'和表情分类器C;
表情分类器C依次由一个线性层、一个批归一化层、一个ReLU激活函数、一个线性层、一个批归一化层、一个ReLU激活函数和一个线性层组成,其中线性层参数需要进行初始化;
步骤7、构造分类损失;
步骤7.1、从所述
Figure FDA0003914367860000041
中任意取一对样本与他们的真实标签
Figure FDA0003914367860000042
将样本
Figure FDA0003914367860000043
输入所述前置特征提取器F'b,得到前置特征
Figure FDA0003914367860000044
将样本
Figure FDA0003914367860000045
输入所述前置特征提取器F'b,得到前置特征
Figure FDA0003914367860000046
步骤7.2、将所述前置特征
Figure FDA0003914367860000047
分别输入所述图像特征提取器F',得到中间特征
Figure FDA0003914367860000048
Figure FDA0003914367860000049
将所述前置特征
Figure FDA00039143678600000410
分别输入所述图像特征提取器F',得到中间特征
Figure FDA00039143678600000411
步骤7.3、将所述中间特征
Figure FDA00039143678600000412
输入表情分类器C,得到分类概率向量
Figure FDA00039143678600000413
将所述中间特征
Figure FDA00039143678600000414
输入表情分类器C,得到分类概率向量
Figure FDA00039143678600000415
步骤7.4、利用式(6)构建分类损失
Figure FDA00039143678600000416
Figure FDA00039143678600000417
式(6)中,
Figure FDA00039143678600000418
表示交叉熵损失函数,softmax表示softmax函数;
步骤8、使用梯度下降法对自监督学习的下游任务阶段网络模型参数进行优化;
步骤8.1、设置总的训练步数为K',当前总的训练步数为k';设置内部的训练步数为K'b,当前内部的训练步数为k'b;设置训练中每次采样的样本数为B';初始化k',k'b为1;
步骤8.2、从所述
Figure FDA00039143678600000419
中进行外部第k'次内部第k'b次随机不放回的取出B'组样本
Figure FDA00039143678600000420
并作为外部第k'次内部第k'b次迭代的训练样本;
步骤8.3、将训练样本输入自监督学习的下游任务阶段网络模型,使用梯度下降法根据式(6)优化前置特征提取器F'b,图像特征提取器F'和表情分类器C;
步骤8.4、将k'b+1赋值给k'b后,判断k'b*B'≥Nfo是否成立,若成立,则执行步骤8.5,否则,返回步骤8.2继续执行;
步骤8.5、将k'+1赋值给k'后,判断k'≥K'是否成立,若成立,则表示自监督学习的下游任务阶段网络模型训练结束,并得到自监督学习的下游任务阶段训练后的前置特征提取器F”b,图像特征提取器F”和表情分类器C',执行步骤9,否则,将初始化k'b=1后,返回步骤8.2继续执行;
步骤9、利用训练好的自监督学习的下游任务阶段训练后的前置特征提取器F”b,图像特征提取器F”和表情分类器C'对待测的人脸图像进行预测,以实现人脸表情的分类识别。
2.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1所述被遮挡人脸表情识别方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
3.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1所述被遮挡人脸表情识别方法的步骤。
CN202211334926.5A 2022-10-28 2022-10-28 基于自监督学习技术的被遮挡的人脸表情识别方法及应用 Pending CN115631526A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211334926.5A CN115631526A (zh) 2022-10-28 2022-10-28 基于自监督学习技术的被遮挡的人脸表情识别方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211334926.5A CN115631526A (zh) 2022-10-28 2022-10-28 基于自监督学习技术的被遮挡的人脸表情识别方法及应用

Publications (1)

Publication Number Publication Date
CN115631526A true CN115631526A (zh) 2023-01-20

Family

ID=84909300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211334926.5A Pending CN115631526A (zh) 2022-10-28 2022-10-28 基于自监督学习技术的被遮挡的人脸表情识别方法及应用

Country Status (1)

Country Link
CN (1) CN115631526A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117372818A (zh) * 2023-12-06 2024-01-09 深圳须弥云图空间科技有限公司 目标重识别方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117372818A (zh) * 2023-12-06 2024-01-09 深圳须弥云图空间科技有限公司 目标重识别方法及装置
CN117372818B (zh) * 2023-12-06 2024-04-12 深圳须弥云图空间科技有限公司 目标重识别方法及装置

Similar Documents

Publication Publication Date Title
CN111898432B (zh) 一种基于改进YOLOv3算法的行人检测系统及方法
CN114241548A (zh) 一种基于改进YOLOv5的小目标检测算法
CN111709313B (zh) 基于局部和通道组合特征的行人重识别方法
CN111339975A (zh) 基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法
Wang et al. S 3 d: scalable pedestrian detection via score scale surface discrimination
Zhang et al. Feature-transfer network and local background suppression for microaneurysm detection
CN111639697B (zh) 基于非重复采样与原型网络的高光谱图像分类方法
CN112232395B (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
CN116612335B (zh) 一种基于对比学习的少样本细粒度图像分类方法
CN112861915A (zh) 一种基于高级语义特征无锚框非合作目标检测方法
CN111695455B (zh) 一种基于耦合判别流形对齐的低分辨人脸识别方法
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
CN117015796A (zh) 处理组织图像的方法和用于处理组织图像的系统
Naqvi et al. Feature quality-based dynamic feature selection for improving salient object detection
CN115358337A (zh) 一种小样本故障诊断方法、装置及存储介质
CN115631526A (zh) 基于自监督学习技术的被遮挡的人脸表情识别方法及应用
CN113592769B (zh) 异常图像的检测、模型的训练方法、装置、设备及介质
CN110956157A (zh) 基于候选框选择的深度学习遥感影像目标检测方法及装置
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
CN110414562B (zh) X光片的分类方法、装置、终端及存储介质
CN116935411A (zh) 一种基于字符分解和重构的部首级古文字识别方法
CN112085742A (zh) 一种基于上下文注意力的nafld超声视频诊断方法
CN114119970B (zh) 目标跟踪方法及装置
Cetindag et al. Transfer Learning Methods for Using Textural Features in Histopathological Image Classification
Yasmin et al. Impact of fuzziness for skin lesion classification with transformer-based model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination