CN117079337B - 一种高精度人脸属性特征识别装置及方法 - Google Patents

一种高精度人脸属性特征识别装置及方法 Download PDF

Info

Publication number
CN117079337B
CN117079337B CN202311338505.4A CN202311338505A CN117079337B CN 117079337 B CN117079337 B CN 117079337B CN 202311338505 A CN202311338505 A CN 202311338505A CN 117079337 B CN117079337 B CN 117079337B
Authority
CN
China
Prior art keywords
face
task
layer
model
interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311338505.4A
Other languages
English (en)
Other versions
CN117079337A (zh
Inventor
董盆景
胡志恒
李英祥
唐鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN202311338505.4A priority Critical patent/CN117079337B/zh
Publication of CN117079337A publication Critical patent/CN117079337A/zh
Application granted granted Critical
Publication of CN117079337B publication Critical patent/CN117079337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种高精度人脸属性特征识别装置及方法,其装置包括人脸和关键点检测模块、分类模块、人脸对齐模块和人脸属性识别模块;人脸和关键点检测模块用于获取不同网络层的特征,输出P层特征;分类模块用于接收P层特征,并输出高精度的人脸检测图像和高精度的人脸关键点;人脸对齐模块用于获取高精度的人脸关键点,得到人脸对齐图像;人脸属性识别模块用于将人脸对齐图像用于基于参数软共享的方式进行多任务人脸属性识别,并训练特征交互模型达到高精度的效果,本方案从两个方面进行特征交互,极大的提升了特征交互的程度,使得模型能够充分提取人脸图像的特征。

Description

一种高精度人脸属性特征识别装置及方法
技术领域
本发明涉及计算机视觉领域,尤其是涉及一种高精度人脸属性特征识别装置及方法。
背景技术
随着深度学习在图像识别领域的广泛运用,极大的推动了人脸属性识别技术的发展。在基于深度学习的人脸属性识别领域中,深度学习模型往往受到人脸图像尺度大小不一等因素的影响,导致模型不能充分提取人脸图像的特征,因此高效提取图像特征成为了图像识别领域的一个研究重点。
现有的人脸检测模型主要分为单阶段和双阶段模型。双阶段的模型如FastRcnn等,需要首先得到目标物体的位置并得到建议人脸框,然后对其进行分类,这种模型精度高但是速度慢;而单阶段模型不需要得到建议框阶段,直接产生物体的类别概率和位置坐标值,经过单次检测即可直接得到最终的检测结果,这种模型速度一般比双阶段模型更快,但精度有所损失。
发明内容
针对现有技术中的上述不足,本发明提供的一种高精度人脸属性特征识别装置及方法解决了现有模型设计不平衡的问题。
为了达到上述发明目的,本发明采用的技术方案为:提供一种高精度人脸属性特征识别装置,包括人脸和关键点检测模块、分类模块、人脸对齐模块和人脸属性识别模块;
所述人脸和关键点检测模块用于获取不同网络层的特征,输出P层特征;
所述分类模块用于接收P层特征,并输出高精度的人脸检测图像和高精度的人脸关键点;
所述人脸对齐模块用于获取高精度的人脸关键点,得到人脸对齐图像;
所述人脸属性识别模块用于将人脸对齐图像用于基于参数软共享的方式进行多任务人脸属性识别,并训练特征交互模型达到高精度的效果。
进一步地:所述人脸和关键点检测模块为一个单阶段的人脸检测模型,其主干网络分为四个阶段Stage1、Stage2、Stage3和Stage4,分别获取到不同网络层的特征;
所述Stage1、Stage2、Stage3和Stage4获取到的特征的尺寸分别为104×104×128、52×52×256、26×26×512、13×13×1024,获取到的四个特征分别代表对输入特征下采样4倍、8倍、16倍和32倍。
进一步地:所述人脸检测模型采用Wider Face数据集转变为VOC类型进行训练;
其模型参数设置为:采用Adam优化器进行训练,设置初始lr为0.001,设定每四步对其衰减,衰减为0.9,batch_size设置为16,epoch设置为100,模型卷积层的权重设置为卷积核与通道数乘积的平方根,偏离值设置为0;模型线性层的权重设置为0-0.01,偏离值设置为0。
进一步地:所述人脸属性识别模块为人脸属性识别模型,所述人脸属性识别模块采用Celeba数据集进行训练;
其模型参数设置为:模型卷积层的权重设置为卷积核与通道数乘积的平方根,偏离值设置为0;模型线性层的权重设置为0-0.01,偏离值设置为0;训练步数epochs设置为100;每个批次训练数据大小为32;学习率设置为e-4;学习率衰减因子为0.9,激活函数采用h_swish函数,将dropout层的参数设置为0.2。
本发明还提供了一种基于高精度人脸属性特征识别装置的高精度人脸属性特征识别方法,包括以下步骤:
S1、使用人脸和关键点检测模块获取输入人脸图像的四个特征,将获取到的四个特征通道数统一为256层,其将其输出分别记为A1、A2、A3和A4;
S2、将输出A1、A2、A3和A4进行融合,得到多层融合特征,并将融合特征进行卷积运算,得到P层特征;
S3、将P层特征输入到分类模块中,输出人脸检测图像和高精度的人脸关键点;
S4、判断人脸检测图像中人脸是否存在;
若是,则进入步骤S5;
若否,则更换输入的人脸图像,并返回步骤S1;
S5、提取高精度的人脸关键点中的双眼特征点,计算出左右眼的中心点,将左右眼的中心点进行连线后与水平方向进行比较,得到相对水平方向的角度;
S6、根据相对水平方向的角度,对具备高精度人脸关键点的图像进行变换得到人脸对齐图像;
S7、标注人脸对齐图像的两个人脸属性,将标注后的人脸属性图像分别输入到两个MobileNetV3模型中,使用特征交互模型连接两个MobileNetV3模型的特征完成特征交互;
S8、计算特征交互的损失值,并对特征交互的损失值通过损失函数进行加权求和,得到求和后的损失值;
S9、将求和后的损失值反向传播训练两个MobileNetV3模型,得到训练好的模型,并使用训练好的模型实现高精度人脸属性特征识别。
进一步地:所述步骤S2中,将输出A1、A2、A3和A4进行融合,得到多层融合特征的方法具体方法包括以下分步骤:
S21、将A4上采样之后和A3连接得到初级融合特征;
S22、将初级融合特征上采样之后与A2连接得到中级融合特征;
S23、将中级融合特征与A1连接得到多层融合特征。
进一步地:所述步骤S6包括以下分步骤:
S61、根据相对水平方向的角度,对具备高精度人脸关键点的图像进行旋转,得到旋转后的图像,其公式如下:
其中,(xy)为具备高精度人脸关键点的图像的坐标,(x 1y 1)为旋转后的图像的左眼的坐标,为相对水平方向的角度;
S62、根据预设的人脸对齐图像中左眼的位置和旋转后的图像,得到平移距离,其公式如下:
其中,t 1t 2分别为平移的横向和纵向距离;
S63、根据预设的人脸对齐图像的大小和具备高精度人脸关键点的图像大小,得到缩放比例s
S64、根据缩放比例s和平移距离对旋转后的图像进行变换,得到人脸对齐图像,其公式如下:
其中,(,/>)为预设的人脸对齐图像的坐标。
进一步地:所述步骤S7中,使用特征交互模型将两个MobileNetV3模型进行连接和特征交互具体包括以下分步骤:
其中,X aX b均为交互后的新特征,z a∈[H,W,C]和z b∈[H,W,C]分别是两个MobileNetV3模型在同一位置卷积层输出的特征,HWC分别为特征的高度、宽度和通道数;w self为卷积层交互后网络模型自身的留存程度,w other为卷积层交互后获取其他网络模型特征信息的程度,且w selfw other的和为1;
S72、沿通道层进行连接操作,进行特征分离,将特征分离后的z az b输入到全连接层中,通过全连接层输出其各自特征的差异程度,并输出通道层交互后的和/>的权值,其公式如下:
其中,通道层包括全连接层,为通道层交互后网络模型自身的留存程度,为通道层交互后获取其他网络模型特征信息的程度,f(.)为全连接函数,relu(.)为激活函数,k(.)为对不同特征通道层进行均值操作,softmax(.)为分类函数,softmax(.)输出两个值,其输出的第一个值为/>,输出的第二个值为/>
S73、将和/>输入到中间网络层之后的网络层中,丰富两个MobileNetV3模型自身的特征;
S74、对通道层交互后的特征的宽高进行分离,取分离后的单通道的均值,之后对分离的特征点进行连接,并进行卷积池化操作,输出通道层交互后的和/>的权值,完成特征交互,/>和/>的公式如下:
其中,为特征交互后网络模型自身的留存程度,/>为特征交互后获取其他网络模型特征信息的程度,/>为对MobileNetV3模型特征进行连接的函数,conv(.)为卷积操作,batch(.)为池化操作。
进一步地:所述步骤S8中包括以下分步骤:
S81、分析softmax(.)函数,计算任务n在第t-1步的准确率,其公式如下:
其中,P n(t-1)为任务n在第t-1步的准确率,t为当前步骤,C为任务数目,z jt-1)为分类函数softmax(.)第j个输出节点在第t-1步的输出值,z ct-1)为分类函数softmax(.)第C个输出节点在第t-1步的输出值;n为任务计数标识,包括ij,当n为i时,代表第一个MobileNetV3模型的属性识别任务;当n为j时,代表第二个MobileNetV3模型的属性识别任务;
S82、根据P n(t-1)计算任务n在第t-1步时的损失值,其公式如下:
S83、通过不同任务权重占比动态调整不同任务的权重,得到不同任务的准确率权重,其公式如下:
其中,为任务it-1步的准确率权重,/>为任务it-1步的准确率;
S84、根据计算出不同任务在不同时间的训练速度,其公式如下:
其中,r n(t-1)为任务nt-1步时的训练速度;为任务n在第t-2步时的损失值;
S85、根据不同任务在不同时间的训练速度计算出不同任务训练速率的权重,其公式如下:
其中,w it-1)为任务it-1步时的训练速率权重,r it-1)为任务it-1步时的训练速度;
S86、根据任务i和任务j在第t-1步时的损失值、准确率权重和训练速率权重,对不同任务的动态加权求和,计算任务i和任务j的权重,并将其权重和作为求和后的损失值loss MTL,求和后的损失值的计算公式如下:
其中,loss MTL为求和后的损失值,w jt-1)为任务jt-1步时的训练速率权重,为任务jt-1步的准确率权重,/>为任务it-1步时的损失,/>为任务jt-1步时的损失。
本发明的有益效果为:
1.单阶段的人脸检测模型通过特征融合输出了高精度的人脸框和人脸关键点,保持模型效率的同时输出了高精度的人脸关键点,实现了更高效的人脸对齐运算;
2.通过特征交互模型促使任务间相互促进,使得模型更高效提取了图像的特征,通过设计的多任务损失函数用来平衡了不同任务的学习速度,保证了模型不被单一任务所干扰。
附图说明
图1为本发明所述的高精度人脸属性特征识别装置的结构示意图。
图2为本发明所述的高精度人脸属性特征识别方法的流程示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
如图1所示,在本发明的一个实施例中,提供了一种高精度人脸属性特征识别装置,包括人脸和关键点检测模块、分类模块、人脸对齐模块和人脸属性识别模块;
所述人脸和关键点检测模块用于获取不同网络层的特征,输出P层特征;
所述人脸和关键点检测模块为一个单阶段的人脸检测模型,其主干网络分为四个阶段Stage1、Stage2、Stage3和Stage4,分别获取到不同网络层的特征;
所述Stage1、Stage2、Stage3和Stage4获取到的特征的尺寸分别为104×104×128、52×52×256、26×26×512、13×13×1024,获取到的四个特征分别代表对输入特征下采样4倍、8倍、16倍和32倍;
所述人脸检测模型采用Wider Face数据集转变为VOC类型进行训练;
其模型参数设置为:采用Adam优化器进行训练,设置初始lr为0.001,设定每四步对其衰减,衰减为0.9,batch_size设置为16,epoch设置为100,模型卷积层的权重设置为卷积核与通道数乘积的平方根,偏离值设置为0;模型线性层的权重设置为0-0.01,偏离值设置为0;
所述分类模块用于接收P层特征,并输出高精度的人脸检测图像和高精度的人脸关键点;
所述人脸对齐模块用于获取高精度的人脸关键点,得到人脸对齐图像;
所述人脸属性识别模块用于将人脸对齐图像用于基于参数软共享的方式进行多任务人脸属性识别,并训练特征交互模型达到高精度的效果;
所述人脸属性识别模块为人脸属性识别模型,所述人脸属性识别模块采用Celeba数据集进行训练;
其模型参数设置为:模型卷积层的权重设置为卷积核与通道数乘积的平方根,偏离值设置为0;模型线性层的权重设置为0-0.01,偏离值设置为0;训练步数epochs设置为100;每个批次训练数据大小为32;学习率设置为e-4;学习率衰减因子为0.9,激活函数采用h_swish函数,将dropout层的参数设置为0.2。
如图2所示,在本发明的一个实施例中,还提供了一种基于高精度人脸属性特征识别装置的高精度人脸属性特征识别方法,包括以下步骤:
S1、使用人脸和关键点检测模块获取输入人脸图像的四个特征,将获取到的四个特征通道数统一为256层,其将其输出分别记为A1、A2、A3和A4;
S2、将输出A1、A2、A3和A4进行融合,得到多层融合特征,并将融合特征进行卷积运算,得到P层特征;
所述步骤S2中,将输出A1、A2、A3和A4进行融合,得到多层融合特征的方法具体方法包括以下分步骤:
S21、将A4上采样之后和A3连接得到初级融合特征;
S22、将初级融合特征上采样之后与A2连接得到中级融合特征;
S23、将中级融合特征与A1连接得到多层融合特征;
S3、将P层特征输入到分类模块中,输出人脸检测图像和高精度的人脸关键点;
S4、判断人脸检测图像中人脸是否存在;
若是,则进入步骤S5;
若否,则更换输入的人脸图像,并返回步骤S1;
S5、提取高精度的人脸关键点中的双眼特征点,计算出左右眼的中心点,将左右眼的中心点进行连线后与水平方向进行比较,得到相对水平方向的角度;
S6、根据相对水平方向的角度,对具备高精度人脸关键点的图像进行变换得到人脸对齐图像;
所述步骤S6包括以下分步骤:
S61、根据相对水平方向的角度,对具备高精度人脸关键点的图像进行旋转,得到旋转后的图像,其公式如下:
其中,(xy)为具备高精度人脸关键点的图像的坐标,(x 1y 1)为旋转后的图像的左眼的坐标,为相对水平方向的角度;
S62、根据预设的人脸对齐图像中左眼的位置和旋转后的图像,得到平移距离,其公式如下:
其中,t 1t 2分别为平移的横向和纵向距离;
S63、根据预设的人脸对齐图像的大小和具备高精度人脸关键点的图像大小,得到缩放比例s
S64、根据缩放比例s和平移距离对旋转后的图像进行变换,得到人脸对齐图像,其公式如下:
其中,(,/>)为预设的人脸对齐图像的坐标;
S7、标注人脸对齐图像的两个人脸属性,将标注后的人脸属性图像分别输入到两个MobileNetV3模型中,使用特征交互模型连接两个MobileNetV3模型的特征完成特征交互;
所述步骤S7中,使用特征交互模型将两个MobileNetV3模型进行连接和特征交互具体包括以下分步骤:
S71、使用特征交互模型依次连接两个MobileNetV3模型的卷积层,以元素加权求和的方式实现交互,得到卷积层交互后的新特征X aX b,其公式如下:
其中,X aX b均为交互后的新特征,z a∈[H,W,C]和z b∈[H,W,C]分别是两个MobileNetV3模型在同一位置卷积层输出的特征,HWC分别为特征的高度、宽度和通道数;w self为卷积层交互后网络模型自身的留存程度,w other为卷积层交互后获取其他网络模型特征信息的程度,且w selfw other的和为1;
S72、沿通道层进行连接操作,进行特征分离,将特征分离后的z az b输入到全连接层中,通过全连接层输出其各自特征的差异程度,并输出通道层交互后的和/>的权值,其公式如下:
其中,通道层包括全连接层,为通道层交互后网络模型自身的留存程度,为通道层交互后获取其他网络模型特征信息的程度,f(.)为全连接函数,relu(.)为激活函数,k(.)为对不同特征通道层进行均值操作,softmax(.)为分类函数,softmax(.)输出两个值,其输出的第一个值为/>,输出的第二个值为/>
S73、将和/>输入到中间网络层之后的网络层中,丰富两个MobileNetV3模型自身的特征;
S74、对通道层交互后的特征的宽高进行分离,取分离后的单通道的均值,之后对分离的特征点进行连接,并进行卷积池化操作,输出通道层交互后的和/>的权值,完成特征交互,/>和/>的公式如下:
其中,为特征交互后网络模型自身的留存程度,/>为特征交互后获取其他网络模型特征信息的程度,/>为对MobileNetV3模型特征进行连接的函数,conv(.)为卷积操作,batch(.)为池化操作;
和/>是在两个mobilenetv3模型的中间网络层进行特征交互,得到新特征后,将其输入到中间网络层后面的网络层中,使得这两个模型能够极大丰富自身的特征;
S8、计算特征交互的损失值,并对特征交互的损失值通过损失函数进行加权求和,得到求和后的损失值;
所述步骤S8中包括以下分步骤:
S81、分析softmax(.)函数,计算任务n在第t-1步的准确率,其公式如下:
其中,P n(t-1)为任务n在第t-1步的准确率,t为当前步骤,C为任务数目,z jt-1)为分类函数softmax(.)第j个输出节点在第t-1步的输出值,z ct-1)为分类函数softmax(.)第C个输出节点在第t-1步的输出值;n为任务计数标识,包括ij,当n为i时,代表第一个MobileNetV3模型的属性识别任务;当n为j时,代表第二个MobileNetV3模型的属性识别任务;
S82、根据P n(t-1)计算任务n在第t-1步时的损失值,其公式如下:
S83、通过不同任务权重占比动态调整不同任务的权重,得到不同任务的准确率权重,其公式如下:
其中,为任务it-1步的准确率权重,/>为任务it-1步的准确率;
S84、根据计算出不同任务在不同时间的训练速度,其公式如下:
其中,r n(t-1)为任务nt-1步时的训练速度;为任务n在第t-2步时的损失值;
S85、根据不同任务在不同时间的训练速度计算出不同任务训练速率的权重,其公式如下:
其中,w it-1)为任务it-1步时的训练速率权重,r it-1)为任务it-1步时的训练速度;
S86、根据任务i和任务j在第t-1步时的损失值、准确率权重和训练速率权重,对不同任务的动态加权求和,计算任务i和任务j的权重,并将其权重和作为求和后的损失值loss MTL,求和后的损失值的计算公式如下:
其中,loss MTL为求和后的损失值,w jt-1)为任务jt-1步时的训练速率权重,为任务jt-1步的准确率权重,/>为任务it-1步时的损失,/>为任务jt-1步时的损失;
S9、将求和后的损失值反向传播训练两个MobileNetV3模型,得到训练好的MobileNetV3模型,并使用训练好的模型实现高精度人脸属性特征识别。
在本发明的描述中,需要理解的是,术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此,限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。

Claims (4)

1.一种高精度人脸属性特征识别方法,其特征在于,使用一种高精度人脸属性特征识别装置,包括人脸和关键点检测模块、分类模块、人脸对齐模块和人脸属性识别模块;
所述人脸和关键点检测模块用于获取不同网络层的特征,输出P层特征;
所述分类模块用于接收P层特征,并输出高精度的人脸检测图像和高精度的人脸关键点;
所述人脸对齐模块用于获取高精度的人脸关键点,得到人脸对齐图像;
所述人脸属性识别模块用于将人脸对齐图像用于基于参数软共享的方式进行多任务人脸属性识别,并训练特征交互模型达到高精度的效果;
所述人脸和关键点检测模块为一个单阶段的人脸检测模型,其主干网络分为四个阶段Stage1、Stage2、Stage3和Stage4,分别获取到不同网络层的特征;
所述Stage1、Stage2、Stage3和Stage4获取到的特征的尺寸分别为104×104×128、52×52×256、26×26×512、13×13×1024,获取到的四个特征分别代表对输入特征下采样4倍、8倍、16倍和32倍;
所述人脸检测模型采用Wider Face数据集转变为VOC类型进行训练;
其模型参数设置为:采用Adam优化器进行训练,设置初始lr为0.001,设定每四步对其衰减,衰减为0.9,batch_size设置为16,epoch设置为100,人脸检测模型的卷积层的权重设置为卷积核与通道数乘积的平方根,偏离值设置为0;人脸检测模型的线性层的权重设置为0-0.01,偏离值设置为0;
所述人脸属性识别模块为人脸属性识别模型,所述人脸属性识别模块采用Celeba数据集进行训练;
其模型参数设置为:人脸属性识别模型卷积层的权重设置为卷积核与通道数乘积的平方根,偏离值设置为0;人脸属性识别模型线性层的权重设置为0-0.01,偏离值设置为0;训练步数epochs设置为100;每个批次训练数据大小为32;学习率设置为e-4;学习率衰减因子为0.9,激活函数采用h_swish函数,将dropout层的参数设置为0.2;
包括以下步骤:
S1、使用人脸和关键点检测模块获取输入人脸图像的四个特征,将获取到的四个特征通道数统一为256层,其将其输出分别记为A1、A2、A3和A4;
S2、将输出A1、A2、A3和A4进行融合,得到多层融合特征,并将融合特征进行卷积运算,得到P层特征;
S3、将P层特征输入到分类模块中,输出人脸检测图像和高精度的人脸关键点;
S4、判断人脸检测图像中人脸是否存在;
若是,则进入步骤S5;
若否,则更换输入的人脸图像,并返回步骤S1;
S5、提取高精度的人脸关键点中的双眼特征点,计算出左右眼的中心点,将左右眼的中心点进行连线后与水平方向进行比较,得到相对水平方向的角度;
S6、根据相对水平方向的角度,对具备高精度人脸关键点的图像进行变换得到人脸对齐图像;
S7、标注人脸对齐图像的两个人脸属性,将标注后的人脸属性图像分别输入到两个MobileNetV3模型中,使用特征交互模型连接两个MobileNetV3模型的特征完成特征交互;
所述步骤S7中,使用特征交互模型将两个MobileNetV3模型进行连接和特征交互具体包括以下分步骤:
S71、使用特征交互模型依次连接两个MobileNetV3模型的卷积层,以元素加权求和的方式实现交互,得到卷积层交互后的新特征X aX b,其公式如下:
其中,X aX b均为交互后的新特征,z a∈[H,W,C]和z b∈[H,W,C]分别是两个MobileNetV3模型在同一位置卷积层输出的特征,HWC分别为特征的高度、宽度和通道数;w self为卷积层交互后网络模型自身的留存程度,w other为卷积层交互后获取其他网络模型特征信息的程度,且w selfw other的和为1;
S72、沿通道层进行连接操作,进行特征分离,将特征分离后的z az b输入到全连接层中,通过全连接层输出其各自特征的差异程度,并输出通道层交互后的和/>的权值,其公式如下:
其中,通道层包括全连接层,为通道层交互后网络模型自身的留存程度,/>为通道层交互后获取其他网络模型特征信息的程度,f(.)为全连接函数,relu(.)为激活函数,k(.)为对不同特征通道层进行均值操作,softmax(.)为分类函数,softmax(.)输出两个值,其输出的第一个值为/>,输出的第二个值为/>
S73、将和/>输入到中间网络层之后的网络层中,丰富两个MobileNetV3模型自身的特征;
S74、对通道层交互后的特征的宽高进行分离,取分离后的单通道的均值,之后对分离的特征点进行连接,并进行卷积池化操作,输出通道层交互后的和/>的权值,完成特征交互,/>和/>的公式如下:
其中,为特征交互后网络模型自身的留存程度,/>为特征交互后获取其他网络模型特征信息的程度,/>为对MobileNetV3模型特征进行连接的函数,conv(.)为卷积操作,batch(.)为池化操作;
S8、计算特征交互的损失值,并对特征交互的损失值通过损失函数进行加权求和,得到求和后的损失值;
S9、将求和后的损失值反向传播训练两个MobileNetV3模型,得到训练好的模型,并使用训练好的模型实现高精度人脸属性特征识别。
2.根据权利要求1所述的高精度人脸属性特征识别方法,其特征在于:所述步骤S2中,将输出A1、A2、A3和A4进行融合,得到多层融合特征的方法包括以下分步骤:
S21、将A4上采样之后和A3连接得到初级融合特征;
S22、将初级融合特征上采样之后与A2连接得到中级融合特征;
S23、将中级融合特征与A1连接得到多层融合特征。
3.根据权利要求2所述的高精度人脸属性特征识别方法,其特征在于:所述步骤S6包括以下分步骤:
S61、根据相对水平方向的角度,对具备高精度人脸关键点的图像进行旋转,得到旋转后的图像,其公式如下:
其中,( xy )为具备高精度人脸关键点的图像的坐标,( x 1y 1 )为旋转后的图像的左眼的坐标,为相对水平方向的角度;
S62、根据预设的人脸对齐图像中左眼的位置和旋转后的图像,得到平移距离,其公式如下:
其中,t 1t 2分别为平移的横向和纵向距离;
S63、根据预设的人脸对齐图像的大小和具备高精度人脸关键点的图像大小,得到缩放比例s
S64、根据缩放比例s和平移距离对旋转后的图像进行变换,得到人脸对齐图像,其公式如下:
其中,(,/>)为预设的人脸对齐图像的坐标。
4.根据权利要求1所述的高精度人脸属性特征识别方法,其特征在于:所述步骤S8中包括以下分步骤:
S81、分析softmax(.)函数,计算任务n在第t-1步的准确率,其公式如下:
其中,P n(t-1)为任务n在第t-1步的准确率,t为当前步骤,C为任务数目,z jt-1)为分类函数softmax(.)第j个输出节点在第t-1步的输出值,z ct-1)为分类函数softmax(.)第C个输出节点在第t-1步的输出值;n为任务计数标识,包括ij,当n为i时,代表第一个MobileNetV3模型的属性识别任务;当n为j时,代表第二个MobileNetV3模型的属性识别任务;
S82、根据P n(t-1)计算任务n在第t-1步时的损失值,其公式如下:
S83、通过不同任务权重占比动态调整不同任务的权重,得到不同任务的准确率权重,其公式如下:
其中,为任务it-1步的准确率权重,/>为任务it-1步的准确率;
S84、根据计算出不同任务在不同时间的训练速度,其公式如下:
其中,r n(t-1)为任务nt-1步时的训练速度;为任务n在第t-2步时的损失值;
S85、根据不同任务在不同时间的训练速度计算出不同任务训练速率的权重,其公式如下:
其中,w it-1)为任务it-1步时的训练速率权重,r it-1)为任务it-1步时的训练速度;
S86、根据任务i和任务j在第t-1步时的损失值、准确率权重和训练速率权重,对不同任务的动态加权求和,计算任务i和任务j的权重,并将其权重和作为求和后的损失值loss MTL,求和后的损失值的计算公式如下:
其中,loss MTL为求和后的损失值,w jt-1)为任务jt-1步时的训练速率权重,为任务jt-1步的准确率权重,/>为任务it-1步时的损失,/>为任务jt-1步时的损失。
CN202311338505.4A 2023-10-17 2023-10-17 一种高精度人脸属性特征识别装置及方法 Active CN117079337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311338505.4A CN117079337B (zh) 2023-10-17 2023-10-17 一种高精度人脸属性特征识别装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311338505.4A CN117079337B (zh) 2023-10-17 2023-10-17 一种高精度人脸属性特征识别装置及方法

Publications (2)

Publication Number Publication Date
CN117079337A CN117079337A (zh) 2023-11-17
CN117079337B true CN117079337B (zh) 2024-02-06

Family

ID=88715644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311338505.4A Active CN117079337B (zh) 2023-10-17 2023-10-17 一种高精度人脸属性特征识别装置及方法

Country Status (1)

Country Link
CN (1) CN117079337B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117935060B (zh) * 2024-03-21 2024-05-28 成都信息工程大学 基于深度学习的洪水区域检测方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203395A (zh) * 2016-07-26 2016-12-07 厦门大学 基于多任务深度学习的人脸属性识别方法
CN106503669A (zh) * 2016-11-02 2017-03-15 重庆中科云丛科技有限公司 一种基于多任务深度学习网络的训练、识别方法及系统
CN106529402A (zh) * 2016-09-27 2017-03-22 中国科学院自动化研究所 基于多任务学习的卷积神经网络的人脸属性分析方法
CN107766850A (zh) * 2017-11-30 2018-03-06 电子科技大学 基于结合人脸属性信息的人脸识别方法
CN108304788A (zh) * 2018-01-18 2018-07-20 陕西炬云信息科技有限公司 基于深度神经网络的人脸识别方法
CN109086660A (zh) * 2018-06-14 2018-12-25 深圳市博威创盛科技有限公司 多任务学习深度网络的训练方法、设备及存储介质
CN111079686A (zh) * 2019-12-25 2020-04-28 开放智能机器(上海)有限公司 一种单阶段的人脸检测和关键点定位方法及系统
CN112069992A (zh) * 2020-09-04 2020-12-11 西安西图之光智能科技有限公司 一种基于多监督稠密对齐的人脸检测方法、系统及存储介质
CN114445418A (zh) * 2021-12-24 2022-05-06 华南理工大学 基于多任务学习的卷积网络的皮肤镜图像分割方法与系统
CN115100709A (zh) * 2022-06-23 2022-09-23 北京邮电大学 一种特征分离的图像人脸识别与年龄估计方法
CN115115831A (zh) * 2022-05-30 2022-09-27 西安理工大学 基于注意力引导的多尺度上下文信息交互的语义分割方法
CN115393928A (zh) * 2022-08-08 2022-11-25 徐州市广联科技有限公司 基于深度可分离卷积与加性角度间隔损失的人脸识别方法及装置
CN116012922A (zh) * 2023-01-17 2023-04-25 南京大学 一种适于口罩佩戴状态的人脸图像性别识别方法
CN116138756A (zh) * 2023-01-29 2023-05-23 华南理工大学 基于人脸特征点检测的非接触式心率检测方法、系统及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10929977B2 (en) * 2016-08-25 2021-02-23 Intel Corporation Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
US11087130B2 (en) * 2017-12-29 2021-08-10 RetailNext, Inc. Simultaneous object localization and attribute classification using multitask deep neural networks

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203395A (zh) * 2016-07-26 2016-12-07 厦门大学 基于多任务深度学习的人脸属性识别方法
CN106529402A (zh) * 2016-09-27 2017-03-22 中国科学院自动化研究所 基于多任务学习的卷积神经网络的人脸属性分析方法
CN106503669A (zh) * 2016-11-02 2017-03-15 重庆中科云丛科技有限公司 一种基于多任务深度学习网络的训练、识别方法及系统
CN107766850A (zh) * 2017-11-30 2018-03-06 电子科技大学 基于结合人脸属性信息的人脸识别方法
CN108304788A (zh) * 2018-01-18 2018-07-20 陕西炬云信息科技有限公司 基于深度神经网络的人脸识别方法
CN109086660A (zh) * 2018-06-14 2018-12-25 深圳市博威创盛科技有限公司 多任务学习深度网络的训练方法、设备及存储介质
CN111079686A (zh) * 2019-12-25 2020-04-28 开放智能机器(上海)有限公司 一种单阶段的人脸检测和关键点定位方法及系统
CN112069992A (zh) * 2020-09-04 2020-12-11 西安西图之光智能科技有限公司 一种基于多监督稠密对齐的人脸检测方法、系统及存储介质
CN114445418A (zh) * 2021-12-24 2022-05-06 华南理工大学 基于多任务学习的卷积网络的皮肤镜图像分割方法与系统
CN115115831A (zh) * 2022-05-30 2022-09-27 西安理工大学 基于注意力引导的多尺度上下文信息交互的语义分割方法
CN115100709A (zh) * 2022-06-23 2022-09-23 北京邮电大学 一种特征分离的图像人脸识别与年龄估计方法
CN115393928A (zh) * 2022-08-08 2022-11-25 徐州市广联科技有限公司 基于深度可分离卷积与加性角度间隔损失的人脸识别方法及装置
CN116012922A (zh) * 2023-01-17 2023-04-25 南京大学 一种适于口罩佩戴状态的人脸图像性别识别方法
CN116138756A (zh) * 2023-01-29 2023-05-23 华南理工大学 基于人脸特征点检测的非接触式心率检测方法、系统及介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
End-to-end multi-task learning with attention;Liu S等;《Proceedings of the IEEE/CVF conference on computer vision and pattern recognition》;1871-1880 *
Focal loss for dense object detection;Lin T Y等;《Proceedings of the IEEE international conference on computer vision》;2980-2988 *
Gradnorm: Gradient normalization for adaptive loss balancing in deep multitask networks;Chen Z等;《International conference on machine learning》;794-803 *
Retinaface: Single-shot multi-level face localisation in the wild;Deng J等;《Proceedings of the IEEE/CVF conference on computer vision and pattern recognition》;5203-5212 *
基于单阶段的多人脸动态检测系统;巩稼民等;《现代电子技术》;第44卷(第17期);49-55 *

Also Published As

Publication number Publication date
CN117079337A (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
CN110084124B (zh) 基于特征金字塔网络的特征增强目标检测方法
CN105512624B (zh) 一种人脸图像的笑脸识别方法及其装置
CN112926396B (zh) 一种基于双流卷积注意力的动作识别方法
CN111461110A (zh) 一种基于多尺度图像和加权融合损失的小目标检测方法
CN117079337B (zh) 一种高精度人脸属性特征识别装置及方法
CN107977656A (zh) 一种行人重识别方法及系统
CN110188708A (zh) 一种基于卷积神经网络的人脸表情识别方法
CN110674741A (zh) 一种基于双通道特征融合的机器视觉中手势识别方法
WO2022022292A1 (zh) 手持物体识别方法及装置
CN112784756B (zh) 人体识别跟踪方法
CN110046616A (zh) 图像处理模型生成、图像处理方法、装置、终端设备及存储介质
CN111626211A (zh) 一种基于单目视频图像序列的坐姿识别方法
CN106778526A (zh) 一种基于汉明距离的大规模高效人脸识别方法
CN115272652A (zh) 基于多元回归和自适应焦点损失的密集物体图像检测方法
CN114662605A (zh) 基于改进的YOLOv5模型的火焰检测方法
Kaur et al. Scene perception system for visually impaired based on object detection and classification using multimodal deep convolutional neural network
CN111199199B (zh) 一种基于自适应上下文区域选取的动作识别方法
CN116503654A (zh) 基于二分图结构进行人物交互检测的多模态特征融合方法
CN113591519A (zh) 一种手势识别处理方法
CN115272242A (zh) 一种基于YOLOv5的光学遥感图像目标检测方法
CN112580721B (zh) 一种基于多分辨率特征融合的目标关键点检测方法
CN115147932A (zh) 一种基于深度学习的静态手势识别方法及系统
CN115239974A (zh) 融合注意力机制的视觉同步定位与地图构建闭环检测方法
CN110826501B (zh) 一种基于稀疏关键点校准的人脸关键点检测方法与系统
Yang et al. Cross-modal feature fusion retrieval for remote sensing image-voice retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant