CN117079337A - 一种高精度人脸属性特征识别装置及方法 - Google Patents
一种高精度人脸属性特征识别装置及方法 Download PDFInfo
- Publication number
- CN117079337A CN117079337A CN202311338505.4A CN202311338505A CN117079337A CN 117079337 A CN117079337 A CN 117079337A CN 202311338505 A CN202311338505 A CN 202311338505A CN 117079337 A CN117079337 A CN 117079337A
- Authority
- CN
- China
- Prior art keywords
- face
- task
- precision
- model
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000003993 interaction Effects 0.000 claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000001514 detection method Methods 0.000 claims abstract description 39
- 230000000694 effects Effects 0.000 claims abstract description 4
- 230000004927 fusion Effects 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 25
- 238000013519 translation Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000000926 separation method Methods 0.000 claims description 6
- 230000002688 persistence Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000014759 maintenance of location Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 230000001815 facial effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种高精度人脸属性特征识别装置及方法,其装置包括人脸和关键点检测模块、分类模块、人脸对齐模块和人脸属性识别模块;人脸和关键点检测模块用于获取不同网络层的特征,输出P层特征;分类模块用于接收P层特征,并输出高精度的人脸检测图像和高精度的人脸关键点;人脸对齐模块用于获取高精度的人脸关键点,得到人脸对齐图像;人脸属性识别模块用于将人脸对齐图像用于基于参数软共享的方式进行多任务人脸属性识别,并训练特征交互模型达到高精度的效果,本方案从两个方面进行特征交互,极大的提升了特征交互的程度,使得模型能够充分提取人脸图像的特征。
Description
技术领域
本发明涉及计算机视觉领域,尤其是涉及一种高精度人脸属性特征识别装置及方法。
背景技术
随着深度学习在图像识别领域的广泛运用,极大的推动了人脸属性识别技术的发展。在基于深度学习的人脸属性识别领域中,深度学习模型往往受到人脸图像尺度大小不一等因素的影响,导致模型不能充分提取人脸图像的特征,因此高效提取图像特征成为了图像识别领域的一个研究重点。
现有的人脸检测模型主要分为单阶段和双阶段模型。双阶段的模型如FastRcnn等,需要首先得到目标物体的位置并得到建议人脸框,然后对其进行分类,这种模型精度高但是速度慢;而单阶段模型不需要得到建议框阶段,直接产生物体的类别概率和位置坐标值,经过单次检测即可直接得到最终的检测结果,这种模型速度一般比双阶段模型更快,但精度有所损失。
发明内容
针对现有技术中的上述不足,本发明提供的一种高精度人脸属性特征识别装置及方法解决了现有模型设计不平衡的问题。
为了达到上述发明目的,本发明采用的技术方案为:提供一种高精度人脸属性特征识别装置,包括人脸和关键点检测模块、分类模块、人脸对齐模块和人脸属性识别模块;
所述人脸和关键点检测模块用于获取不同网络层的特征,输出P层特征;
所述分类模块用于接收P层特征,并输出高精度的人脸检测图像和高精度的人脸关键点;
所述人脸对齐模块用于获取高精度的人脸关键点,得到人脸对齐图像;
所述人脸属性识别模块用于将人脸对齐图像用于基于参数软共享的方式进行多任务人脸属性识别,并训练特征交互模型达到高精度的效果。
进一步地:所述人脸和关键点检测模块为一个单阶段的人脸检测模型,其主干网络分为四个阶段Stage1、Stage2、Stage3和Stage4,分别获取到不同网络层的特征;
所述Stage1、Stage2、Stage3和Stage4获取到的特征的尺寸分别为104×104×128、52×52×256、26×26×512、13×13×1024,获取到的四个特征分别代表对输入特征下采样4倍、8倍、16倍和32倍。
进一步地:所述人脸检测模型采用Wider Face数据集转变为VOC类型进行训练;
其模型参数设置为:采用Adam优化器进行训练,设置初始lr为0.001,设定每四步对其衰减,衰减为0.9,batch_size设置为16,epoch设置为100,模型卷积层的权重设置为卷积核与通道数乘积的平方根,偏离值设置为0;模型线性层的权重设置为0-0.01,偏离值设置为0。
进一步地:所述人脸属性识别模块为人脸属性识别模型,所述人脸属性识别模块采用Celeba数据集进行训练;
其模型参数设置为:模型卷积层的权重设置为卷积核与通道数乘积的平方根,偏离值设置为0;模型线性层的权重设置为0-0.01,偏离值设置为0;训练步数epochs设置为100;每个批次训练数据大小为32;学习率设置为e-4;学习率衰减因子为0.9,激活函数采用h_swish函数,将dropout层的参数设置为0.2。
本发明还提供了一种基于高精度人脸属性特征识别装置的高精度人脸属性特征识别方法,包括以下步骤:
S1、使用人脸和关键点检测模块获取输入人脸图像的四个特征,将获取到的四个特征通道数统一为256层,其将其输出分别记为A1、A2、A3和A4;
S2、将输出A1、A2、A3和A4进行融合,得到多层融合特征,并将融合特征进行卷积运算,得到P层特征;
S3、将P层特征输入到分类模块中,输出人脸检测图像和高精度的人脸关键点;
S4、判断人脸检测图像中人脸是否存在;
若是,则进入步骤S5;
若否,则更换输入的人脸图像,并返回步骤S1;
S5、提取高精度的人脸关键点中的双眼特征点,计算出左右眼的中心点,将左右眼的中心点进行连线后与水平方向进行比较,得到相对水平方向的角度;
S6、根据相对水平方向的角度,对具备高精度人脸关键点的图像进行变换得到人脸对齐图像;
S7、标注人脸对齐图像的两个人脸属性,将标注后的人脸属性图像分别输入到两个MobileNetV3模型中,使用特征交互模型连接两个MobileNetV3模型的特征完成特征交互;
S8、计算特征交互的损失值,并对特征交互的损失值通过损失函数进行加权求和,得到求和后的损失值;
S9、将求和后的损失值反向传播训练两个MobileNetV3模型,得到训练好的模型,并使用训练好的模型实现高精度人脸属性特征识别。
进一步地:所述步骤S2中,将输出A1、A2、A3和A4进行融合,得到多层融合特征的方法具体方法包括以下分步骤:
S21、将A4上采样之后和A3连接得到初级融合特征;
S22、将初级融合特征上采样之后与A2连接得到中级融合特征;
S23、将中级融合特征与A1连接得到多层融合特征。
进一步地:所述步骤S6包括以下分步骤:
S61、根据相对水平方向的角度,对具备高精度人脸关键点的图像进行旋转,得到旋转后的图像,其公式如下:
其中,(x,y)为具备高精度人脸关键点的图像的坐标,(x 1,y 1)为旋转后的图像的左眼的坐标,为相对水平方向的角度;
S62、根据预设的人脸对齐图像中左眼的位置和旋转后的图像,得到平移距离,其公式如下:
其中,t 1和t 2分别为平移的横向和纵向距离;
S63、根据预设的人脸对齐图像的大小和具备高精度人脸关键点的图像大小,得到缩放比例s;
S64、根据缩放比例s和平移距离对旋转后的图像进行变换,得到人脸对齐图像,其公式如下:
其中,(,/>)为预设的人脸对齐图像的坐标。
进一步地:所述步骤S7中,使用特征交互模型将两个MobileNetV3模型进行连接和特征交互具体包括以下分步骤:
其中,X a和X b均为交互后的新特征,z a∈[H,W,C]和z b∈[H,W,C]分别是两个MobileNetV3模型在同一位置卷积层输出的特征,H、W和C分别为特征的高度、宽度和通道数;w self为卷积层交互后网络模型自身的留存程度,w other为卷积层交互后获取其他网络模型特征信息的程度,且w self和w other的和为1;
S72、沿通道层进行连接操作,进行特征分离,将特征分离后的z a和z b输入到全连接层中,通过全连接层输出其各自特征的差异程度,并输出通道层交互后的和/>的权值,其公式如下:
其中,通道层包括全连接层,为通道层交互后网络模型自身的留存程度,为通道层交互后获取其他网络模型特征信息的程度,f(.)为全连接函数,relu(.)为激活函数,k(.)为对不同特征通道层进行均值操作,softmax(.)为分类函数,softmax(.)输出两个值,其输出的第一个值为/>,输出的第二个值为/>;
S73、将和/>输入到中间网络层之后的网络层中,丰富两个MobileNetV3模型自身的特征;
S74、对通道层交互后的特征的宽高进行分离,取分离后的单通道的均值,之后对分离的特征点进行连接,并进行卷积池化操作,输出通道层交互后的和/>的权值,完成特征交互,/>和/>的公式如下:
其中,为特征交互后网络模型自身的留存程度,/>为特征交互后获取其他网络模型特征信息的程度,/>为对MobileNetV3模型特征进行连接的函数,conv(.)为卷积操作,batch(.)为池化操作。
进一步地:所述步骤S8中包括以下分步骤:
S81、分析softmax(.)函数,计算任务n在第t-1步的准确率,其公式如下:
其中,P n(t-1)为任务n在第t-1步的准确率,t为当前步骤,C为任务数目,z j(t-1)为分类函数softmax(.)第j个输出节点在第t-1步的输出值,z c(t-1)为分类函数softmax(.)第C个输出节点在第t-1步的输出值;n为任务计数标识,包括i和j,当n为i时,代表第一个MobileNetV3模型的属性识别任务;当n为j时,代表第二个MobileNetV3模型的属性识别任务;
S82、根据P n(t-1)计算任务n在第t-1步时的损失值,其公式如下:
S83、通过不同任务权重占比动态调整不同任务的权重,得到不同任务的准确率权重,其公式如下:
其中,为任务i在t-1步的准确率权重,/>为任务i在t-1步的准确率;
S84、根据计算出不同任务在不同时间的训练速度,其公式如下:
其中,r n(t-1)为任务n在t-1步时的训练速度;为任务n在第t-2步时的损失值;
S85、根据不同任务在不同时间的训练速度计算出不同任务训练速率的权重,其公式如下:
其中,w i(t-1)为任务i在t-1步时的训练速率权重,r i(t-1)为任务i在t-1步时的训练速度;
S86、根据任务i和任务j在第t-1步时的损失值、准确率权重和训练速率权重,对不同任务的动态加权求和,计算任务i和任务j的权重,并将其权重和作为求和后的损失值loss MTL,求和后的损失值的计算公式如下:
其中,loss MTL为求和后的损失值,w j(t-1)为任务j在t-1步时的训练速率权重,为任务j在t-1步的准确率权重,/>为任务i在t-1步时的损失,/>为任务j在t-1步时的损失。
本发明的有益效果为:
1.单阶段的人脸检测模型通过特征融合输出了高精度的人脸框和人脸关键点,保持模型效率的同时输出了高精度的人脸关键点,实现了更高效的人脸对齐运算;
2.通过特征交互模型促使任务间相互促进,使得模型更高效提取了图像的特征,通过设计的多任务损失函数用来平衡了不同任务的学习速度,保证了模型不被单一任务所干扰。
附图说明
图1为本发明所述的高精度人脸属性特征识别装置的结构示意图。
图2为本发明所述的高精度人脸属性特征识别方法的流程示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
如图1所示,在本发明的一个实施例中,提供了一种高精度人脸属性特征识别装置,包括人脸和关键点检测模块、分类模块、人脸对齐模块和人脸属性识别模块;
所述人脸和关键点检测模块用于获取不同网络层的特征,输出P层特征;
所述人脸和关键点检测模块为一个单阶段的人脸检测模型,其主干网络分为四个阶段Stage1、Stage2、Stage3和Stage4,分别获取到不同网络层的特征;
所述Stage1、Stage2、Stage3和Stage4获取到的特征的尺寸分别为104×104×128、52×52×256、26×26×512、13×13×1024,获取到的四个特征分别代表对输入特征下采样4倍、8倍、16倍和32倍;
所述人脸检测模型采用Wider Face数据集转变为VOC类型进行训练;
其模型参数设置为:采用Adam优化器进行训练,设置初始lr为0.001,设定每四步对其衰减,衰减为0.9,batch_size设置为16,epoch设置为100,模型卷积层的权重设置为卷积核与通道数乘积的平方根,偏离值设置为0;模型线性层的权重设置为0-0.01,偏离值设置为0;
所述分类模块用于接收P层特征,并输出高精度的人脸检测图像和高精度的人脸关键点;
所述人脸对齐模块用于获取高精度的人脸关键点,得到人脸对齐图像;
所述人脸属性识别模块用于将人脸对齐图像用于基于参数软共享的方式进行多任务人脸属性识别,并训练特征交互模型达到高精度的效果;
所述人脸属性识别模块为人脸属性识别模型,所述人脸属性识别模块采用Celeba数据集进行训练;
其模型参数设置为:模型卷积层的权重设置为卷积核与通道数乘积的平方根,偏离值设置为0;模型线性层的权重设置为0-0.01,偏离值设置为0;训练步数epochs设置为100;每个批次训练数据大小为32;学习率设置为e-4;学习率衰减因子为0.9,激活函数采用h_swish函数,将dropout层的参数设置为0.2。
如图2所示,在本发明的一个实施例中,还提供了一种基于高精度人脸属性特征识别装置的高精度人脸属性特征识别方法,包括以下步骤:
S1、使用人脸和关键点检测模块获取输入人脸图像的四个特征,将获取到的四个特征通道数统一为256层,其将其输出分别记为A1、A2、A3和A4;
S2、将输出A1、A2、A3和A4进行融合,得到多层融合特征,并将融合特征进行卷积运算,得到P层特征;
所述步骤S2中,将输出A1、A2、A3和A4进行融合,得到多层融合特征的方法具体方法包括以下分步骤:
S21、将A4上采样之后和A3连接得到初级融合特征;
S22、将初级融合特征上采样之后与A2连接得到中级融合特征;
S23、将中级融合特征与A1连接得到多层融合特征;
S3、将P层特征输入到分类模块中,输出人脸检测图像和高精度的人脸关键点;
S4、判断人脸检测图像中人脸是否存在;
若是,则进入步骤S5;
若否,则更换输入的人脸图像,并返回步骤S1;
S5、提取高精度的人脸关键点中的双眼特征点,计算出左右眼的中心点,将左右眼的中心点进行连线后与水平方向进行比较,得到相对水平方向的角度;
S6、根据相对水平方向的角度,对具备高精度人脸关键点的图像进行变换得到人脸对齐图像;
所述步骤S6包括以下分步骤:
S61、根据相对水平方向的角度,对具备高精度人脸关键点的图像进行旋转,得到旋转后的图像,其公式如下:
其中,(x,y)为具备高精度人脸关键点的图像的坐标,(x 1,y 1)为旋转后的图像的左眼的坐标,为相对水平方向的角度;
S62、根据预设的人脸对齐图像中左眼的位置和旋转后的图像,得到平移距离,其公式如下:
其中,t 1和t 2分别为平移的横向和纵向距离;
S63、根据预设的人脸对齐图像的大小和具备高精度人脸关键点的图像大小,得到缩放比例s;
S64、根据缩放比例s和平移距离对旋转后的图像进行变换,得到人脸对齐图像,其公式如下:
其中,(,/>)为预设的人脸对齐图像的坐标;
S7、标注人脸对齐图像的两个人脸属性,将标注后的人脸属性图像分别输入到两个MobileNetV3模型中,使用特征交互模型连接两个MobileNetV3模型的特征完成特征交互;
所述步骤S7中,使用特征交互模型将两个MobileNetV3模型进行连接和特征交互具体包括以下分步骤:
S71、使用特征交互模型依次连接两个MobileNetV3模型的卷积层,以元素加权求和的方式实现交互,得到卷积层交互后的新特征X a和X b,其公式如下:
其中,X a和X b均为交互后的新特征,z a∈[H,W,C]和z b∈[H,W,C]分别是两个MobileNetV3模型在同一位置卷积层输出的特征,H、W和C分别为特征的高度、宽度和通道数;w self为卷积层交互后网络模型自身的留存程度,w other为卷积层交互后获取其他网络模型特征信息的程度,且w self和w other的和为1;
S72、沿通道层进行连接操作,进行特征分离,将特征分离后的z a和z b输入到全连接层中,通过全连接层输出其各自特征的差异程度,并输出通道层交互后的和/>的权值,其公式如下:
其中,通道层包括全连接层,为通道层交互后网络模型自身的留存程度,为通道层交互后获取其他网络模型特征信息的程度,f(.)为全连接函数,relu(.)为激活函数,k(.)为对不同特征通道层进行均值操作,softmax(.)为分类函数,softmax(.)输出两个值,其输出的第一个值为/>,输出的第二个值为/>;
S73、将和/>输入到中间网络层之后的网络层中,丰富两个MobileNetV3模型自身的特征;
S74、对通道层交互后的特征的宽高进行分离,取分离后的单通道的均值,之后对分离的特征点进行连接,并进行卷积池化操作,输出通道层交互后的和/>的权值,完成特征交互,/>和/>的公式如下:
其中,为特征交互后网络模型自身的留存程度,/>为特征交互后获取其他网络模型特征信息的程度,/>为对MobileNetV3模型特征进行连接的函数,conv(.)为卷积操作,batch(.)为池化操作;
和/>是在两个mobilenetv3模型的中间网络层进行特征交互,得到新特征后,将其输入到中间网络层后面的网络层中,使得这两个模型能够极大丰富自身的特征;
S8、计算特征交互的损失值,并对特征交互的损失值通过损失函数进行加权求和,得到求和后的损失值;
所述步骤S8中包括以下分步骤:
S81、分析softmax(.)函数,计算任务n在第t-1步的准确率,其公式如下:
其中,P n(t-1)为任务n在第t-1步的准确率,t为当前步骤,C为任务数目,z j(t-1)为分类函数softmax(.)第j个输出节点在第t-1步的输出值,z c(t-1)为分类函数softmax(.)第C个输出节点在第t-1步的输出值;n为任务计数标识,包括i和j,当n为i时,代表第一个MobileNetV3模型的属性识别任务;当n为j时,代表第二个MobileNetV3模型的属性识别任务;
S82、根据P n(t-1)计算任务n在第t-1步时的损失值,其公式如下:
S83、通过不同任务权重占比动态调整不同任务的权重,得到不同任务的准确率权重,其公式如下:
其中,为任务i在t-1步的准确率权重,/>为任务i在t-1步的准确率;
S84、根据计算出不同任务在不同时间的训练速度,其公式如下:
其中,r n(t-1)为任务n在t-1步时的训练速度;为任务n在第t-2步时的损失值;
S85、根据不同任务在不同时间的训练速度计算出不同任务训练速率的权重,其公式如下:
其中,w i(t-1)为任务i在t-1步时的训练速率权重,r i(t-1)为任务i在t-1步时的训练速度;
S86、根据任务i和任务j在第t-1步时的损失值、准确率权重和训练速率权重,对不同任务的动态加权求和,计算任务i和任务j的权重,并将其权重和作为求和后的损失值loss MTL,求和后的损失值的计算公式如下:
其中,loss MTL为求和后的损失值,w j(t-1)为任务j在t-1步时的训练速率权重,为任务j在t-1步的准确率权重,/>为任务i在t-1步时的损失,/>为任务j在t-1步时的损失;
S9、将求和后的损失值反向传播训练两个MobileNetV3模型,得到训练好的MobileNetV3模型,并使用训练好的模型实现高精度人脸属性特征识别。
在本发明的描述中,需要理解的是,术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此,限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。
Claims (9)
1.一种高精度人脸属性特征识别装置,其特征在于:包括人脸和关键点检测模块、分类模块、人脸对齐模块和人脸属性识别模块;
所述人脸和关键点检测模块用于获取不同网络层的特征,输出P层特征;
所述分类模块用于接收P层特征,并输出高精度的人脸检测图像和高精度的人脸关键点;
所述人脸对齐模块用于获取高精度的人脸关键点,得到人脸对齐图像;
所述人脸属性识别模块用于将人脸对齐图像用于基于参数软共享的方式进行多任务人脸属性识别,并训练特征交互模型达到高精度的效果。
2.根据权利要求1所述的高精度人脸属性特征识别装置,其特征在于:所述人脸和关键点检测模块为一个单阶段的人脸检测模型,其主干网络分为四个阶段Stage1、Stage2、Stage3和Stage4,分别获取到不同网络层的特征;
所述Stage1、Stage2、Stage3和Stage4获取到的特征的尺寸分别为104×104×128、52×52×256、26×26×512、13×13×1024,获取到的四个特征分别代表对输入特征下采样4倍、8倍、16倍和32倍。
3.根据权利要求2所述的高精度人脸属性特征识别装置,其特征在于:所述人脸检测模型采用Wider Face数据集转变为VOC类型进行训练;
其模型参数设置为:采用Adam优化器进行训练,设置初始lr为0.001,设定每四步对其衰减,衰减为0.9,batch_size设置为16,epoch设置为100,人脸检测模型的卷积层的权重设置为卷积核与通道数乘积的平方根,偏离值设置为0;人脸检测模型的线性层的权重设置为0-0.01,偏离值设置为0。
4.根据权利要求1所述的高精度人脸属性特征识别装置,其特征在于:所述人脸属性识别模块为人脸属性识别模型,所述人脸属性识别模块采用Celeba数据集进行训练;
其模型参数设置为:人脸属性识别模型卷积层的权重设置为卷积核与通道数乘积的平方根,偏离值设置为0;人脸属性识别模型线性层的权重设置为0-0.01,偏离值设置为0;训练步数epochs设置为100;每个批次训练数据大小为32;学习率设置为e-4;学习率衰减因子为0.9,激活函数采用h_swish函数,将dropout层的参数设置为0.2。
5.一种基于权利要求1~4任一权利要求所述的高精度人脸属性特征识别装置的高精度人脸属性特征识别方法,其特征在于,包括以下步骤:
S1、使用人脸和关键点检测模块获取输入人脸图像的四个特征,将获取到的四个特征通道数统一为256层,其将其输出分别记为A1、A2、A3和A4;
S2、将输出A1、A2、A3和A4进行融合,得到多层融合特征,并将融合特征进行卷积运算,得到P层特征;
S3、将P层特征输入到分类模块中,输出人脸检测图像和高精度的人脸关键点;
S4、判断人脸检测图像中人脸是否存在;
若是,则进入步骤S5;
若否,则更换输入的人脸图像,并返回步骤S1;
S5、提取高精度的人脸关键点中的双眼特征点,计算出左右眼的中心点,将左右眼的中心点进行连线后与水平方向进行比较,得到相对水平方向的角度;
S6、根据相对水平方向的角度,对具备高精度人脸关键点的图像进行变换得到人脸对齐图像;
S7、标注人脸对齐图像的两个人脸属性,将标注后的人脸属性图像分别输入到两个MobileNetV3模型中,使用特征交互模型连接两个MobileNetV3模型的特征完成特征交互;
S8、计算特征交互的损失值,并对特征交互的损失值通过损失函数进行加权求和,得到求和后的损失值;
S9、将求和后的损失值反向传播训练两个MobileNetV3模型,得到训练好的模型,并使用训练好的模型实现高精度人脸属性特征识别。
6.根据权利要求5所述的高精度人脸属性特征识别方法,其特征在于:所述步骤S2中,将输出A1、A2、A3和A4进行融合,得到多层融合特征的方法包括以下分步骤:
S21、将A4上采样之后和A3连接得到初级融合特征;
S22、将初级融合特征上采样之后与A2连接得到中级融合特征;
S23、将中级融合特征与A1连接得到多层融合特征。
7.根据权利要求6所述的高精度人脸属性特征识别方法,其特征在于:所述步骤S6包括以下分步骤:
S61、根据相对水平方向的角度,对具备高精度人脸关键点的图像进行旋转,得到旋转后的图像,其公式如下:
其中,( x,y )为具备高精度人脸关键点的图像的坐标,( x 1,y 1 )为旋转后的图像的左眼的坐标,为相对水平方向的角度;
S62、根据预设的人脸对齐图像中左眼的位置和旋转后的图像,得到平移距离,其公式如下:
其中,t 1和t 2分别为平移的横向和纵向距离;
S63、根据预设的人脸对齐图像的大小和具备高精度人脸关键点的图像大小,得到缩放比例s;
S64、根据缩放比例s和平移距离对旋转后的图像进行变换,得到人脸对齐图像,其公式如下:
其中,(,/>)为预设的人脸对齐图像的坐标。
8.根据权利要求7所述的高精度人脸属性特征识别方法,其特征在于:所述步骤S7中,使用特征交互模型将两个MobileNetV3模型进行连接和特征交互具体包括以下分步骤:
S71、使用特征交互模型依次连接两个MobileNetV3模型的卷积层,以元素加权求和的方式实现交互,得到卷积层交互后的新特征X a和X b,其公式如下:
其中,X a和X b均为交互后的新特征,z a∈[H,W,C]和z b∈[H,W,C]分别是两个MobileNetV3模型在同一位置卷积层输出的特征,H、W和C分别为特征的高度、宽度和通道数;w self为卷积层交互后网络模型自身的留存程度,w other为卷积层交互后获取其他网络模型特征信息的程度,且w self和w other的和为1;
S72、沿通道层进行连接操作,进行特征分离,将特征分离后的z a和z b输入到全连接层中,通过全连接层输出其各自特征的差异程度,并输出通道层交互后的和/>的权值,其公式如下:
其中,通道层包括全连接层,为通道层交互后网络模型自身的留存程度,/>为通道层交互后获取其他网络模型特征信息的程度,f(.)为全连接函数,relu(.)为激活函数,k(.)为对不同特征通道层进行均值操作,softmax(.)为分类函数,softmax(.)输出两个值,其输出的第一个值为/>,输出的第二个值为/>;
S73、将和/>输入到中间网络层之后的网络层中,丰富两个MobileNetV3模型自身的特征;
S74、对通道层交互后的特征的宽高进行分离,取分离后的单通道的均值,之后对分离的特征点进行连接,并进行卷积池化操作,输出通道层交互后的和/>的权值,完成特征交互,/>和/>的公式如下:
其中,为特征交互后网络模型自身的留存程度,/>为特征交互后获取其他网络模型特征信息的程度,/>为对MobileNetV3模型特征进行连接的函数,conv(.)为卷积操作,batch(.)为池化操作。
9.根据权利要求8所述的高精度人脸属性特征识别方法,其特征在于:所述步骤S8中包括以下分步骤:
S81、分析softmax(.)函数,计算任务n在第t-1步的准确率,其公式如下:
其中,P n(t-1)为任务n在第 t-1步的准确率,t为当前步骤,C为任务数目,z j(t-1)为分类函数softmax(.)第j个输出节点在第t-1步的输出值,z c(t-1)为分类函数softmax(.)第C个输出节点在第t-1步的输出值;n为任务计数标识,包括i和j,当n为i时,代表第一个MobileNetV3模型的属性识别任务;当n为j时,代表第二个MobileNetV3模型的属性识别任务;
S82、根据P n(t-1)计算任务n在第t-1步时的损失值,其公式如下:
S83、通过不同任务权重占比动态调整不同任务的权重,得到不同任务的准确率权重,其公式如下:
其中,为任务i在t-1步的准确率权重,/>为任务i在t-1步的准确率;
S84、根据计算出不同任务在不同时间的训练速度,其公式如下:
其中,r n(t-1)为任务n在t-1步时的训练速度;为任务n在第t-2步时的损失值;
S85、根据不同任务在不同时间的训练速度计算出不同任务训练速率的权重,其公式如下:
其中,w i(t-1)为任务i在t-1步时的训练速率权重,r i(t-1)为任务i在t-1步时的训练速度;
S86、根据任务i和任务j在第t-1步时的损失值、准确率权重和训练速率权重,对不同任务的动态加权求和,计算任务i和任务j的权重,并将其权重和作为求和后的损失值loss MTL,求和后的损失值的计算公式如下:
其中,loss MTL为求和后的损失值,w j(t-1)为任务j在t-1步时的训练速率权重,为任务j在t-1步的准确率权重,/>为任务i在t-1步时的损失,/>为任务j在t-1步时的损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311338505.4A CN117079337B (zh) | 2023-10-17 | 2023-10-17 | 一种高精度人脸属性特征识别装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311338505.4A CN117079337B (zh) | 2023-10-17 | 2023-10-17 | 一种高精度人脸属性特征识别装置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117079337A true CN117079337A (zh) | 2023-11-17 |
CN117079337B CN117079337B (zh) | 2024-02-06 |
Family
ID=88715644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311338505.4A Active CN117079337B (zh) | 2023-10-17 | 2023-10-17 | 一种高精度人脸属性特征识别装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117079337B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117935060A (zh) * | 2024-03-21 | 2024-04-26 | 成都信息工程大学 | 基于深度学习的洪水区域检测方法 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203395A (zh) * | 2016-07-26 | 2016-12-07 | 厦门大学 | 基于多任务深度学习的人脸属性识别方法 |
CN106503669A (zh) * | 2016-11-02 | 2017-03-15 | 重庆中科云丛科技有限公司 | 一种基于多任务深度学习网络的训练、识别方法及系统 |
CN106529402A (zh) * | 2016-09-27 | 2017-03-22 | 中国科学院自动化研究所 | 基于多任务学习的卷积神经网络的人脸属性分析方法 |
CN107766850A (zh) * | 2017-11-30 | 2018-03-06 | 电子科技大学 | 基于结合人脸属性信息的人脸识别方法 |
CN108304788A (zh) * | 2018-01-18 | 2018-07-20 | 陕西炬云信息科技有限公司 | 基于深度神经网络的人脸识别方法 |
CN109086660A (zh) * | 2018-06-14 | 2018-12-25 | 深圳市博威创盛科技有限公司 | 多任务学习深度网络的训练方法、设备及存储介质 |
US20190164290A1 (en) * | 2016-08-25 | 2019-05-30 | Intel Corporation | Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation |
US20190205643A1 (en) * | 2017-12-29 | 2019-07-04 | RetailNext, Inc. | Simultaneous Object Localization And Attribute Classification Using Multitask Deep Neural Networks |
CN111079686A (zh) * | 2019-12-25 | 2020-04-28 | 开放智能机器(上海)有限公司 | 一种单阶段的人脸检测和关键点定位方法及系统 |
CN112069992A (zh) * | 2020-09-04 | 2020-12-11 | 西安西图之光智能科技有限公司 | 一种基于多监督稠密对齐的人脸检测方法、系统及存储介质 |
CN114445418A (zh) * | 2021-12-24 | 2022-05-06 | 华南理工大学 | 基于多任务学习的卷积网络的皮肤镜图像分割方法与系统 |
CN115100709A (zh) * | 2022-06-23 | 2022-09-23 | 北京邮电大学 | 一种特征分离的图像人脸识别与年龄估计方法 |
CN115115831A (zh) * | 2022-05-30 | 2022-09-27 | 西安理工大学 | 基于注意力引导的多尺度上下文信息交互的语义分割方法 |
CN115393928A (zh) * | 2022-08-08 | 2022-11-25 | 徐州市广联科技有限公司 | 基于深度可分离卷积与加性角度间隔损失的人脸识别方法及装置 |
CN116012922A (zh) * | 2023-01-17 | 2023-04-25 | 南京大学 | 一种适于口罩佩戴状态的人脸图像性别识别方法 |
CN116138756A (zh) * | 2023-01-29 | 2023-05-23 | 华南理工大学 | 基于人脸特征点检测的非接触式心率检测方法、系统及介质 |
-
2023
- 2023-10-17 CN CN202311338505.4A patent/CN117079337B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203395A (zh) * | 2016-07-26 | 2016-12-07 | 厦门大学 | 基于多任务深度学习的人脸属性识别方法 |
US20190164290A1 (en) * | 2016-08-25 | 2019-05-30 | Intel Corporation | Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation |
CN106529402A (zh) * | 2016-09-27 | 2017-03-22 | 中国科学院自动化研究所 | 基于多任务学习的卷积神经网络的人脸属性分析方法 |
CN106503669A (zh) * | 2016-11-02 | 2017-03-15 | 重庆中科云丛科技有限公司 | 一种基于多任务深度学习网络的训练、识别方法及系统 |
CN107766850A (zh) * | 2017-11-30 | 2018-03-06 | 电子科技大学 | 基于结合人脸属性信息的人脸识别方法 |
US20190205643A1 (en) * | 2017-12-29 | 2019-07-04 | RetailNext, Inc. | Simultaneous Object Localization And Attribute Classification Using Multitask Deep Neural Networks |
CN108304788A (zh) * | 2018-01-18 | 2018-07-20 | 陕西炬云信息科技有限公司 | 基于深度神经网络的人脸识别方法 |
CN109086660A (zh) * | 2018-06-14 | 2018-12-25 | 深圳市博威创盛科技有限公司 | 多任务学习深度网络的训练方法、设备及存储介质 |
CN111079686A (zh) * | 2019-12-25 | 2020-04-28 | 开放智能机器(上海)有限公司 | 一种单阶段的人脸检测和关键点定位方法及系统 |
CN112069992A (zh) * | 2020-09-04 | 2020-12-11 | 西安西图之光智能科技有限公司 | 一种基于多监督稠密对齐的人脸检测方法、系统及存储介质 |
CN114445418A (zh) * | 2021-12-24 | 2022-05-06 | 华南理工大学 | 基于多任务学习的卷积网络的皮肤镜图像分割方法与系统 |
CN115115831A (zh) * | 2022-05-30 | 2022-09-27 | 西安理工大学 | 基于注意力引导的多尺度上下文信息交互的语义分割方法 |
CN115100709A (zh) * | 2022-06-23 | 2022-09-23 | 北京邮电大学 | 一种特征分离的图像人脸识别与年龄估计方法 |
CN115393928A (zh) * | 2022-08-08 | 2022-11-25 | 徐州市广联科技有限公司 | 基于深度可分离卷积与加性角度间隔损失的人脸识别方法及装置 |
CN116012922A (zh) * | 2023-01-17 | 2023-04-25 | 南京大学 | 一种适于口罩佩戴状态的人脸图像性别识别方法 |
CN116138756A (zh) * | 2023-01-29 | 2023-05-23 | 华南理工大学 | 基于人脸特征点检测的非接触式心率检测方法、系统及介质 |
Non-Patent Citations (5)
Title |
---|
CHEN Z等: "Gradnorm: Gradient normalization for adaptive loss balancing in deep multitask networks", 《INTERNATIONAL CONFERENCE ON MACHINE LEARNING》, pages 794 - 803 * |
DENG J等: "Retinaface: Single-shot multi-level face localisation in the wild", 《PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, pages 5203 - 5212 * |
LIN T Y等: "Focal loss for dense object detection", 《PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》, pages 2980 - 2988 * |
LIU S等: "End-to-end multi-task learning with attention", 《PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, pages 1871 - 1880 * |
巩稼民等: "基于单阶段的多人脸动态检测系统", 《现代电子技术》, vol. 44, no. 17, pages 49 - 55 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117935060A (zh) * | 2024-03-21 | 2024-04-26 | 成都信息工程大学 | 基于深度学习的洪水区域检测方法 |
CN117935060B (zh) * | 2024-03-21 | 2024-05-28 | 成都信息工程大学 | 基于深度学习的洪水区域检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117079337B (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084124B (zh) | 基于特征金字塔网络的特征增强目标检测方法 | |
EP3908943B1 (en) | Method, apparatus, electronic device and computer readable storage medium for image searching | |
CN112926396B (zh) | 一种基于双流卷积注意力的动作识别方法 | |
CN105512624B (zh) | 一种人脸图像的笑脸识别方法及其装置 | |
CN110674741B (zh) | 一种基于双通道特征融合的机器视觉中手势识别方法 | |
CN117079337B (zh) | 一种高精度人脸属性特征识别装置及方法 | |
WO2022022292A1 (zh) | 手持物体识别方法及装置 | |
CN107977656A (zh) | 一种行人重识别方法及系统 | |
CN110188708A (zh) | 一种基于卷积神经网络的人脸表情识别方法 | |
CN111079739A (zh) | 一种多尺度注意力特征检测方法 | |
CN112784756B (zh) | 人体识别跟踪方法 | |
CN110046616A (zh) | 图像处理模型生成、图像处理方法、装置、终端设备及存储介质 | |
CN111144215A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN117132914B (zh) | 通用电力设备识别大模型方法及系统 | |
CN111476188A (zh) | 基于特征金字塔的人群计数方法、系统、介质及电子设备 | |
CN114662605A (zh) | 基于改进的YOLOv5模型的火焰检测方法 | |
Kaur et al. | Scene perception system for visually impaired based on object detection and classification using multimodal deep convolutional neural network | |
CN115272242A (zh) | 一种基于YOLOv5的光学遥感图像目标检测方法 | |
CN114065838B (zh) | 一种低光照障碍物检测方法、系统、终端以及存储介质 | |
CN115147932A (zh) | 一种基于深度学习的静态手势识别方法及系统 | |
CN114926734A (zh) | 基于特征聚合和注意融合的固体废弃物检测装置及方法 | |
CN114529842A (zh) | 一种基于知识引导下双向注意力机制的人物交互检测方法 | |
CN111931793A (zh) | 一种显著性目标提取方法及系统 | |
CN113591519A (zh) | 一种手势识别处理方法 | |
CN111571567A (zh) | 机器人转译技能训练方法、装置及电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |