CN112580572B - 多任务识别模型的训练方法及使用方法、设备及存储介质 - Google Patents
多任务识别模型的训练方法及使用方法、设备及存储介质 Download PDFInfo
- Publication number
- CN112580572B CN112580572B CN202011574099.8A CN202011574099A CN112580572B CN 112580572 B CN112580572 B CN 112580572B CN 202011574099 A CN202011574099 A CN 202011574099A CN 112580572 B CN112580572 B CN 112580572B
- Authority
- CN
- China
- Prior art keywords
- face
- sample image
- model
- training
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 239000011521 glass Substances 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 8
- 230000001815 facial effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 23
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000008878 coupling Effects 0.000 description 10
- 238000010168 coupling process Methods 0.000 description 10
- 238000005859 coupling reaction Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 5
- 238000003491 array Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种多任务识别模型的训练方法及使用方法、设备及存储介质,通过先利用包含若干个特征独立的人脸属性的样本图像对初始特征共享模型进行训练,再增加包含若干个特征耦合的人脸属性的样本图像进行训练,最后对模型增加去耦合模型部分,并增加包含人脸姿态的样本图像进行训练,使得能够通过逐步增加人脸属性的方式,实现对多目标任务识别模型的训练,且能够充分利用具有特征独立的人脸属性的样本图像实现特征共享,及通过增加去耦合模型的方式实现对耦合特征的去耦合作用,能够有效的确保多任务目标识别模型的识别准确性,在保证单模型识别多人脸属性精度的同时还可保证识别效率。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种多任务识别模型的训练方法及使用方法、设备及存储介质。
背景技术
人脸属性检测中比较常见的课题就是年龄和性别检测识别,但一般的解决方案都是通过分两个模型来解决。当我们要完成性别、年龄、微笑、人脸图像质量、人脸颜值、口罩状态、眼镜状态7个任务时,则需要使用到7个模型分别进行检测,然而会存在以下问题:若有n个任务,识别的响应速度就要乘以n,识别效率低。
发明内容
本发明的主要目的在于提供一种多任务识别模型的训练方法及使用方法、设备及存储介质,可以解决现有技术中的多任务识别模型的识别效率低的问题。
为实现上述目的,本发明第一方面提供一种多任务识别模型的训练方法,所述方法包括:
获取样本图像,所述样本图像包含第一样本图像、第二样本图像及第三样本图像,所述第一样本图像中包含若干个特征独立的人脸属性的样本图像,所述第二样本图像包含若干个特征耦合的人脸属性的样本图像,所述第三样本图像包含人脸属性为人脸姿态的样本图像;
利用所述第一样本图像对初始特征共享模型进行训练,得到损失值小于预设第一阈值的第一特征共享模型;
利用所述第一样本图像及所述第二样本图像对所述第一特征共享模型进行训练,得到损失值小于预设第二阈值的第二特征共享模型;
在所述第二特征共享模型中增加特征去耦合模型,得到初始多任务识别模型,利用所述第一样本图像、第二样本图像及所述第三样本图像对所述初始多任务识别模型进行训练,得到损失值小于预设第三阈值的完成训练的目标多任务识别模型。
为实现上述目的,本发明第二方面提供一种多任务识别模型的使用方法,所述方法包括:
获取待识别人脸图像;
将所述待识别人脸图像输入多任务识别模型,得到所述多任务识别模型的识别结果,所述多任务识别模型为采用第一方面所述训练方法训练得到的模型;
根据所述识别结果,输出目标结果标签。
为实现上述目的,本发明第三方面提供一种多任务识别模型的训练设备,所述设备包括:
图像获取模块:用于获取样本图像,所述样本图像包含第一样本图像、第二样本图像及第三样本图像,所述第一样本图像中包含若干个特征独立的人脸属性的样本图像,所述第二样本图像包含若干个特征耦合的人脸属性的样本图像,所述第三样本图像包含人脸属性为人脸姿态的样本图像;
第一训练模块:用于利用所述第一样本图像对初始特征共享模型进行训练,得到损失值小于预设第一阈值的第一特征共享模型;
第二训练模块:用于利用所述第一样本图像及所述第二样本图像对所述第一特征共享模型进行训练,得到损失值小于预设第二阈值的第二特征共享模型;
第三训练模块:用于在所述第二特征共享模型中增加特征去耦合模型,得到初始多任务识别模型,利用所述第一样本图像、第二样本图像及所述第三样本图像对所述初始多任务识别模型进行训练,得到损失值小于预设第三阈值的目标多任务识别模型,完成训练。
为实现上述目的,本发明第四方面提供一种多任务识别模型的使用设备,所述设备包括:
获取图像模块:用于获取待识别人脸图像;
人脸识别模块:用于将所述待识别人脸图像输入多任务识别模型,得到所述多任务识别模型的识别结果,所述多任务识别模型为采用如第一方面所述训练方法训练得到的模型;
结果输出模块:用于根据所述识别结果,输出目标结果标签。
为实现上述目的,本发明第五方面提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取样本图像,所述样本图像包含第一样本图像、第二样本图像及第三样本图像,所述第一样本图像中包含若干个特征独立的人脸属性的样本图像,所述第二样本图像包含若干个特征耦合的人脸属性的样本图像,所述第三样本图像包含人脸属性为人脸姿态的样本图像;
利用所述第一样本图像对初始特征共享模型进行训练,得到损失值小于预设第一阈值的第一特征共享模型;
利用所述第一样本图像及所述第二样本图像对所述第一特征共享模型进行训练,得到损失值小于预设第二阈值的第二特征共享模型;
在所述第二特征共享模型中增加特征去耦合模型,得到初始多任务识别模型,利用所述第一样本图像、第二样本图像及所述第三样本图像对所述初始多任务识别模型进行训练,得到损失值小于预设第三阈值的完成训练的目标多任务识别模型。
采用本发明实施例,具有如下有益效果:
本发明实施例中一种多任务识别模型的训练方法包括:获取样本图像,样本图像包含第一样本图像、第二样本图像及第三样本图像,第一样本图像中包含若干个特征独立的人脸属性的样本图像,第二样本图像包含若干个特征耦合的人脸属性的样本图像,第三样本图像包含人脸属性为人脸姿态的样本图像;利用第一样本图像对初始特征共享模型进行训练,得到损失值小于预设第一阈值的第一特征共享模型;利用第一样本图像及第二样本图像对第一特征共享模型进行训练,得到损失值小于预设第二阈值的第二特征共享模型;在第二特征共享模型中增加特征去耦合模型,得到初始多任务识别模型,利用第一样本图像、第二样本图像及第三样本图像对初始多任务识别模型进行训练,得到损失值小于预设第三阈值的完成训练的目标多任务识别模型。通过先利用包含若干个特征独立的人脸属性的样本图像对初始特征共享模型进行训练,再增加包含若干个特征耦合的人脸属性的样本图像进行训练,最后对模型增加去耦合模型部分,并增加包含人脸姿态的样本图像进行训练,使得能够通过逐步增加人脸属性的方式,实现对多目标任务识别模型的训练,且能够充分利用具有特征独立的人脸属性的样本图像实现特征共享,及通过增加去耦合模型的方式实现对耦合特征的去耦合作用,能够有效的确保多任务目标识别模型的识别准确性,在保证单模型识别多人脸属性精度的同时还可保证识别效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为本发明实施例中一种多任务识别模型的训练方法的流程图;
图2为本发明实施例中一种多任务识别模型的训练方法的目标多任务识别模型的结构示意图;
图3为本发明实施例中一种多任务识别模型的使用方法的流程图;
图4为本发明实施例中一种多任务识别模型的使用方法的结果标签示意图;
图5为本发明实施例中一种多任务识别模型的训练设备的结构示意图;
图6为本发明实施例中一种多任务识别模型的使用设备的结构示意图;
图7为本发明实施例中计算机设备的内部结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明实施例中一种多任务识别模型的训练方法的流程图。
步骤101、获取样本图像,样本图像包含第一样本图像、第二样本图像及第三样本图像,第一样本图像中包含若干个特征独立的人脸属性的样本图像,第二样本图像包含若干个特征耦合的人脸属性的样本图像,第三样本图像包含人脸属性为人脸姿态的样本图像;
在本发明实施例中,样本图像的获取可以通过拍摄,又或者直接获取公开图像库中的包含人脸的图像等,在获取方式上只做举例不做具体限定。
可以理解的是,多任务识别是指对人脸的多种属性进行识别,也可称为人脸属性识别,人脸属性可以是人脸关键点、笑容等等。
需要说明的是,特征独立的人脸属性为人脸属性中人脸属性识别的训练过程中关注点区域不重叠或重叠较少的区域。
示例性的,人脸属性识别的训练中人脸关键点的关注点是脸部关键点区域,性别的关注点主要关乎头发及面部纹理,微笑的关注点主要关乎嘴巴及面部纹理,口罩状态的关注点在于脸部下半区,眼镜状态的关注点在于眼镜区域,上述示例均属于特征独立的人脸属性,但对于上述特征独立的人脸属性只做举例不做具体限定。
需要说明的是,特征耦合的人脸属性为人脸属性识别过程中人脸属性识别的训练过程中关注点区域重叠或重叠较多的区域,使得人脸属性的训练结果产生属性A训练不理想导致属性B训练结果也不理想。
示例性的,人脸属性识别中年龄的关注点在于头发、面部纹理等多个人脸区域的综合考量,还有人脸图像质量、人脸颜值、人脸姿态等都属于不确定性的需要关注多区域综合判断的人脸属性,在此对上述特征耦合的人脸属性只做举例不做具体限定。
步骤102、利用第一样本图像对初始特征共享模型进行训练,得到损失值小于预设第一阈值的第一特征共享模型;
步骤103、利用第一样本图像及第二样本图像对第一特征共享模型进行训练,得到损失值小于预设第二阈值的第二特征共享模型;
步骤104、在第二特征共享模型中增加特征去耦合模型,得到初始多任务识别模型,利用第一样本图像、第二样本图像及第三样本图像对初始多任务识别模型进行训练,得到损失值小于预设第三阈值的完成训练的目标多任务识别模型。
本发明实施例公开了一种多任务识别模型的训练方法。通过先利用包含若干个特征独立的人脸属性的样本图像对初始特征共享模型进行训练,再增加包含若干个特征耦合的人脸属性的样本图像进行训练,最后对模型增加去耦合模型部分,并增加包含人脸姿态的样本图像进行训练,使得能够通过逐步增加人脸属性的方式,实现对多目标任务识别模型的训练,且能够充分利用具有特征独立的人脸属性的样本图像实现特征共享,及通过增加去耦合模型的方式实现对耦合特征的去耦合作用,能够有效的确保多任务目标识别模型的识别准确性,在保证单模型识别多人脸属性精度的同时还可保证识别效率。
为更好理解本发明实施例,请参阅图2,图2为本发明实施例中一种多任务识别模型的训练方法的目标多任务识别模型的结构示意图。
需要说明的是,如图2所示模型架构是基于一套成熟的backbone主干网络也可称为主干模型来进行人脸特征提取后,再进一步开发进行人脸的属性识别,因此我们在选择backbone时,对现有的人脸提取模型进行了比较。
其中,mobilenet系列、shufflenet系列特征提取网络作为首选,最后平衡速度和效果使用了移动端模型mobilenetv3_small来作为backbone。Mobilenetv3结合了MobileNetV1的深度可分离卷积、MobileNetV2的the inverted residual with linearbottleneck和MnasNet的基于squeeze and excitation结构的轻量级注意力模型,是很强的移动端特征提取模型,mobilenetv3_small是mobilenetv3的轻量版,在速度表现优异的情况下也有很好的准确度。
优选的,在人脸特征提取上优选mobilenetv3_small作为人脸体征提取模型。
请继续参考图2,图2由特征去耦合模型及特征共享模型,特征共享模型包含有人脸提取模型,在对模型的训练过程中,我们首先利用包含若干个特征独立的人脸属性的样本图像对初始特征共享模型进行训练,得到第一特征共享模型;再增加包含若干个特征耦合的人脸属性的样本图像进行训练,得到第二特征共享模型;最后,在第二共享模型的训练过程中,我们发现人脸姿态样本图像的增加会导致训练结果无法通过调成参数而在此达到理想,因此进行对第二特征共享模型增加去耦合模型部分,并增加包含人脸姿态的样本图像进行训练,最终得到了如图2所示目标多任务识别模型。
可以理解的是,Convolution模块的作用是提取人脸特征中的局部特征;
Pooling模块也称为欠采样或下采样,主要用于特征降维,压缩数据和参数的数量,减小过拟合,同时提高模型的容错性;
Reshape模块是针对对目标函数取数据用于重新布局时,是按照列的方式来获取数据的;
Inner product模块可以叫做内积层或全连接层,主要作用是对学习到的特征进行分类,在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话,全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。在实际使用中,全连接层可由卷积操作实现:对前层是全连接的全连接层可以转化为卷积核为1x1的卷积;
Concat模块的作用在与用于连接两个或多个数组,且不会改变现有的数组,而仅仅会返回被连接数组的一个副本以实现返回一个新的数组;
Split模块的作用是对特征数组进行分割。
请继续参看图2,需要说明的是:Inner product-1模块表示人脸关键点;Innerproduct-2模块表示人脸姿态;Inner product-3模块表示年龄;Inner product-4模块表示人脸质量;Inner product-5模块表示微笑程度;Inner product-6模块表示颜值;Innerproduct-7模块表示性别;Inner product-8模块表示口罩状态;Inner product-9表示眼镜状态。
可以理解的是,如图2所示,为了多任务识别模型的整体的速度够快,我们在做多任务训练时尽可能地去使用特征共享模型进行训练,当个别属性进行联合训练的效果不好时,且无法通过通过参数的调整实现目标识别精度时,就选择把该属性特征进行特征拆分即通过特征去耦合模型使其做为独立分支进行训练。
在本发明实施例中,第一样本图像至少包含人脸关键点、性别、微笑程度、口罩状态及眼镜状态中的至少一个人脸属性的样本图像;
第二样本图像至少包含年龄、人脸图像质量、人脸颜值中的至少一个人脸属性的样本图像。
需要说明的是,基于上述理念,在网络设计前我们首先分析了待识别的9个属性的特性,其中,特征独立的属性有人脸关键点、性别、微笑、口罩状态、眼镜状态。由于特征共享模型适合训练特征独立的人脸属性,因此我们首先构建初始的特征共享模型对上述五个属性的第一样本图像进行训练,通过特征共享方法训练这5个属性,获得了使训练精度达到95%以上的第一特征共享模型。
在第一特征共享模型基础上我们继续添加了不确定性的耦合特征年龄、人脸图像质量、人脸颜值、人脸姿态一起训练联合,发现加入姿态进行联合训练时,对整体的训练结果影响较大,而其他耦合特征年龄、人脸图像质量、人脸颜值对整体的训练结果影响较小,故综合速度和准确度两方面考虑,我们把人脸关键点、性别、年龄、微笑、人脸图像质量、人脸颜值、口罩状态、眼镜状态进行特征共享,人脸姿态进行特征拆分。对上述8个属性的训练过程与上述5个属性的训练过程相似在此不再赘述,最终可以获得精度达到95%以上第二特征共享模型。
为了进一步提升速度和准确度对人脸姿态的训练采用特征去耦合模型训练,在训练过程中发现对人脸关键点的预测对人脸姿态的预测有有裨益作用的,因此将特征去耦合模型的识别结果通过concat模块去融合特征共享模型的人脸关键点的识别结果,进一步获得更精确的人脸姿态的训练结果,融合的方式如图2所示,通过concat模块将特征去耦合模型输出的Inner product模块和特征共享模型中的split模块相连接实现融合,进一步的得到Inner product-2模块即人脸姿态识别结果。
其中,concat模块的作用在与用于连接两个或多个数组,且不会改变现有的数组,而仅仅会返回被连接数组的一个副本以实现返回一个新的数组。在本发明实施例中,通过concat模块可以进一步获得精确的人脸姿态的特征值,又不会影响对人脸关键点的预测。
需要说明的是,在本发明实施例中,在训练中我们发现不同属性间训练的难易度是不一样的,因此对于一些比较简单特征独立的任务如口罩状态、眼镜状态等,应适当减少样本数据比例,把样本数据的关注点放到比较难的属性如性别、年龄等,同时还要对不同年龄端的属性识别进行特别照顾即收集不同年龄段的各属性的样本。使得最终训练结果更加理想化,因此数据收集的分布应根据数据识别难易度进行特定比例的搜集。
需要说明的是,在本发明实施例中,对于总损失函数的设置如下:
total_loss=lds_106_loss+pose_loss*1000+age_loss+facequality_loss+facescore_loss+gender_loss*10+glass_loss*20+mark_loss*20+smile_loss
其中,total_loss代表所有人脸属性识别任务中总损失函数;
lds106_loss代表106个关键点的损失函数;
pose_loss代表姿态的损失函数,1000代表权重系数;
age_loss代表的是年龄的损失函数;
Facequality_loss代表的是人脸质量的损失函数;
Facescore_loss代表的是人脸颜值的损失函数;
Gender_loss代表的是性别的损失函数,权重系数是10;
Glass_loss代表的是眼镜的损失函数,权重系数是20;
Mask_loss代表的是口罩的损失函数,权重系数是20;
Smile_loss代表的是笑容的损失函数。
在本发明实施例中,若包含对人脸关键点的任务识别,则对输出人脸关键点的预测数据使用wingloss损失函数计算人脸关键点的损失值。
在本发明实施例中,若包含第一目标人脸属性的任务识别,则对输出的第一目标人脸属性的预测数据使用L1_smooth损失函数计算第一目标人脸属性的损失值,第一目标人脸属性为人脸姿态、年龄、人脸质量、微笑程度或颜值。
在本发明实施例中,若包含对第二目标人脸属性的任务识别,则输出的第二目标人脸属性的预测数据使用交叉熵作为损失函数计算第二目标人脸属性的损失值,第二目标人脸属性为性别、口罩状态或眼镜状态识别。
本发明实施例公开了一种多任务识别模型的训练方法。通过在模型训练过程中逐步增加耦合特征对模型进行训练以获得目标多任务识别模型,实现通过单模型即可对人脸多属性进行识别,在保证单模型识别多属性精度同时还可保证识别效率。
为更好理解本发明实施例,请参阅图3,图3为本发明实施例中一种多任务识别模型的使用方法的流程图。
步骤301、获取待识别人脸图像;
需要说明的是,可以为摄像设备或任一一种可以获取图像的方式来获取,在此不作具体限定。
步骤302、将待识别人脸图像输入多任务识别模型,得到多任务识别模型的识别结果;
在本发明实施例中,可以将训练好的模型应用于任一交互设备或系统,可能为机器人或人脸识别系统等在此不做限定。
步骤303、根据识别结果,输出目标结果标签。
本发明实施例公开了一种多任务识别模型的使用方法,通过先利用包含若干个特征独立的人脸属性的样本图像对初始特征共享模型进行训练,再增加包含若干个特征耦合的人脸属性的样本图像进行训练,最后对模型增加去耦合模型部分,并增加包含人脸姿态的样本图像进行训练,使得能够通过逐步增加人脸属性的方式,实现对多目标任务识别模型的训练,且能够充分利用具有特征独立的人脸属性的样本图像实现特征共享,及通过增加去耦合模型的方式实现对耦合特征的去耦合作用,能够有效的确保多任务目标识别模型的识别准确性,在保证单模型识别多人脸属性精度的同时还可保证识别效率,进而使得在应用该模型于交互端进行人脸属性识别时,使得输出识别结果及时,提升交互体验。
在本发明实施例中,以机器人作为示例描述使用过程,当机器人的“眼睛”拍摄到环境中的人脸即获取人脸,利用上述多任务识别模型对人脸特征进行识别,根据识别结果输出对应的目标结果标签执行预设的交互指令,例如当口罩状态的目标结果标签为未戴好时,可以执行预设提示带好的语音指令实现交互,当颜值识别的目标结果标签超过预设阈值,还可以执行预设的语音指令例如“你真漂亮!”等积极用语可以提升被识别者的信心,上述交互过程可以根据应用场景,进行变换,实现人机交互,因此只做举例不做具体限定。
在本发明实施例中,步骤303中的输出目标结果标签,还包括:
当人脸姿态的目标结果标签大于预设阈值,则确定目标结果标签无效,输出无效提示信息;
当人脸姿态的目标结果标签小于或等于预设阈值,则确定目标结果标签有效,并输出目标结果标签,预设阈值包括偏航角阈值、俯仰角的阈值及姿态角的阈值。
具体的,人脸姿态时可以参照图4,图4为本发明实施例中一种多任务识别模型的使用方法的结果标签示意图,图中所示的三维立方体即为对应人脸姿态识别结果标签,而三维立方体的表现姿态可以看出当前人脸平面和画面板之间的相对关系,识别框即可以相当于画面板,画面板始终与人脸人脸平面垂直。
进一步的,人脸姿态的识别结果标签还包括人脸平面与画面板之间的姿态角,姿态角由有偏航角、俯仰角及滚动角组成。
为更好理解,姿态角的含义,作出如下解释:首先建立一个画面板坐标系及地面坐标系:①在地面上选一点Og②使xg轴在水平面内并指向某一方向③zg轴垂直于地面并指向地心④yg轴在水平面内垂直于xg轴,其指向按右手定则确定;
其次,建立人脸坐标系即人头坐标系①原点O取在人头的质心处,坐标系与人头固连②x轴垂直于飞机对称平面指向人头右方③y轴在人头的对称平面内指向头顶方向④z轴在人头对称平面内,与x轴及y轴两两垂直并指向人头后脑方向;
最后,姿态角就是人头坐标系与地面坐标系的关系是三个角度,偏航角为人头坐标系相对于地面坐标系绕y轴转动产生,同理俯仰角为绕x轴转动产生,滚动角为绕z轴转动产生。
可以理解的是,航偏角yaw的产生,人脸姿态处于相对画面板存在左右转头的情况;俯仰角的产生,人脸姿态处于相对画面板存在上下抬头的情况,滚动角的产生,人脸姿态处于相对画面板存在旋转的情况。
需要说明的是,为优化用户端的使用体验,在应用多任务识别模型进行人脸属性识别时,我们还提供当人脸姿态识别中人脸姿态的识别结果大于预设阈值则不进行识别的优化服务。此时对人脸属性识别不够完整或无法识别,此时的识别是无意义的,因此当上述人脸姿态对应的识别结果即姿态角的小于或等于预设阈值才会输出每个人脸属性的识别结果标签。
示例性的,预设阈值可以为偏航角的绝对值为40度、俯仰角的绝对值为25度且俯仰角的绝对值、偏航角的绝对值及滚动角的绝对值之和为65度;
其中,当航偏角绝对值小于或等于40度,说明此时的人脸姿态可能存在对于人脸属性识别可以接受的向左、右侧脸或理想的正脸姿态,则识别结果有效,输出识别结果对应的的人脸属性标签;当俯仰角的绝对值小于或等于25度,说明此时的人脸姿态可能存在对于人脸属性识别可以接受的向下低头或向上抬头或理想的正脸姿态,则识别结果有效,输出识别结果对应的人脸属性标签;同时为了防止人脸在空间中的姿态的偏离,当俯仰角的绝对值、偏航角的绝对值及滚动角的绝对值之和小于或等于65度时,此时可能在空间中存在其他方向的偏离,例如向左下侧脸等等,但此时的偏离也是人脸属性识别可以接受的偏离程度,因此识别结果也是有效的,输出识别结果对应的的人脸属性标签;
同理,当航偏角绝对值大于40度,说明此时的人脸姿态为向左或右侧脸,人脸不完整,则不输出识别的人脸属性标签,以节省资源;当俯仰角的绝对值大于25度,说明此时的人脸姿态为向下低头或向上抬头,人脸不完整,则不输出识别的人脸属性标签,以节省资源;同时为了防止人脸在空间中的姿态的偏离,当俯仰角的绝对值、偏航角的绝对值及滚动角的绝对值之和大于65度时,此时可能在空间中存在其他方向的偏离,例如向左下侧脸等等,因此也不输出识别的人脸属性标签,节省资源。
可以理解的是,上述预设阈值设置只做距离不做具体限定。
具体的,当机器人端检测到人脸姿态偏差严重,就不输出识别的人脸属性标签,可以表现为,可以预设指令为“请直视”或“无法识别”的语音指令或其他对应的无效提示信息,在此的举例不做具体限定。
在本发明实施例中,请继续参考图4,人脸关键点的目标结果标签为106个关键点;
人脸姿态的目标结果标签为三维立方体;
人脸质量的目标结果标签为此时人脸图像质量FPS;
人脸颜值的目标结果标签以第一数值表示,且存有主观成分;
人脸年龄的目标结果标签以第二数值表示;
笑容的目标结果标签以第三数值表示;
性别作为分类任务,其目标结果标签为:男士male及女士female;
口罩状态作为分类任务,其目标结果标签为:没戴unmasked、戴好masked及未戴好half_masked;
眼镜状态作为分类任务,其目标结果标签为:没戴眼镜unglass、普通眼镜normalglass及墨镜sunglass。
本发明实施例公开了一种多任务识别模型的使用方法,通过在模型训练过程中逐步增加耦合特征以获得目标多任务识别模型,实现通过单模型即可对人脸多属性进行识别,在保证单模型识别多属性精度同时还可保证识别效率,进而使得在应用该模型于交互端进行人脸属性识别时,使得输出识别结果及时,提升交互体验。
请参阅图5,图5为本发明实施例中一种多任务识别模型的训练设备的结构示意图。
图像获取模块501、用于获取样本图像,样本图像包含第一样本图像、第二样本图像及第三样本图像,第一样本图像中包含若干个特征独立的人脸属性的样本图像,第二样本图像包含若干个特征耦合的人脸属性的样本图像,第三样本图像包含人脸属性为人脸姿态的样本图像;
第一训练模块502、用于利用第一样本图像对初始特征共享模型进行训练,得到损失值小于预设第一阈值的第一特征共享模型;
第二训练模块503、用于利用第一样本图像及第二样本图像对第一特征共享模型进行训练,得到损失值小于预设第二阈值的第二特征共享模型;
第三训练模块504、用于在第二特征共享模型中增加特征去耦合模型,得到初始多任务识别模型,利用第一样本图像、第二样本图像及第三样本图像对初始多任务识别模型进行训练,得到损失值小于预设第三阈值的目标多任务识别模型,完成训练。
本发明实施例公开了一种多任务识别模型的训练设备,通过先利用包含若干个特征独立的人脸属性的样本图像对初始特征共享模型进行训练,再增加包含若干个特征耦合的人脸属性的样本图像进行训练,最后对模型增加去耦合模型部分,并增加包含人脸姿态的样本图像进行训练,使得能够通过逐步增加人脸属性的方式,实现对多目标任务识别模型的训练,且能够充分利用具有特征独立的人脸属性的样本图像实现特征共享,及通过增加去耦合模型的方式实现对耦合特征的去耦合作用,能够有效的确保多任务目标识别模型的识别准确性,在保证单模型识别多人脸属性精度的同时还可保证识别效率。
请参阅图6,图6为本发明实施例中一种多任务识别模型的使用设备的结构示意图。
获取图像模块601、用于获取待识别人脸图像;
人脸识别模块602、用于将待识别人脸图像输入多任务识别模型,得到多任务识别模型的识别结果,多任务识别模型为采用图1所示步骤训练得到的模型;
结果输出模块603、用于根据识别结果,输出目标结果标签。
本发明实施例公开了一种多任务识别模型的使用设备,通过先利用包含若干个特征独立的人脸属性的样本图像对初始特征共享模型进行训练,再增加包含若干个特征耦合的人脸属性的样本图像进行训练,最后对模型增加去耦合模型部分,并增加包含人脸姿态的样本图像进行训练,使得能够通过逐步增加人脸属性的方式,实现对多目标任务识别模型的训练,且能够充分利用具有特征独立的人脸属性的样本图像实现特征共享,及通过增加去耦合模型的方式实现对耦合特征的去耦合作用,能够有效的确保多任务目标识别模型的识别准确性,在保证单模型识别多人脸属性精度的同时还可保证识别效率,进而使得在应用该模型于交互端进行人脸属性识别时,使得输出识别结果及时,提升交互体验。
图7示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端,也可以是服务器。如图7所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现上述方法实施例中的各个步骤。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行上述方法实施例中的各个步骤。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得所述处理器执行如图1及图3所示步骤中任一项所述训练及使用方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种多任务识别模型的训练方法,其特征在于,所述方法包括:
获取样本图像,所述样本图像包含第一样本图像、第二样本图像及第三样本图像,所述第一样本图像中包含若干个特征独立的人脸属性的样本图像,所述第二样本图像包含若干个特征耦合的人脸属性的样本图像,所述第三样本图像包含人脸属性为人脸姿态的样本图像;
利用所述第一样本图像对初始特征共享模型进行训练,得到损失值小于预设第一阈值的第一特征共享模型;
利用所述第一样本图像及所述第二样本图像对所述第一特征共享模型进行训练,得到损失值小于预设第二阈值的第二特征共享模型;
在所述第二特征共享模型中增加特征去耦合模型,得到初始多任务识别模型,利用所述第一样本图像、第二样本图像及所述第三样本图像对所述初始多任务识别模型进行训练,得到损失值小于预设第三阈值的完成训练的目标多任务识别模型。
2.根据权利要求1所述方法,其特征在于,所述第一样本图像至少包含人脸关键点、性别、微笑程度、口罩状态及眼镜状态中的至少一个人脸属性的样本图像;
所述第二样本图像至少包含年龄、人脸图像质量、人脸颜值中的至少一个人脸属性的样本图像。
3.根据权利要求2所述的方法,其特征在于,若包含对人脸关键点的任务识别,则对输出所述人脸关键点的预测数据使用wingloss损失函数计算所述人脸关键点的损失值。
4.根据权利要求2所述的方法,其特征在于,若包含第一目标人脸属性的任务识别,则对输出的所述第一目标人脸属性的预测数据使用L1_smooth损失函数计算所述第一目标人脸属性的损失值,所述第一目标人脸属性为人脸姿态、年龄、人脸质量、微笑程度或颜值。
5.根据权利要求2所述的方法,其特征在于,若包含对第二目标人脸属性的任务识别,则输出的所述第二目标人脸属性的预测数据使用交叉熵作为损失函数计算所述第二目标人脸属性的损失值,所述第二目标人脸属性为性别、口罩状态或眼镜状态识别。
6.一种多任务识别模型的使用方法,其特征在于,所述使用方法包括:
获取待识别人脸图像;
将所述待识别人脸图像输入多任务识别模型,得到所述多任务识别模型的识别结果,所述多任务识别模型为采用权利要求1至5任意一项训练得到的模型;
根据所述识别结果,输出目标结果标签。
7.根据权利要求6所述方法,其特征在于,所述输出目标结果标签,还包括:
当人脸姿态的目标结果标签大于预设阈值,则确定所述目标结果标签无效,输出无效提示信息;
当人脸姿态的目标结果标签小于或等于预设阈值,则确定所述目标结果标签有效,并输出目标结果标签,所述预设阈值包括偏航角阈值、俯仰角的阈值及姿态角的阈值。
8.一种多任务识别模型的训练设备,其特征在于,所述设备包括:
图像获取模块:用于获取样本图像,所述样本图像包含第一样本图像、第二样本图像及第三样本图像,所述第一样本图像中包含若干个特征独立的人脸属性的样本图像,所述第二样本图像包含若干个特征耦合的人脸属性的样本图像,所述第三样本图像包含人脸属性为人脸姿态的样本图像;
第一训练模块:用于利用所述第一样本图像对初始特征共享模型进行训练,得到损失值小于预设第一阈值的第一特征共享模型;
第二训练模块:用于利用所述第一样本图像及所述第二样本图像对所述第一特征共享模型进行训练,得到损失值小于预设第二阈值的第二特征共享模型;
第三训练模块:用于在所述第二特征共享模型中增加特征去耦合模型,得到初始多任务识别模型,利用所述第一样本图像、第二样本图像及所述第三样本图像对所述初始多任务识别模型进行训练,得到损失值小于预设第三阈值的目标多任务识别模型,完成训练。
9.一种多任务识别模型的使用设备,其特征在于,所述设备包括:
获取图像模块:用于获取待识别人脸图像;
人脸识别模块:用于将所述待识别人脸图像输入多任务识别模型,得到所述多任务识别模型的识别结果,所述多任务识别模型为采用权利要求1至5任意一项训练得到的模型;
结果输出模块:用于根据所述识别结果,输出目标结果标签。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述训练及使用方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011574099.8A CN112580572B (zh) | 2020-12-25 | 2020-12-25 | 多任务识别模型的训练方法及使用方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011574099.8A CN112580572B (zh) | 2020-12-25 | 2020-12-25 | 多任务识别模型的训练方法及使用方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112580572A CN112580572A (zh) | 2021-03-30 |
CN112580572B true CN112580572B (zh) | 2023-09-08 |
Family
ID=75140329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011574099.8A Active CN112580572B (zh) | 2020-12-25 | 2020-12-25 | 多任务识别模型的训练方法及使用方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580572B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255539B (zh) * | 2021-06-01 | 2024-05-10 | 平安科技(深圳)有限公司 | 多任务融合的人脸定位方法、装置、设备及存储介质 |
CN113420675A (zh) * | 2021-06-25 | 2021-09-21 | 浙江大华技术股份有限公司 | 一种口罩佩戴规范度的检测方法及装置 |
CN113486944B (zh) * | 2021-07-01 | 2024-09-24 | 北京灵动天地文化发展有限公司 | 人脸融合方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695415A (zh) * | 2020-04-28 | 2020-09-22 | 平安科技(深圳)有限公司 | 图像识别模型的构建方法、识别方法及相关设备 |
WO2020252911A1 (zh) * | 2019-06-19 | 2020-12-24 | 平安科技(深圳)有限公司 | 失踪人脸识别方法、装置、计算机设备和存储介质 |
-
2020
- 2020-12-25 CN CN202011574099.8A patent/CN112580572B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020252911A1 (zh) * | 2019-06-19 | 2020-12-24 | 平安科技(深圳)有限公司 | 失踪人脸识别方法、装置、计算机设备和存储介质 |
CN111695415A (zh) * | 2020-04-28 | 2020-09-22 | 平安科技(深圳)有限公司 | 图像识别模型的构建方法、识别方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112580572A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112580572B (zh) | 多任务识别模型的训练方法及使用方法、设备及存储介质 | |
US12051275B2 (en) | Video processing method and apparatus for action recognition | |
CN112419368A (zh) | 运动目标的轨迹跟踪方法、装置、设备及存储介质 | |
JP6207210B2 (ja) | 情報処理装置およびその方法 | |
WO2022134067A1 (zh) | 多任务识别模型的训练方法、系统及存储介质 | |
CN111160164A (zh) | 基于人体骨架和图像融合的动作识别方法 | |
CN111723707B (zh) | 一种基于视觉显著性的注视点估计方法及装置 | |
CN110598638A (zh) | 模型训练方法、人脸性别预测方法、设备及存储介质 | |
CN110796472A (zh) | 信息推送方法、装置、计算机可读存储介质和计算机设备 | |
CN111209811B (zh) | 一种实时检测眼球注意力位置的方法及系统 | |
CN111667001A (zh) | 目标重识别方法、装置、计算机设备和存储介质 | |
CN111815768B (zh) | 三维人脸重建方法和装置 | |
CN115115552B (zh) | 图像矫正模型训练及图像矫正方法、装置和计算机设备 | |
CN113935435A (zh) | 基于时空特征融合的多模态情感识别方法 | |
WO2023279799A1 (zh) | 对象识别方法、装置和电子系统 | |
CN109002776A (zh) | 人脸识别方法、系统、计算机设备和计算机可读存储介质 | |
US20160110909A1 (en) | Method and apparatus for creating texture map and method of creating database | |
CN113239866B (zh) | 一种时空特征融合与样本注意增强的人脸识别方法及系统 | |
CN117173775A (zh) | 一种基于卷积神经网络和自注意力模型的视线估计方法及系统 | |
CN112101154A (zh) | 视频分类方法、装置、计算机设备和存储介质 | |
CN117037244A (zh) | 人脸安全检测方法、装置、计算机设备和存储介质 | |
CN115546011A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN114462491A (zh) | 一种行为分析模型训练方法、行为分析方法及其设备 | |
Cheng et al. | Class attendance checking system based on deep learning and global optimization | |
Tao et al. | Research on Face Matching Algorithms for Smart Classrooms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |