CN116543426A - 图像处理方法、装置、电子设备以及存储介质 - Google Patents
图像处理方法、装置、电子设备以及存储介质 Download PDFInfo
- Publication number
- CN116543426A CN116543426A CN202210074181.7A CN202210074181A CN116543426A CN 116543426 A CN116543426 A CN 116543426A CN 202210074181 A CN202210074181 A CN 202210074181A CN 116543426 A CN116543426 A CN 116543426A
- Authority
- CN
- China
- Prior art keywords
- face
- image
- key point
- target face
- uncertainty
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000001514 detection method Methods 0.000 claims abstract description 172
- 238000000034 method Methods 0.000 claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 22
- 210000004709 eyebrow Anatomy 0.000 claims description 13
- 230000001815 facial effect Effects 0.000 claims description 12
- 230000000694 effects Effects 0.000 abstract description 17
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000005457 optimization Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000005286 illumination Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 210000000887 face Anatomy 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 210000000697 sensory organ Anatomy 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- VCGRFBXVSFAGGA-UHFFFAOYSA-N (1,1-dioxo-1,4-thiazinan-4-yl)-[6-[[3-(4-fluorophenyl)-5-methyl-1,2-oxazol-4-yl]methoxy]pyridin-3-yl]methanone Chemical compound CC=1ON=C(C=2C=CC(F)=CC=2)C=1COC(N=C1)=CC=C1C(=O)N1CCS(=O)(=O)CC1 VCGRFBXVSFAGGA-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及计算机视觉技术领域,具体提供了一种图像处理方法、装置、电子设备以及存储介质。一种图像处理方法,包括:获取待测人脸图像,所述待测人脸图像中包括目标人脸;对所述待测人脸图像进行图像检测,确定所述目标人脸的至少一个关键点的关键点信息以及所述目标人脸的第一不确定度;根据所述关键点信息和所述第一不确定度,确定所述目标人脸的检测结果。本公开实施方式,提高人脸检测效果和精度,同时可适用于多种任务场景,提高网络效果和训练效率。
Description
技术领域
本公开涉及计算机视觉技术领域,具体涉及一种图像处理方法、装置、电子设备以及存储介质。
背景技术
目前,基于深度神经网络(DNN,Deep Neural Network)的人脸识别是计算机视觉(CV,Computer Vision)领域最为重要的应用之一。人脸关键点检测是指从人脸图像中定位出人脸面部的特征关键点,例如脸部轮廓关键点、五官关键点等。由于受到姿态、遮挡或者光线等因素的影响,人脸关键点检测是一个富有挑战性的任务。
发明内容
为提高人脸关键点检测效果,本公开实施方式提供了一种图像处理方法、装置、电子设备以及存储介质。
第一方面,本公开实施方式提供了一种图像处理方法,包括:
获取待测人脸图像,所述待测人脸图像中包括目标人脸;
对所述待测人脸图像进行图像检测,确定所述目标人脸的至少一个关键点的关键点信息以及所述目标人脸的第一不确定度;其中,所述第一不确定度根据所述目标人脸的所有关键点的第二不确定度得到;
根据所述关键点信息和所述第一不确定度,确定所述目标人脸的检测结果。
在一些实施方式中,所述获取待测人脸图像包括:
获取待处理图像,所述待处理图像中包括至少一个人脸;
对所述待处理图像进行图像检测,确定所述待处理图像上的每个所述人脸的人脸区域信息;
对于任意一个人脸,根据所述人脸区域信息裁切得到所述人脸对应的所述待测人脸图像。
在一些实施方式中,所述对待测人脸图像进行图像检测,确定所述目标人脸的至少一个关键点的关键点信息以及所述目标人脸的第一不确定度,包括:
对所述待测人脸图像进行关键点检测,基于预先设置的人脸关键点类型,确定所述目标人脸的每个关键点的所述关键点信息和第二不确定度;
根据所述目标人脸的各个关键点的第二不确定度,确定所述目标人脸的第一不确定度。
在一些实施方式中,所述预设关键点包括类型以下至少之一:
脸部轮廓关键点,眼睛关键点,眉毛关键点,鼻子关键点,嘴部关键点,耳朵关键点。
在一些实施方式中,所述根据所述关键点信息和所述第一不确定度,确定所述目标人脸的检测结果,包括:
根据所述目标人脸的所述第一不确定度,确定所述目标人脸的可靠性分值;
响应于所述可靠性分值满足第一预设条件,根据各个关键点的所述关键点信息,在所述待测人脸图像上输出所述关键点。
在一些实施方式中,所述根据所述关键点信息和所述第一不确定度,确定所述目标人脸的检测结果,包括:
根据所述目标人脸的所述第一不确定度,确定所述目标人脸的可靠性分值;
根据所述可靠性分值,以及预先建立的可靠性分值与人脸跟踪模型的对应关系,由预先设置的多个人脸跟踪模型中确定目标人脸跟踪模型;
利用所述目标人脸跟踪模型对所述目标人脸进行检测跟踪,得到所述目标人脸的所述检测结果。
在一些实施方式中,所述根据所述关键点信息和所述第一不确定度,确定所述目标人脸的检测结果,包括:
根据所述目标人脸的所述第一不确定度,确定所述目标人脸的可靠性分值;
响应于所述可靠性分值满足第二预设条件,确定所述待测人脸图像的所述目标人脸检测通过。
在一些实施方式中,所述对所述待测人脸图像进行图像检测,确定所述目标人脸的至少一个关键点的关键点信息以及所述目标人脸的第一不确定度,包括:
将所述待测人脸图像输入预先训练的特征提取网络,得到所述特征提取网络输出的特征图;
将所述特征图输入预先训练的关键点检测网络,得到所述关键点检测网络输出的所述目标人脸的各个关键点的所述关键点信息以及所述第一不确定度。
在一些实施方式中,本公开实施方式的方法,还包括对所述特征提取网络和所述关键点检测网络进行训练的训练过程,所述训练过程包括:
获取样本数据集,所述样本数据集中的每个样本数据包括人脸样本图像,以及所述人脸样本图像中目标人脸的每个关键点的关键点标签;
对于任意一个样本数据,将所述人脸样本图像输入待训练的特征提取网络,得到所述特征提取网络输出的所述人脸样本图像的特征图;
将所述人脸样本图像的特征图输入待训练的关键点检测网络,得到所述目标人脸的每个关键点的关键点信息,以及所述目标人脸的第一不确定度;
基于所述关键点信息、关键点标签以及所述第一不确定度,确定所述关键点信息与所述关键点标签之间的差异;
根据所述差异调整所述特征提取网络和/或所述关键点检测网络的网络参数,直至满足收敛条件,得到训练后的所述特征提取网络和/或所述关键点检测网络。
第二方面,本公开实施方式提供了一种图像处理装置,包括:
获取模块,被配置为获取待测人脸图像,所述待测人脸图像中包括目标人脸;
图像检测模块,被配置为对所述待测人脸图像进行图像检测,确定所述目标人脸的至少一个关键点的关键点信息以及所述目标人脸的第一不确定度;其中,所述第一不确定度根据所述目标人脸的所有关键点的第二不确定度得到;
结果确定模块,被配置为根据所述关键点信息和所述第一不确定度,确定所述目标人脸的检测结果。
在一些实施方式中,所述获取模块被配置为:
获取待处理图像,所述待处理图像中包括至少一个人脸;
对所述待处理图像进行图像检测,确定所述待处理图像上的每个所述人脸的人脸区域信息;
对于任意一个人脸,根据所述人脸区域信息裁切得到所述人脸对应的所述待测人脸图像。
在一些实施方式中,所述图像检测模块被配置为:
对所述待测人脸图像进行关键点检测,基于预先设置的人脸关键点类型,确定所述目标人脸的每个关键点的所述关键点信息和第二不确定度;
根据所述目标人脸的各个关键点的第二不确定度,确定所述目标人脸的第一不确定度。
在一些实施方式中,所述预设关键点包括类型以下至少之一:
脸部轮廓关键点,眼睛关键点,眉毛关键点,鼻子关键点,嘴部关键点,耳朵关键点。
在一些实施方式中,所述结果确定模块被配置为:
根据所述目标人脸的所述第一不确定度,确定所述目标人脸的可靠性分值;
响应于所述可靠性分值满足第一预设条件,根据各个关键点的所述关键点信息,在所述待测人脸图像上输出所述关键点。
在一些实施方式中,所述结果确定模块被配置为:
根据所述目标人脸的所述第一不确定度,确定所述目标人脸的可靠性分值;
根据所述可靠性分值,以及预先建立的可靠性分值与人脸跟踪模型的对应关系,由预先设置的多个人脸跟踪模型中确定目标人脸跟踪模型;
利用所述目标人脸跟踪模型对所述目标人脸进行检测跟踪,得到所述目标人脸的所述检测结果。
在一些实施方式中,所述结果确定模块被配置为:
根据所述目标人脸的所述第一不确定度,确定所述目标人脸的可靠性分值;
响应于所述可靠性分值满足第二预设条件,确定所述待测人脸图像的所述目标人脸检测通过。
在一些实施方式中,所述图像检测模块包括:
特征提取模块,被配置为将所述待测人脸图像输入预先训练的特征提取网络,得到所述特征提取网络输出的特征图;
关键点检测模块,被配置为将所述特征图输入预先训练的关键点检测网络,得到所述关键点检测网络输出的所述目标人脸的各个关键点的所述关键点信息以及所述第一不确定度。
在一些实施方式中,本公开实施方式所述的装置,还包括训练模块,所述训练模块被配置为:
获取样本数据集,所述样本数据集中的每个样本数据包括人脸样本图像,以及所述人脸样本图像中目标人脸的每个关键点的关键点标签;
对于任意一个样本数据,将所述人脸样本图像输入待训练的特征提取网络,得到所述特征提取网络输出的所述人脸样本图像的特征图;
将所述人脸样本图像的特征图输入待训练的关键点检测网络,得到所述目标人脸的每个关键点的关键点信息,以及所述目标人脸的第一不确定度;
基于所述关键点信息、关键点标签以及所述第一不确定度,确定所述关键点信息与所述关键点标签之间的差异;
根据所述差异调整所述特征提取网络和/或所述关键点检测网络的网络参数,直至满足收敛条件,得到训练后的所述特征提取网络和/或所述关键点检测网络。
第三方面,本公开实施方式提供了一种电子设备,包括:
处理器;以及
存储器,存储有能够被所述处理器读取的计算机指令,当所述计算机指令被读取时,所述处理器执行根据第一方面任一实施方式所述的方法。
第四方面,本公开实施方式提供了一种存储介质,用于存储计算机可读指令,所述计算机可读指令用于使计算机执行根据第一方面任一实施方式所述的方法。
本公开实施方式的图像处理方法,包括获取待测人脸图像,对待测人脸图像进行图像检测,确定目标人脸的至少一个关键点的关键点信息以及目标人脸的第一不确定度,根据关键点信息和第一不确定度,确定目标人脸的检测结果。本公开实施方式,通过目标人脸的第一不确定度辅助对人脸关键点的检测,提高人脸检测效果和精度,同时可适用于多种任务场景,并且基于目标人脸的所有关键点的第二不确定度确定代表目标人脸综合误差的第一不确定度,提高网络效果和训练效率。
附图说明
为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本公开一些实施方式的图像处理方法的流程图。
图2是根据本公开一些实施方式的图像处理方法的流程图。
图3是根据本公开一些实施方式的图像处理方法的流程图。
图4是根据本公开一些实施方式中人脸关键点的示意图。
图5是根据本公开一些实施方式中图像检测网络的结构示意图。
图6是根据本公开一些实施方式的图像处理方法的流程图。
图7是根据本公开一些实施方式的图像处理方法的流程图。
图8是根据本公开一些实施方式的图像处理方法的流程图。
图9是根据本公开一些实施方式的图像处理方法的流程图。
图10是根据本公开一些实施方式的图像处理装置的结构框图。
图11是根据本公开一些实施方式的图像处理装置的结构框图。
图12是根据本公开一些实施方式中电子设备的结构框图。
具体实施方式
下面将结合附图对本公开的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本公开一部分实施方式,而不是全部的实施方式。基于本公开中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本公开保护的范围。此外,下面所描述的本公开不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
人脸关键点检测是人脸识别任务的必要手段,人脸关键点检测是指从人脸图像中定位出人脸面部的特征关键点,例如脸部轮廓关键点、五官关键点等,脸部轮廓关键点可以包括下巴关键点、下颌关键点、脸颊关键点等,五官关键点可以包括眼睛关键点、眉毛关键点、鼻子关键点、嘴部关键点、耳朵关键点等。
目前,基于深度神经网络(DNN,Deep Neural Network)的人脸关键点定位是最为高效且常用的检测方式。相关技术中,为提高DNN对关键点预测定位的准确性,会针对每个关键点设计不确定度参数,利用DNN预测每个人脸关键点的不确定度,基于不确定度对关键点坐标进行回归预测,从而DNN输出精度相对较高的人脸关键点。
但是,在这种方案中,由于DNN检测的每个人脸关键点都需要回归一个不确定度,对于检测精度要求较高的网络,人脸关键点的数量可能达到几百上千个,导致DNN网络结构复杂度和计算量十分庞大,成本较高。并且,在DNN训练过程中,对于人脸关键点的不确定度无法设计明确的优化目标,导致网络难以收敛,实际使用效果较差。
基于上述缺陷,本公开实施方式提供了一种图像处理方法、装置、电子设备以及存储介质,旨在提高人脸关键点定位精度,并且优化图像检测网络的结构和效果。
第一方面,本公开实施方式提供了一种图像处理方法,该方法可应用于电子设备。本公开实施方式中,电子设备可以是任何适于实施的设备类型,例如移动终端、车载终端、可穿戴设备、门禁系统、视频监控系统、云平台及服务器等,本公开对此不作限制。
如图1所示,在一些实施方式中,本公开示例的图像处理方法,包括:
S110、获取待测人脸图像,待测人脸图像中包括目标人脸。
具体而言,待测人脸图像是指期望于由图像中检测出人脸对象的图像,从而待测人脸图像中可包括一个或多个人脸对象,该人脸对象即为所述的目标人脸。
在本公开实施方式中,待测人脸图像可以是由电子设备的图像采集装置采集到的单帧图像,也可以是由电子设备的图像采集装置采集的视频流中的帧图像。
例如一个示例中,电子设备以智能手机为例,智能手机包括摄像头,通过摄像头可以拍摄到包括人脸的图像,该图像即可作为本公开所述的待测人脸图像。
例如另一个示例中,电子设备以视频监控系统为例,视频监控系统包括监控摄像头,通过监控摄像头可以采集到目标场景区域中包括人脸的视频流,视频流中的帧图像即可作为本公开所述的待测人脸图像。
总而言之,待测人脸图像可以是任何期望于从图像中检测得到人脸对象的图像,可以是实时采集获取的图像,也可以是通过网络上传或者下载的人脸图像,本公开对此不再赘述。
在一些实施方式中,考虑到电子设备获取的人脸图像中往往具备较多的干扰因素,例如人脸图像中包括多张人脸对象,又例如人脸图像中包括较大面积的非人脸区域。为提高后续关键点检测精度,可以预先对人脸图像进行裁切处理,将裁切后仅包括一个人脸对象的图像作为待测人脸图像。本公开下述实施方式中进行说明,在此暂不详述。
S120、对待测人脸图像进行图像检测,确定目标人脸的至少一个关键点的关键点信息以及目标人脸的第一不确定度。
具体而言,人脸关键点检测需要由待测人脸图像中检测得到多个人脸关键点,这些人脸关键点可以分别属于不同的人脸关键点类型。关键点类型可以包括例如脸部轮廓关键点、眼睛关键点、眉毛关键点、鼻子关键点、嘴部关键点、耳朵关键点等,每一个关键点类型可以包括多个关键点,例如眉毛关键点可以包括5*2共计10个关键点。
本公开实施方式中,关键点信息可以包括每个关键点对应的关键点坐标,例如,可以基于图像检测技术对待测人脸图像进行图像检测,从而由待测人脸图像中检测得到目标人脸的所有关键点,以及每个关键点在图像中的位置坐标。
同时,在本公开实施方式中,关键点检测时还需要确定目标人脸的第一不确定度,第一不确定度表示目标人脸的所有关键点的综合误差,也即,目标人脸的第一不确定度根据所有关键点的第二不确定度得到。第一不确定度越高,表示对目标人脸的关键点检测的误差也越大,反之,第一不确定度越低,表示目标人脸的关键点检测的误差越小。
在一些实施方式中,可以利用预先训练的关键点检测网络,对目标人脸的每个关键点的位置坐标进行预测,从而得到每个关键点的关键点信息。同时,关键点检测网络还可以对每个关键点的不确定度进行预测,得到每个关键点对应的第二不确定度。
以目标人脸的眉毛关键点中的某一个关键点A为例,关键点检测网络可以基于目标人脸的眉毛特征预测得到该关键点A的位置坐标(x,y)和第二不确定度p,第二不确定度p表示该关键点的位置坐标(x,y)的误差。第二不确定度p越大,表示位置坐标(x,y)的误差也越大,反之,第二不确定度p越小,表示位置坐标(x,y)的误差也越小。
可以理解,上述仅以其中一个关键点为例进行说明,对于目标人脸的所有关键点,每个关键点均对应有关键点信息和第二不确定度。在本公开实施方式中,并非直接基于每个关键点的第二不确定度确定目标人脸的检测结果,而是根据所有关键点的第二不确定度计算得到目标人脸的第一不确定度,将第一不确定度作为目标人脸所对应的综合不确定度。
在一些实施方式中,可以将所有关键点的第二不确定度的均方根作为目标人脸对应的第一不确定度。在另一些实施方式中,可以将所有关键点的第二不确定的均值作为目标人脸对应的第一不确定度。当然,可以理解,还可以采用其他方式融合所有关键点的第二不确定度得到第一不确定度,只要保证第一不确定度可以代表关键点的综合误差即可,本公开对此不作限制。
S130、根据关键点信息和第一不确定度,确定目标人脸的检测结果。
具体而言,在确定目标人脸的每个关键点的关键点信息,以及目标人脸所对应的第一不确定度之后,即可根据不同的下游任务场景,设置对应的后处理逻辑,从而基于关键点信息和第一不确定度得到针对目标人脸的检测结果。
一个示例中,以人脸照片入库为例,用户上传的人脸图像必须符合一定的要求,例如不得遮挡眉毛、不得偏头角度过大等。从而通过本公开上述过程,可以对用户上传的人脸照片进行图像处理,得到人脸图像的每个关键点的关键点信息,以及针对目标人脸的第一不确定度。当第一不确定度大于预设阈值时,说明用户上传的人脸图像关键点检测的偏差较大,可能存在五官遮挡等问题,从而可向用户输出对应的检测结果为不通过,且某个五官存在遮挡。
另一个示例中,以人脸追踪场景为例,不同的光照情况下电子设备对应的工况不同,例如在极暗光场景下,电子设备采集的人脸图像曝光度很低,从而关键点检测得到的第一不确定度较大。反之,例如在明亮场景下,电子设备采集的人脸图像曝光度正常,从而关键点检测得到的第一不确定度较低。基于此,可以通过设置合适的阈值,利用第一不确定度确定设备当前所处的光照环境,从而采用对应的追踪算法模型实现人脸追踪。
当然,可以理解,本公开示例的场景并不局限于上述示例,本公开下文中对此进行具体说明,在此暂不详述。
值得说明的是,本公开实施方式中,基于目标人脸的所有关键点的第二不确定度确定代表目标人脸综合误差的第一不确定度,从而对于关键点检测网络,在训练过程中无需对每个关键点的不确定度进行回归优化,而是对人脸的综合不确定度进行优化,网络容易收敛,效果更好,并且大大提高训练效率。
通过上述可知,本公开实施方式中,通过目标人脸的第一不确定度辅助对人脸关键点的检测,提高人脸检测效果和精度。并且基于目标人脸的所有关键点的第二不确定度确定代表目标人脸综合误差的第一不确定度,提高网络效果和训练效率。同时,本公开方法对于应用场景不作限制,可以适用于多种场景的下游任务,例如人脸图像质量检测、人脸追踪、关键点定位等,鲁棒性更高。
如图2所示,在一些实施方式中,本公开示例的图像处理方法中,获取待测人脸图像的过程,包括:
S210、获取待处理图像,待处理图像中包括至少一个人脸。
S220、对待处理图像进行图像检测,确定待处理图像上的每个人脸的人脸区域信息。
S230、对于任意一个人脸,根据人脸区域信息裁切得到人脸对应的待测人脸图像。
具体而言,待处理图像可以是通过电子设备的图像采集装置采集到的原始图像,或者用户上传至电子设备的上传图像。可以理解,待处理图像中可能包括一个人脸,也可能包括多个人脸。
本公开实施方式中,可基于图像检测技术,对待处理图像进行图像检测,得到待处理图像上每个人脸的人脸区域信息。例如一个示例中,可以通过例如CenterFace网络对待处理图像进行图像检测,从而得到待处理图像上每个人脸区域的人脸检测框,人脸检测框也即人脸区域信息。
在得到每个人脸的人脸检测框之后,即可根据人脸检测框对待处理图像进行裁切处理,从而得到包括每个人脸区域的人脸图像,该人脸图像即为待测人脸图像。
在一个示例中,可以每个人脸检测框的中心点为原点,保持原点坐标不变以预设比例对人脸检测框整体进行均匀外扩,沿外扩后的人脸检测框裁切出人脸图像。
可以理解,在待处理图像上包括多个人脸时,通过图2实施方式过程,可以裁切出每个人脸的人脸图像,这些人脸图像均可以作为本公开所述的待测人脸图像。
在一些实施方式中,在得到待测人脸图像之后,即可基于图像检测技术对待测人脸图像中的目标人脸进行关键点检测,下面结合图3进行说明。
如图3所示,在一些实施方式中,本公开示例的图像处理方法,对待测人脸图像进行图像检测的过程包括:
S310、对待测人脸图像进行关键点检测,基于预先设置的人脸关键点类型,确定目标人脸的每个关键点的关键点信息和第二不确定度。
S320、根据目标人脸的各个关键点的第二不确定度,确定目标人脸的第一不确定度。
具体而言,在对目标人脸进行关键点检测时,需要从待测人脸图像中检测到属于目标人脸的一种或者多种的关键点类型所包括的关键点。关键点类型包括例如眼睛关键点、眉毛关键点、鼻子关键点、嘴部关键点、脸部轮廓关键点等,其中每个关键点类型可包括多个关键点。
例如图4所示,预先设置的人脸关键点类型可以包括如下表一所示:
表一
人脸关键点类型 | 关键点编号 |
脸部轮廓关键点 | 0~32 |
眉毛关键点 | 33~42 |
鼻子关键点 | 43~51 |
眼睛关键点 | 52~63 |
嘴部关键点 | 64~83 |
当然可以理解,人脸关键点类型并不局限于上述表一示例,还可以包括其他任何适于实施的关键点类型,例如耳朵关键点、苹果肌关键点等等,本公开对此不作限制。
在本公开实施方式中,可以基于图像检测对待测人脸图像进行上述关键点类型的检测,从而可以确定目标人脸的每个关键点的关键点信息以及每个关键点的第二不确定度。
基于前述可知,对于任意一个关键点,其关键点信息包括该关键点在图像坐标系中的位置坐标,而第二不确定度表示该关键点定位结果的不确定程度。从而,对于目标人脸的所有关键点,可基于每个关键点的第二不确定计算得到目标人脸所对应的第一不确定度。例如一个示例中,可以将所有关键点的第二不确定度的均方根作为目标人脸所对应的第一不确定度。
在一些实施方式中,可以基于预先训练的图像检测网络实现对待测人脸图像中目标人脸的关键点检测。图5示出了本公开一些实施方式中的图像检测网络结构,下面结合图5进行说明。
如图5所示,在一些实施方式中,本公开示例的图像检测网络包括特征提取网络510和关键点检测网络520。
特征提取网络510为图像检测网络的骨干网络(Backbone Network),其主要用于对待测人脸图像进行特征提取,从而得到包括待测人脸语义特征和纹理特征的特征图(feature map)。也即,特征提取网络510的输入为待测人脸图像,输出为待测人脸图像的特征图。
在一些示例实施方式中,特征提取网络510可以采用基于卷积神经网络(CNN,Convolutional Neural Network)架构的可学习网络,例如在一个示例中,为便于在移动终端中部署,特征提取网络510可以采用较为轻量级的MobileNet神经网络。
关键点检测网络520用于根据特征提取网络510输出的特征图,预测输出关键点信息以及第一不确定度。例如图5示例中,关键点检测网络520的网络结构包括两个分支,也即输出层分为两个全连接层。其中一个分支为关键点信息预测,用于对目标人脸的每个关键点的位置坐标进行回归预测,得到每个关键点的关键点信息。其中另一个分支为不确定度预测,用于根据每个关键点的不确定度预测输出目标人脸的第一不确定度。
在一个示例中,关键点检测网络520的池化层采用7*7的池化层,每个全连接层采用256*1维的全连接层。
在一些实施方式中,利用图5所示的图像检测网络对待测人脸图像进行处理之前,还包括对待测人脸图像进行归一化处理的过程,归一化处理的目的是将待测人脸图像的像素值进行归一化,从而得到符合网络设计要求的输入图像,减小计算量。
在一个示例中,在待测人脸图像输入图像检测网络之前,可首先通过例如双线性插值将待测人脸图像缩放至预设尺寸,例如112像素*112像素,并且对图像进行像素归一化,表示为:
INorm=(I-127.5)/127.5 式(1)
式(1)中,INorm表示归一化处理后的图像像素值,I表示原图像的像素值,将归一化处理后的图像作为图像检测网络的输入图像。
本公开实施方式,在得到图像检测网络预测输出的目标人脸的关键点信息和目标人脸的第一不确定度之后,可以根据下游任务的具体需求,得到不同的针对目标人脸的检测结果,下面分别进行说明。
例如一些场景中,期望由场景图像中检测出人脸,并且在场景图像中显示出人脸关键点的可视化效果。如图6所示,在该场景中,本公开的图像处理方法,确定目标人脸的检测结果包括:
S131-1、根据目标人脸的第一不确定度,确定目标人脸的可靠性分值。
S132-2、响应于可靠性分值满足第一预设条件,根据各个关键点的关键点信息,在待测人脸图像上输出关键点。
具体而言,在得到图像检测网络输出的目标人脸的关键点信息和目标人脸的第一不确定度之后,可以基于第一不确定度计算出目标人脸的可靠性分值。
可以理解,第一不确定度表示对目标人脸进行关键点检测定位的综合误差,其反应的是检测出的关键点信息的可靠程度,基于此可以确定目标人脸的可靠性分值。
在一个示例中,图像检测网络输出的第一不确定度为位于0~1之间的数值,从而确定的目标人脸的可靠性分值,即可表示为:
θ=1-α 式(2)
式(2)中,θ表示目标人脸的可靠性分值,α表示目标人脸的第一不确定度。
在本公开实施方式中,可以预先基于先验知识或者场景需求设置第一预设阈值,第一预设阈值表示目标人脸的关键点检测结果通过与否的临界值。当可靠性分值大于该第一预设阈值时,表示目标人脸的检测结果为可靠结果,也即检测通过,满足第一预设条件。反之,当可靠性分值不大于该第一预设阈值时,表示目标人脸的检测结果不可靠,也即检测不通过,不满足第一预设条件。
在确定可靠性分值满足第一预设条件的情况下,即可根据每个关键点的关键点信息,在原始的待测人脸图像上标注出各个关键点,从而用户可以观看到每个关键点在图像上的位置,实现人脸关键点的可视化输出。
例如一些场景中,在对人脸进行实时跟踪时,往往需要针对不同的工况采用不同的跟踪模型。举例来说,对于例如极暗光、逆光、模糊等极端场景,需要采用适用于极端场景的人脸跟踪模型;而对于例如光照良好的普通场景,则采用适用于普通场景的人脸跟踪模型即可。从而,本公开一些实施方式中,可以基于第一不确定度确定当前所处的场景复杂度,实现对人脸跟踪模型的切换,下面结合图7实施方式进行说明。
如图7所示,在一些实施方式中,本公开的图像处理方法,确定目标人脸的检测结果包括:
S132-1、根据目标人脸的第一不确定度,确定目标人脸的可靠性分值。
S132-2、根据可靠性分值,以及预先建立的可靠性分值与人脸跟踪模型的对应关系,由预先设置的多个人脸跟踪模型中确定目标人脸跟踪模型。
S132-3、利用目标人脸跟踪模型对目标人脸进行检测跟踪,得到目标人脸的检测结果。
具体而言,在本示例中,可以基于前述图6实施方式的过程,确定目标人脸的可靠性分值,本公开对此不再赘述。
可以理解的是,对于不同光照场景的待检测人脸图像,关键点检测得到的第一不确定度也应当不同。例如在极暗光场景下,电子设备采集的人脸图像曝光度很低,从而关键点检测得到的第一不确定度较大,相应的,目标人脸的可靠性分值也就越低。反之,例如在明亮场景下,电子设备采集的人脸图像曝光度正常,从而关键点检测得到的第一不确定度较低,相应的,目标人脸的可靠性分值也就越高。
据此可以基于先验知识或者有限次试验,预先建立可靠性分值与人脸跟踪模型的对应关系。在一个示例中,预先建立的对应关系可如下表二所示:
表二
可靠性分值 | 人脸跟踪模型 | 光线场景 |
[0,0.6) | 模型1 | 普通场景 |
[0.6,1] | 模型2 | 暗光场景 |
从而在确定目标人脸的可靠性分值之后,即可根据上表二中的对应关系,确定与可靠性分值对应的人脸跟踪模型为目标人脸根据模型,然后即可利用该目标人脸跟踪模型对目标人脸进行检测跟踪。例如一个示例中,待检测图像中目标人脸的可靠性分值为0.8,则可基于上述表二对应关系,确定当前场景为普通场景,对应的目标人脸跟踪模型为“模型1”,从而利用模型1对目标人脸进行跟踪检测,得到人脸检测结果。
通过上述可知,在本示例实施方式中,可以基于可靠性分值判断当前光线场景,从而选择对应的人脸跟踪模型进行人脸跟踪检测,提高检测系统的效果。
例如一些场景中,可根据本公开方法实现对入库照片的质量检测。举例来说,对于身份验证等人脸识别场景,往往需要用户预先上传符合要求的人脸照片,从而作为后续身份验证时调取使用的模板照片。在此情况下,可通过本公开方法对用户上传照片进行检测,确定上传照片是否合格。下面结合图8实施方式进行说明。
如图8所示,在一些实施方式中,本公开的图像处理方法,确定目标人脸的检测结果包括:
S133-1、根据目标人脸的第一不确定度,确定目标人脸的可靠性分值。
S133-2、响应于可靠性分值满足第二预设条件,确定待测人脸图像的目标人脸检测通过。
具体而言,在用户上传人脸图像或者通过电子设备采集用户人脸图像之后,该人脸图像即可作为本公开前述实施方式所述的待测人脸图像,基于前述实施方式方法对待测人脸图像进行关键点检测,可以得到目标人脸的关键点信息以及第一不确定度。
在本示例中,可以基于前述图6实施方式的过程,确定目标人脸的可靠性分值,本公开对此不再赘述。
可以理解,对于人脸识别所需的入库照片,往往需要满足一定的要求,例如面部无遮挡、人脸倾斜角度不能过大等等,这些干扰因素会导致人脸关键点缺失或偏移,从而关键点检测得到的第一不确定度较大。
据此可以基于先验知识或者有限次试验,预先设置第二预设阈值,第二预设阈值表示目标人脸是否检测通过的临界值。当可靠性分值大于该第二预设阈值时,表示目标人脸的检测通过,满足第二预设条件,可以入库。反之,当可靠性分值不大于该第二预设阈值时,表示目标人脸的检测结果不通过,不满足第二预设条件,无法入库。
在一些实施方式中,在确定目标人脸检测不通过的情况下,还可以根据关键点信息确定不符合要求的关键点,从而向用户输出提示信息,例如“眉毛存在遮挡”等。
通过上述可知,本公开实施方式的方法,可以应用于各种人脸识别场景,可以基于第一不确定度区分图像质量或者当前环境条件,实用性和鲁棒性强,提高人脸识别任务的效果。
值得说明的是,本公开实施方式中,对于例如图5所示的图像检测网络,在训练过程中无需对每个关键点的不确定度进行回归优化,而是对人脸的综合不确定度进行优化,网络容易收敛,效果更好,并且大大提高训练效率。下面结合图9实施方式对训练过程进行具体说明。
如图9所示,在一些实施方式中,本公开示例的图像处理方法,对图像检测网络进行网络训练的过程包括:
S910、获取样本数据集。
具体而言,样本数据集包括海量的样本数据,例如一个示例中,样本数据集包括5000张样本数据。对于每一个样本数据,其包括人脸样本图像,以及预先标注的人脸样本图像中目标人脸的每个关键点的关键点标签。
可以理解,关键点标签表示人脸样本图像中目标人脸的各个关键点的真实值(Ground truth),关键点标签可以通过人工标注的方式得到。例如一个示例中,可以通过人工标注的标注的方式对人脸样本图像中的目标人脸的N个关键点坐标进行标记,得到每个人脸样本图像对应的关键点标签。
在一些实施方式中,还可以预先对样本数据集中海量数据进行预处理,预处理的过程可参照前述图2实施方式,也即由人脸样本图像中裁切出人脸区域作为图像检测网络的输入图像。
S920、对于任意一个样本数据,将人脸样本图像输入待训练的特征提取网络,得到特征提取网络输出的人脸样本图像的特征图。
本公开实施方式中,图像检测网络的网络结构可参照前述图5实施方式所示。在利用样本数据集对图像检测网络进行网络训练时,可将每n个样本数据作为一个批次(Batch)的训练样本,通常n可以取256。下面以一个样本数据为例,对训练过程进行说明。
在一些实施方式中,在将人脸样本图像输入图像检测网络之前,可以预先对人脸样本图像进行归一化处理,归一化处理的过程可参照前述式(1),对此不再赘述。
将样本数据包括的人脸样本图像输入待训练的特征提取网络510中,从而特征提取网络510输出得到人脸样本图像所对应的特征图。
S930、将人脸样本图像的特征图输入待训练的关键点检测网络,得到目标人脸的每个关键点的关键点信息,以及目标人脸的第一不确定度。
具体而言,特征提取网络510输出的特征图作为关键点检测网络520的输入,经过关键点检测网络520池化层和全连接层,分别输出目标人脸的关键点信息P以及目标人脸的第一不确定度α。
在一个示例中,关键点检测网络520输出的目标人脸的关键点信息表示为:
P={(x1,y1),(x2,y2),...(xi,yi)}i=1,2,3,..,N 式(3)
式(3)中,P表示关键点信息,N表示关键点数量,(xi,yi)表示第i个关键点的位置坐标。
S940、基于关键点信息、关键点标签以及第一不确定度,确定关键点信息与关键点标签之间的差异。
具体而言,关键点信息可以包括图像检测网络预测输出的关键点的位置坐标,而关键点标签表示关键点的真实坐标,从而可基于预先构建的损失函数计算出两者的差异,也即损失。
值得说明的是,本公开实施方式方法中,并非仅根据关键点信息与关键点标签之间的差异对图像检测网络进行优化训练,而是融合第一不确定度同时进行优化训练,从而无需为第一不确定度设置额外的标签,网络更容易收敛。
在一些实施方式中,图像处理网络采用多目标约束损失函数,表示如下:
L=Lp+λ*Lα 式(4)
在式(4)中,L表示关键点信息与关键点标签之间的损失,Lp表示关键点误差损失函数,La表示不确定度误差损失函数,两者表示如下:
Lp=f(σp) 式(6)
Lα=f(σp-α) 式(7)
f(x)=|x| 式(8)
在式(5)~(8)中,σp表示目标人脸所有关键点的均方根误差,α表示预测输出的第一不确定度,f表示L1损失函数,xi和分别表示第i个关键点x坐标标签和预测值,yi和/>分别表示第i个关键点y坐标标签和预测值。/>
S950、根据差异调整特征提取网络和/或关键点检测网络的网络参数,直至满足收敛条件,得到训练后的特征提取网络和/或关键点检测网络。
具体而言,在确定预测值与标签值之间的差异之后,即可根据该差异反向传播对特征提取网络和/或关键点检测网络的网络参数进行优化调整。利用样本数据集中的样本数据反复重复上述过程,对图像检测网络进行迭代优化,直至满足收敛条件,网络训练完成。
值得说明的是,本公开实施方式中,通过构建例如式(4)所示的损失函数,融合目标人脸的第一不确定度对网络进行优化训练,提高图像处理网络的效果。并且,构建的损失函数结构简单,无需对第一不确定度额外设置标签,即可实现对第一不确定度的优化,网络更容易收敛。而且第一不确定度为目标人脸的综合不确定度,在训练过程中无需对每一个关键点单独进行回归优化,简化计算量,提高网络训练效率。
第二方面,本公开实施方式提供了一种图像处理装置,该装置可应用于电子设备。本公开实施方式中,电子设备可以是任何适于实施的设备类型,例如移动终端、车载终端、可穿戴设备、门禁系统、视频监控系统、云平台及服务器等,本公开对此不作限制。
如图10所示,在一些实施方式中,本公开示例的图像处理装置,包括:
获取模块10,被配置为获取待测人脸图像,所述待测人脸图像中包括目标人脸;
图像检测模块20,被配置为对所述待测人脸图像进行图像检测,确定所述目标人脸的至少一个关键点的关键点信息以及所述目标人脸的第一不确定度;其中,所述第一不确定度根据所述目标人脸的所有关键点的第二不确定度得到;
结果确定模块30,被配置为根据所述关键点信息和所述第一不确定度,确定所述目标人脸的检测结果。
通过上述可知,本公开实施方式中,通过目标人脸的第一不确定度辅助对人脸关键点的检测,提高人脸检测效果和精度。并且基于目标人脸的所有关键点的第二不确定度确定代表目标人脸综合误差的第一不确定度,提高网络效果和训练效率。同时,本公开方法对于应用场景不作限制,可以适用于多种场景的下游任务,例如人脸图像质量检测、人脸追踪、关键点定位等,鲁棒性更高。
在一些实施方式中,所述获取模块10被配置为:
获取待处理图像,所述待处理图像中包括至少一个人脸;
对所述待处理图像进行图像检测,确定所述待处理图像上的每个所述人脸的人脸区域信息;
对于任意一个人脸,根据所述人脸区域信息裁切得到所述人脸对应的所述待测人脸图像。
在一些实施方式中,所述图像检测模块20被配置为:
对所述待测人脸图像进行关键点检测,基于预先设置的人脸关键点类型,确定所述目标人脸的每个关键点的所述关键点信息和第二不确定度;
根据所述目标人脸的各个关键点的第二不确定度,确定所述目标人脸的第一不确定度。
在一些实施方式中,所述预设关键点包括类型以下至少之一:
脸部轮廓关键点,眼睛关键点,眉毛关键点,鼻子关键点,嘴部关键点,耳朵关键点。
在一些实施方式中,所述结果确定模块30被配置为:
根据所述目标人脸的所述第一不确定度,确定所述目标人脸的可靠性分值;
响应于所述可靠性分值满足第一预设条件,根据各个关键点的所述关键点信息,在所述待测人脸图像上输出所述关键点。
在一些实施方式中,所述结果确定模块30被配置为:
根据所述目标人脸的所述第一不确定度,确定所述目标人脸的可靠性分值;
根据所述可靠性分值,以及预先建立的可靠性分值与人脸跟踪模型的对应关系,由预先设置的多个人脸跟踪模型中确定目标人脸跟踪模型;
利用所述目标人脸跟踪模型对所述目标人脸进行检测跟踪,得到所述目标人脸的所述检测结果。
在一些实施方式中,所述结果确定模块30被配置为:
根据所述目标人脸的所述第一不确定度,确定所述目标人脸的可靠性分值;
响应于所述可靠性分值满足第二预设条件,确定所述待测人脸图像的所述目标人脸检测通过。
如图11所示,在一些实施方式中,所述图像检测模块20包括:
特征提取模块40,被配置为将所述待测人脸图像输入预先训练的特征提取网络,得到所述特征提取网络输出的特征图;
关键点检测模块50,被配置为将所述特征图输入预先训练的关键点检测网络,得到所述关键点检测网络输出的所述目标人脸的各个关键点的所述关键点信息以及所述第一不确定度。
在一些实施方式中,本公开实施方式所述的装置,还包括训练模块60,所述训练模块被配置为:
获取样本数据集,所述样本数据集中的每个样本数据包括人脸样本图像,以及所述人脸样本图像中目标人脸的每个关键点的关键点标签;
对于任意一个样本数据,将所述人脸样本图像输入待训练的特征提取网络,得到所述特征提取网络输出的所述人脸样本图像的特征图;
将所述人脸样本图像的特征图输入待训练的关键点检测网络,得到所述目标人脸的每个关键点的关键点信息,以及所述目标人脸的第一不确定度;
基于所述关键点信息、关键点标签以及所述第一不确定度,确定所述关键点信息与所述关键点标签之间的差异;
根据所述差异调整所述特征提取网络和/或所述关键点检测网络的网络参数,直至满足收敛条件,得到训练后的所述特征提取网络和/或所述关键点检测网络。
通过上述可知,本公开实施方式中,通过融合目标人脸的第一不确定度对网络进行优化训练,提高图像处理网络的效果。并且,构建的损失函数结构简单,无需对第一不确定度额外设置标签,即可实现对第一不确定度的优化,网络更容易收敛。而且第一不确定度为目标人脸的综合不确定度,在训练过程中无需对每一个关键点单独进行回归优化,简化计算量,提高网络训练效率。
第三方面,本公开实施方式提供了一种电子设备,包括:
处理器;以及
存储器,存储有能够被所述处理器读取的计算机指令,当所述计算机指令被读取时,所述处理器执行根据第一方面任一实施方式所述的方法。
第四方面,本公开实施方式提供了一种存储介质,用于存储计算机可读指令,所述计算机可读指令用于使计算机执行根据第一方面任一实施方式所述的方法。
具体而言,图12示出了适于用来实现本公开方法的电子设备600的结构示意图,通过图12所示电子设备,可实现上述处理器及存储介质相应功能。
如图12所示,电子设备600包括处理器601,其可以根据存储在存储器602中的程序或者从存储部分608加载到存储器602中的程序而执行各种适当的动作和处理。在存储器602中,还存储有电子设备600操作所需的各种程序和数据。处理器601和存储器602通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施方式,上文方法过程可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行上述方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
显然,上述实施方式仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本公开创造的保护范围之中。
Claims (12)
1.一种图像处理方法,其特征在于,包括:
获取待测人脸图像,所述待测人脸图像中包括目标人脸;
对所述待测人脸图像进行图像检测,确定所述目标人脸的至少一个关键点的关键点信息以及所述目标人脸的第一不确定度;其中,所述第一不确定度根据所述目标人脸的所有关键点的第二不确定度得到;
根据所述关键点信息和所述第一不确定度,确定所述目标人脸的检测结果。
2.根据权利要求1所述的方法,其特征在于,所述获取待测人脸图像包括:
获取待处理图像,所述待处理图像中包括至少一个人脸;
对所述待处理图像进行图像检测,确定所述待处理图像上的每个所述人脸的人脸区域信息;
对于任意一个人脸,根据所述人脸区域信息裁切得到所述人脸对应的所述待测人脸图像。
3.根据权利要求1所述的方法,其特征在于,所述对待测人脸图像进行图像检测,确定所述目标人脸的至少一个关键点的关键点信息以及所述目标人脸的第一不确定度,包括:
对所述待测人脸图像进行关键点检测,基于预先设置的人脸关键点类型,确定所述目标人脸的每个关键点的所述关键点信息和第二不确定度;
根据所述目标人脸的各个关键点的第二不确定度,确定所述目标人脸的第一不确定度。
4.根据权利要求3所述的方法,其特征在于,所述人脸关键点包括类型以下至少之一:
脸部轮廓关键点,眼睛关键点,眉毛关键点,鼻子关键点,嘴部关键点,耳朵关键点。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述关键点信息和所述第一不确定度,确定所述目标人脸的检测结果,包括:
根据所述目标人脸的所述第一不确定度,确定所述目标人脸的可靠性分值;
响应于所述可靠性分值满足第一预设条件,根据各个关键点的所述关键点信息,在所述待测人脸图像上输出所述关键点。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述关键点信息和所述第一不确定度,确定所述目标人脸的检测结果,包括:
根据所述目标人脸的所述第一不确定度,确定所述目标人脸的可靠性分值;
根据所述可靠性分值,以及预先建立的可靠性分值与人脸跟踪模型的对应关系,由预先设置的多个人脸跟踪模型中确定目标人脸跟踪模型;
利用所述目标人脸跟踪模型对所述目标人脸进行检测跟踪,得到所述目标人脸的所述检测结果。
7.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述关键点信息和所述第一不确定度,确定所述目标人脸的检测结果,包括:
根据所述目标人脸的所述第一不确定度,确定所述目标人脸的可靠性分值;
响应于所述可靠性分值满足第二预设条件,确定所述待测人脸图像的所述目标人脸检测通过。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述对所述待测人脸图像进行图像检测,确定所述目标人脸的至少一个关键点的关键点信息以及所述目标人脸的第一不确定度,包括:
将所述待测人脸图像输入预先训练的特征提取网络,得到所述特征提取网络输出的特征图;
将所述特征图输入预先训练的关键点检测网络,得到所述关键点检测网络输出的所述目标人脸的各个关键点的所述关键点信息以及所述第一不确定度。
9.根据权利要求8所述的方法,其特征在于,还包括对所述特征提取网络和所述关键点检测网络进行训练的训练过程,所述训练过程包括:
获取样本数据集,所述样本数据集中的每个样本数据包括人脸样本图像,以及所述人脸样本图像中目标人脸的每个关键点的关键点标签;
对于任意一个样本数据,将所述人脸样本图像输入待训练的特征提取网络,得到所述特征提取网络输出的所述人脸样本图像的特征图;
将所述人脸样本图像的特征图输入待训练的关键点检测网络,得到所述目标人脸的每个关键点的关键点信息,以及所述目标人脸的第一不确定度;
基于所述关键点信息、关键点标签以及所述第一不确定度,确定所述关键点信息与所述关键点标签之间的差异;
根据所述差异调整所述特征提取网络和/或所述关键点检测网络的网络参数,直至满足收敛条件,得到训练后的所述特征提取网络和/或所述关键点检测网络。
10.一种图像处理装置,其特征在于,包括:
获取模块,被配置为获取待测人脸图像,所述待测人脸图像中包括目标人脸;
图像检测模块,被配置为对所述待测人脸图像进行图像检测,确定所述目标人脸的至少一个关键点的关键点信息以及所述目标人脸的第一不确定度;其中,所述第一不确定度根据所述目标人脸的所有关键点的第二不确定度得到;
结果确定模块,被配置为根据所述关键点信息和所述第一不确定度,确定所述目标人脸的检测结果。
11.一种电子设备,其特征在于,包括:
处理器;以及
存储器,存储有能够被所述处理器读取的计算机指令,当所述计算机指令被读取时,所述处理器执行根据权利要求1至9中任一项所述的方法。
12.一种存储介质,其特征在于,用于存储计算机可读指令,所述计算机可读指令用于使计算机执行根据权利要求1至9中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210074181.7A CN116543426A (zh) | 2022-01-21 | 2022-01-21 | 图像处理方法、装置、电子设备以及存储介质 |
PCT/CN2022/090297 WO2023137905A1 (zh) | 2022-01-21 | 2022-04-29 | 图像处理方法、装置、电子设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210074181.7A CN116543426A (zh) | 2022-01-21 | 2022-01-21 | 图像处理方法、装置、电子设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116543426A true CN116543426A (zh) | 2023-08-04 |
Family
ID=87347704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210074181.7A Pending CN116543426A (zh) | 2022-01-21 | 2022-01-21 | 图像处理方法、装置、电子设备以及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116543426A (zh) |
WO (1) | WO2023137905A1 (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488774A (zh) * | 2019-01-29 | 2020-08-04 | 北京搜狗科技发展有限公司 | 一种图像处理方法、装置和用于图像处理的装置 |
CN110472494A (zh) * | 2019-06-21 | 2019-11-19 | 深圳壹账通智能科技有限公司 | 脸部特征提取模型训练方法、脸部特征提取方法、装置、设备及存储介质 |
CN112200176B (zh) * | 2020-12-10 | 2021-03-02 | 长沙小钴科技有限公司 | 人脸图像的质量检测方法、系统和计算机设备 |
CN112581480A (zh) * | 2020-12-22 | 2021-03-30 | 深圳市雄帝科技股份有限公司 | 自动抠图方法、系统及其可读存储介质 |
-
2022
- 2022-01-21 CN CN202210074181.7A patent/CN116543426A/zh active Pending
- 2022-04-29 WO PCT/CN2022/090297 patent/WO2023137905A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023137905A1 (zh) | 2023-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108921782B (zh) | 一种图像处理方法、装置及存储介质 | |
US10936911B2 (en) | Logo detection | |
JP6994588B2 (ja) | 顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体 | |
CN108197618B (zh) | 用于生成人脸检测模型的方法和装置 | |
CN108230291B (zh) | 物体识别系统训练方法、物体识别方法、装置和电子设备 | |
CN108337505B (zh) | 信息获取方法和装置 | |
CN110570435A (zh) | 用于对车辆损伤图像进行损伤分割的方法及装置 | |
CN111723707A (zh) | 一种基于视觉显著性的注视点估计方法及装置 | |
CN113177892A (zh) | 生成图像修复模型的方法、设备、介质及程序产品 | |
CN111445496B (zh) | 一种水下图像识别跟踪系统及方法 | |
CN110321778B (zh) | 一种人脸图像处理方法、装置和存储介质 | |
CN111292333B (zh) | 用于分割图像的方法和装置 | |
CN112766028A (zh) | 人脸模糊处理方法、装置、电子设备及存储介质 | |
CN114663726A (zh) | 目标类别检测模型的训练方法、目标检测方法及电子设备 | |
CN112991159B (zh) | 人脸光照质量评估方法、系统、服务器与计算机可读介质 | |
CN110599514A (zh) | 图像分割的方法、装置、电子设备及存储介质 | |
CN113158773B (zh) | 一种活体检测模型的训练方法及训练装置 | |
CN117253110A (zh) | 一种基于扩散模型的目标检测模型泛化能力提升方法 | |
CN115115552B (zh) | 图像矫正模型训练及图像矫正方法、装置和计算机设备 | |
WO2024011853A1 (zh) | 人体图像质量检测方法、装置、电子设备及存储介质 | |
CN116433936A (zh) | 图像检测方法、装置、电子设备及存储介质 | |
CN115661618A (zh) | 图像质量评估模型的训练方法、图像质量评估方法及装置 | |
CN115457620A (zh) | 用户表情识别方法、装置、计算机设备及存储介质 | |
CN116543426A (zh) | 图像处理方法、装置、电子设备以及存储介质 | |
CN112101479B (zh) | 一种发型识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |