CN117011910A - 图像处理方法、装置及计算机设备、存储介质、程序产品 - Google Patents
图像处理方法、装置及计算机设备、存储介质、程序产品 Download PDFInfo
- Publication number
- CN117011910A CN117011910A CN202211520758.9A CN202211520758A CN117011910A CN 117011910 A CN117011910 A CN 117011910A CN 202211520758 A CN202211520758 A CN 202211520758A CN 117011910 A CN117011910 A CN 117011910A
- Authority
- CN
- China
- Prior art keywords
- face
- image
- eye
- feature points
- feature point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 174
- 238000003672 processing method Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 129
- 230000008569 process Effects 0.000 claims abstract description 93
- 238000000605 extraction Methods 0.000 claims description 240
- 210000000744 eyelid Anatomy 0.000 claims description 220
- 238000012549 training Methods 0.000 claims description 51
- 238000004590 computer program Methods 0.000 claims description 16
- 230000009466 transformation Effects 0.000 claims description 11
- 230000007613 environmental effect Effects 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 abstract description 32
- 238000013473 artificial intelligence Methods 0.000 abstract description 15
- 210000001508 eye Anatomy 0.000 description 440
- 210000000554 iris Anatomy 0.000 description 134
- 238000010586 diagram Methods 0.000 description 18
- 238000009499 grossing Methods 0.000 description 10
- 230000003190 augmentative effect Effects 0.000 description 9
- 210000001331 nose Anatomy 0.000 description 9
- 210000003467 cheek Anatomy 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 210000000214 mouth Anatomy 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 210000004709 eyebrow Anatomy 0.000 description 5
- 210000003128 head Anatomy 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 5
- 238000009877 rendering Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000003416 augmentation Effects 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 4
- 210000005252 bulbus oculi Anatomy 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 210000004209 hair Anatomy 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007102 metabolic function Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Geometry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Ophthalmology & Optometry (AREA)
- Image Processing (AREA)
Abstract
本申请实施例提供了一种图像处理方法、装置及计算机设备、存储介质、程序产品,可以应用于人工智能技术中的计算机视觉技术领域。该图像处理方法包括:获取待处理人脸图像;对待处理人脸图像进行人脸特征点预测,得到待处理人脸图像的人脸特征点,并基于人脸特征点对待处理人脸图像进行人脸校准处理,得到目标人脸图像;人脸校准处理用于将待处理人脸图像与标准人脸进行对齐;基于人脸特征点,在目标人脸图像中确定眼部区域图像;对眼部区域图像进行眼部特征点预测,得到眼部区域图像的眼部特征点。采用本申请实施例,可以较为准确地从人脸图像中提取眼部特征点。
Description
技术领域
本申请涉计算机技术领域,尤其涉及人工智能技术领域,具体涉及一种图像处理方法、一种图像处理装置、一种计算机设备、一种计算机可读存储介质、以及一种计算机可读程序产品。
背景技术
随着人工智能技术的快速发展,基于人工智能技术从人脸图像中提取的眼部特征点被广泛应用于游戏、社交、电影、AR(Augmented Reality,增强现实)、VR(VirtualReality,虚拟现实)、XR(Extended Reality,扩展现实)、虚拟人、以及数字人等诸多领域。目前,眼部特征点的提取方式为:使用端到端的CNN(Convolutional Neural Network,卷积神经网络)模型预测人脸图像中的全部人脸特征点(包括眼睛、眉毛、鼻子、嘴巴、脸颊等部位的特征点)的方式来提取眼部特征点;在该方式中,关注的是全部人脸特征点的整体准确性,而对于眼睛、眉毛、鼻子、嘴巴、脸颊等中任一部位的特征点,是很难保证其准确性的;特别地,对于眼睛这一部位,在半睁眼、脸部侧转角度较大等情况下,眼睛在整个人脸中的占比很小,预测的全部人脸特征点中眼部特征点的准确性非常低。可见,目前的眼部特征点提取方案难以准确地从人脸图像中提取眼部特征点。
发明内容
本申请实施例提供了一种图像处理方法、装置及计算机设备、存储介质、程序产品,可以较为准确地从人脸图像中提取眼部特征点。
一方面,本申请实施例提供了一种图像处理方法,该图像处理方法包括:
获取待处理人脸图像;
对待处理人脸图像进行人脸特征点预测,得到待处理人脸图像的人脸特征点,并基于人脸特征点对待处理人脸图像进行人脸校准处理,得到目标人脸图像;人脸校准处理用于将待处理人脸图像与标准人脸进行对齐;
基于人脸特征点,在目标人脸图像中确定眼部区域图像;
对眼部区域图像进行眼部特征点预测,得到眼部区域图像的眼部特征点。
相应地,本申请实施例提供了一种图像处理装置,该图像处理装置包括:
获取单元,用于获取待处理人脸图像;
处理单元,用于对待处理人脸图像进行人脸特征点预测,得到待处理人脸图像的人脸特征点,并基于人脸特征点对待处理人脸图像进行人脸校准处理,得到目标人脸图像;人脸校准处理用于将待处理人脸图像与标准人脸进行对齐;
处理单元,还用于基于人脸特征点,在目标人脸图像中确定眼部区域图像;
处理单元,还用于对眼部区域图像进行眼部特征点预测,得到眼部区域图像的眼部特征点。
在一种实现方式中,处理单元,用于对待处理人脸图像进行人脸特征点预测,得到待处理人脸图像的人脸特征点,并基于人脸特征点对待处理人脸图像进行人脸校准处理,得到目标人脸图像时,具体用于执行如下步骤:
对待处理人脸图像进行人脸特征点预测,得到待处理人脸图像的第一人脸特征点;
基于第一人脸特征点对待处理人脸图像进行人脸校准处理,得到参考人脸图像;
对参考人脸图像进行人脸特征点预测,得到参考人脸图像的第二人脸特征点;
基于第二人脸特征点对参考人脸图像进行人脸校准处理,得到目标人脸图像。
在一种实现方式中,处理单元,用于基于第一人脸特征点对待处理人脸图像进行人脸校准处理,得到参考人脸图像时,具体用于执行如下步骤:
获取标准人脸的标准特征点;
基于第一人脸特征点与标准特征点,将待处理人脸图像中的人脸与标准人脸对齐,得到参考人脸图像。
在一种实现方式中,处理单元,用于基于第一人脸特征点与标准特征点,将待处理人脸图像中的人脸与标准人脸进行对齐,得到参考人脸图像时,具体用于执行如下步骤:
根据第一人脸特征点与标准特征点之间的差异,计算用于对待处理人脸图像进行旋转变换的旋转信息;
按照旋转信息对待处理人脸图像进行旋转变换,得到参考人脸图像。
在一种实现方式中,眼部特征点预测由眼部特征点提取模型执行;
处理单元,用于对眼部区域图像进行眼部特征点预测,得到眼部区域图像的眼部特征点时,具体用于执行如下步骤:
获取眼部区域图像的眼部方向;
若眼部区域图像的眼部方向与眼部特征点提取模型提取的眼部方向一致,则调用眼部特征点提取模型提取眼部区域图像的眼部特征点。
在一种实现方式中,处理单元,用于对眼部区域图像进行眼部特征点预测,得到眼部区域图像的眼部特征点时,还用于执行如下步骤:
若眼部区域图像的眼部方向与眼部特征点提取模型提取的眼部方向不一致,则对眼部区域图像进行翻转处理,得到翻转眼部图像;
调用眼部特征点提取模型提取翻转眼部图像的眼部特征点;
对翻转眼部图像的眼部特征点进行翻转处理,得到眼部区域图像的眼部特征点。
在一种实现方式中,眼部特征点预测由眼部特征点提取模型执行,眼部特征点提取模型包括眼睑特征点提取子模型和虹膜特征点提取子模型;
处理单元,用于对眼部区域图像进行眼部特征点预测,得到眼部区域图像的眼部特征点时,具体用于执行如下步骤:
调用眼睑特征点提取子模型提取眼部区域图像的眼睑特征点;
调用虹膜特征点提取子模型提取眼部区域图像的虹膜特征点;
对眼部区域图像的眼睑特征点和眼部区域图像的虹膜特征点进行组合,得到眼部区域图像的眼部特征点。
在一种实现方式中,眼部特征点预测由眼部特征点提取模型执行,眼部特征点提取模型包括眼睑特征点提取子模型和虹膜特征点提取子模型;眼部特征点提取模型的训练过程包括:
获取训练样本数据,训练样本数据包括眼睑样本图像和虹膜样本图像;
调用眼睑特征点提取子模型提取眼睑样本图像的预测眼睑特征点,并基于预测眼睑特征点确定眼睑特征点提取子模型的损失信息;
调用虹膜特征点提取子模型提取虹膜样本图像的预测虹膜特征点,并基于预测虹膜特征点确定虹膜特征点提取子模型的损失信息;
对眼睑特征点提取子模型的损失信息和虹膜特征点提取子模型的损失信息进行求和处理,确定眼部特征点提取模型的损失信息;
按照减小眼部特征点提取模型的损失信息的方向,更新眼部特征点提取模型的参数,以对眼部特征点提取模型进行训练。
在一种实现方式中,处理单元,用于调用眼睑特征点提取子模型提取眼睑样本图像的预测眼睑特征点时,具体用于执行如下步骤:
对眼睑样本图像进行像素增强处理,得到第一像素增强图像和第二像素增强图像;像素增强处理用于模拟环境因素对图像内容的干扰;
调用眼睑特征点提取子模型提取第一像素增强图像的预测眼睑特征点;
调用眼睑特征点提取子模型提取第二像素增强图像的预测眼睑特征点。
在一种实现方式中,处理单元,用于基于预测眼睑特征点确定眼睑特征点提取子模型的损失信息时,具体用于执行如下步骤:
根据第一像素增强图像的预测眼睑特征点,与眼睑样本图像的标注眼睑特征点之间的差异,确定第一损失信息;
根据第一像素增强图像的预测眼睑特征点,与第二像素增强图像的预测眼睑特征点之间的差异,确定第二损失信息;
对第一损失信息和第二损失信息进行求和处理,得到眼睑特征点提取子模型的损失信息。
在一种实现方式中,处理单元,用于对眼睑样本图像进行像素增强处理,得到第一像素增强图像和第二像素增强图像时,具体用于执行如下步骤:
对眼睑样本图像进行位置增强处理,得到第一像素增强图像;
对第一像素增强图像进行颜色增强处理,得到第二像素增强图像。
在一种实现方式中,处理单元,用于对眼睑样本图像进行像素增强处理,得到第一像素增强图像和第二像素增强图像时,具体用于执行如下步骤:
对眼睑样本图像进行位置增强处理,得到参考像素增强图像;
对参考像素增强图像进行第一颜色增强处理,得到第一像素增强图像;
对参考像素增强图像进行第二颜色增强处理,得到第二像素增强图像;
其中,第二颜色增强处理的颜色增强强度高于第一颜色增强处理的颜色增强强度。
在一种实现方式中,获取单元,还用于执行如下步骤:
获取待处理人脸图像的人脸遮挡信息,人脸遮挡信息是在对待处理人脸图像进行人脸特征点预测的过程中获取到的;
处理单元,还用于执行如下步骤:
根据人脸遮挡信息,确定眼部区域图像中被遮挡的区域;
删除眼部区域图像的眼部特征点中,位于被遮挡的区域中的眼部特征点。
在一种实现方式中,获取单元,还用于执行如下步骤:
获取待处理人脸图像的人脸分类信息,人脸分类信息是在对待处理人脸图像进行人脸特征点预测的过程中获取到的;
处理单元,还用于执行如下步骤:
若根据人脸分类信息确定待处理人脸图像中的人脸为真实人脸,则触发执行基于人脸特征点对待处理人脸图像进行人脸校准处理,得到目标人脸图像的步骤。
相应地,本申请实施例提供一种计算机设备,该计算机设备包括:
处理器,适于实现计算机程序;
计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序适于由处理器加载并执行上述的图像处理方法。
相应地,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被计算机设备的处理器读取并执行时,使得计算机设备执行上述的图像处理方法。
相应地,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的图像处理方法。
本申请实施例中,在获取到待处理人脸图像后,可以预测出待处理人脸图像的人脸特征点,基于人脸特征点,可以将待处理人脸图像中的人脸与标准人脸进行对齐,得到目标人脸图像,然后,可以基于人脸特征点在目标人脸图像中确定眼部区域图像,对眼部区域图像进行眼部特征点预测,得到眼部区域图像的眼部特征点;在上述过程中,通过将待处理人脸图像中的人脸与标准人脸进行对齐,可以得到相对标准的人脸图像,基于人脸特征点,可以在相对标准的人脸图像中确定出较为准确的眼部区域图像,从而,对眼部区域图像进行眼部特征点预测,可以较为准确地从人脸图像中提取眼部特征点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的一种图像处理系统的架构示意图;
图1b是本申请实施例提供的一种眼部特征点的示意图;
图1c是本申请实施例提供的一种眼部特征点的应用场景示意图;
图2是本申请实施例提供的一种图像处理方法的流程示意图;
图3a是本申请实施例提供的一种人脸特征点的示意图;
图3b是本申请实施例提供的另一种人脸特征点的示意图;
图4是本申请实施例提供的一种人脸对齐的过程示意图;
图5是本申请实施例提供的一种人脸校准处理的过程示意图;
图6是本申请实施例提供的另一种图像处理方法的流程示意图;
图7是本申请实施例提供的一种图像处理模型的结构示意图;
图8是本申请实施例提供的一种人脸特征点提取模型的结构示意图;
图9是本申请实施例提供的一种预测人脸姿态角的示意图;
图10是本申请实施例提供的一种眼部特征点提取模型的结构示意图;
图11是本申请实施例提供的一种人脸姿态角的示意图;
图12是本申请实施例提供的一种提取眼部特征点的流程示意图;
图13是本申请实施例提供的另一种图像处理方法的流程示意图;
图14a是本申请实施例提供的一种眼部特征点提取模型的训练思想示意图;
图14b是本申请实施例提供的另一种眼部特征点提取模型的训练思想示意图;
图15是本申请实施例提供的一种眼部特征点提取模型的训练流程示意图;
图16是本申请实施例提供的一种图像处理装置的结构示意图;
图17是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提出一种图像处理方法,该图像处理方法使用模型分级的思想,具体来说,该图像处理方法提出一级稀疏特征点模型和二级稠密特征点模型;一级稀疏特征点模型可以用于提取人脸图像中的人脸特征点,提取出的人脸特征点可以用于将人脸图像中的人脸与标准人脸进行对齐,并在对齐后的人脸图像中提取出较为准确的眼部区域图像;二级稠密特征点模型可以用于提取眼部区域图像中的眼部特征点。基于模型分级的思想,二级稠密特征点模型的输入是与标准人脸对齐的、较为准确地眼部区域图像,增强了二级稠密特征点模型输入数据的一致性,从而,可以从与标准人脸对齐的、较为准确地眼部区域图像中提取的眼部特征点,提升提取的眼部特征点的准确性。
本申请实施例提供的图像处理方法可以应用于图1a所示的图像处理系统中。图像处理系统中可以包括终端101和服务器102;终端101可以包括但不限于以下任一种:智能手机、平板电脑、笔记本电脑、台式计算机、智能手表、智能家电、智能车载终端、以及虚拟现实、增强现实、扩展现实等的设备等;服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,等等。终端101和服务器102之间可以通过有线通信的方式建立直接的通信连接,或者可以通过无线通信的方式建立间接的通信连接。
本申请实施例提出的图像处理方法可以部署于服务器102中;在此方式下,终端101可以用于采集人脸图像或人脸视频,并将采集到的人脸图像或人脸视频发送至服务器102;服务器102可以用于提取人脸图像的眼部特征点,或者可以用于提取人脸视频中各个人脸视频帧的眼部特征点。或者,本申请实施例提出的图像处理方法可以部署于终端101中;在此方式下,终端101可以用于采集人脸图像或人脸视频,并可以用于提取人脸图像的眼部特征点,或者可以用于提取人脸视频中各个人脸视频帧的眼部特征点。
其中,人脸图像是指包含人脸的图像,人脸图像可以是采用拍摄设备对人脸进行拍摄得到的;拍摄设备可以包括但不限于以下任一种:单目灰度相机、单目彩色相机、双目灰度相机、以及双目彩色相机等等;当拍摄设备是单目灰度相机时,拍摄出来的人脸图像分辨率较低,本申请实施例提出的图像处理方法对于低分辨率的人脸图像,能够达到较为准确地从人脸图像中提取眼部特征点的效果;拍摄设备可以是独立的设备,或者,拍摄设备可以安装于计算机设备中。人脸特征点是指能够在图像中标识人脸的点,人脸特征点可以包括眼睛、眉毛、鼻子、嘴巴、脸颊等部位的特征点。
眼部特征点是指能够在图像中标识眼部的点,本申请实施例提及的眼部特征点可以包括眼睑特征点和虹膜特征点,眼睑特征点是指能够在图像中标识眼睑的点,虹膜特征点是指能够在图像中标识虹膜的点;图1b示出了一种示例性的眼部特征点,图1b中的灰色实心圆点为眼睑特征点,图1b中的灰色米字标识为虹膜特征点,本申请实施例不对眼睑特征点和虹膜特征点的数量进行限定,例如,图1b中的眼睑特征点的数量为36个,虹膜特征点的数量为20个,36个眼睑特征点和20个虹膜特征点共同组成了56个眼部特征点。
可以理解的是,本申请实施例描述的图像处理系统是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请实施例在提取眼部特征点的过程中涉及人工智能技术中的计算机视觉技术领域。其中:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3-dimension,三维)技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
本申请提取的眼部特征点可以应用于游戏、社交、电影、AR(Augmented Reality,增强现实)、VR(Virtual Reality,虚拟现实)、XR(Extended Reality,扩展现实)、虚拟人、以及数字人等诸多领域。其中:
增强现实是一种实时地计算摄影机影像的位置及角度并加上相应图像、视频、以及3D模型的技术,这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动,让真实的环境和虚拟的物体实时地叠加到了同一个画面或空间同时存在。虚拟现实又可以称虚拟实境或灵境技术,虚拟现实技术的基本实现方式是以计算机技术为主,利用并综合三维图形技术、多媒体技术、仿真技术、显示技术、伺服技术等,借助计算机等设备产生一个逼真的三维视觉、触觉、嗅觉等多种感官体验的虚拟世界,从而使处于虚拟世界中的人产生一种身临其境的感觉。扩展现实,是指通过计算机将真实与虚拟相结合,打造一个可人机交互的虚拟环境,这也是增强现实、虚拟现实等技术的统称。
数字人(Digital Human)是指基于CG(Computer Graphics,计算机图形)技术与人工智能技术打造出来的数字化虚拟人物,并具有多重人类特征(例如,外貌特征、人类表演能力、以及交互能力,等等)。虚拟人(Virtual Human)是指通过数字技术模拟真实的人体器官而合成的三维模型,这种模型不仅具有人体外形以及各个器官的形态,而且具备各个器官的新陈代谢机能,能够较为真实地显示出人体的正常生理状态和出现的各种变化。
游戏可以包括本地游戏或云游戏。本地游戏是指:直接在用户终端内安装的游戏客户端中运行的游戏。云游戏(Cloud Gaming)又可称为游戏点播(Ga ming on Demand),可以是指在游戏服务器中运行的游戏;也就是说,在云游戏业务场景下,所有的云游戏都不在用户终端的游戏客户端中运行,而是在游戏服务器中运行;游戏服务器将云游戏中的游戏画面、游戏音频压缩编码为媒体流,然后通过网络将媒体流传输给用户终端中的游戏客户端进行图像显示和音频播放;可见,游戏客户端无需拥有强大的图形处理与数据运算能力,仅仅需要拥有基本的流媒体播放能力,与获取用户输入的操作指令并将用户输入的操作指令发送给游戏服务器的能力即可;当用户在游戏客户端的游戏界面中执行各种操作时,游戏客户端会将这些操作产生的操作数据上报给游戏服务器,由游戏服务器在对应的云游戏中根据操作数据而刷新云游戏的游戏画面,再将刷新后的游戏画面返回至游戏客户端中进行显示,以实现云游戏的游玩。
基于上述应用领域的相关介绍,下面对提取到的眼部特征点的应用场景进行简要介绍:如图1c所示,本申请实施例提取到的眼部特征点可以应用于虚拟人物眼部渲染、人脸美颜场景、相机测距、睁闭眼判断、眼球跟随、以及注视判断等场景中。其中:
①虚拟人物眼部渲染:游戏、虚拟现实、增强现实、扩展现实、虚拟人、数字人等相关产品中往往需要对虚拟人物形象进行渲染,而对眼部区域的渲染效果好,可以使得渲染得到的虚拟人物形象更加生动;可以基于提取到的眼部特征点对虚拟人物形象的眼部区域进行渲染,渲染得到的虚拟人物形象可以应用于游戏、虚拟现实、增强现实、扩展现实、虚拟人、数字人等相关产品中。
②人脸美颜场景:可以基于提取到人脸图像的眼部特征点中的虹膜特征点,在人脸图像中较为准确地确定出虹膜区域,从而,可以在对人脸图像进行美颜处理的过程中,在人脸图像的虹膜区域较为准确地添加美瞳。
③相机测距场景:提取到的眼部特征点还可以用于进行相机测距,即可以根据提取到的眼部特征点中的虹膜特征点估算出人脸离相机的距离。
④睁闭眼判断场景:提取到的眼部特征点还可以用于进行睁闭眼判断,例如,可以根据提取到的眼部特征点中的虹膜特征点和眼睑特征点之间的相对位置,进行睁闭眼判,若眼睑特征点处于虹膜特征点的包围区域中,则可以说明处于闭眼状态或半睁眼状态;睁闭眼判断在车辆驾驶领域中能够得到较好地应用,例如,若根据提取到的驾驶员的眼部特征点确定驾驶员处于闭眼状态或半睁眼状态,则可以对驾驶员进行提醒,提升车辆驾驶安全。
⑤眼球跟随场景:提取到的眼部特征点还可以用于进行眼球跟随,具体来说,可以将虹膜特征点与终端屏幕中的界面元素进行关联,终端屏幕中的界面元素可以跟随虹膜特征点的移动进行移动,无需触摸屏幕界面即可触发界面元素产生移动,提升交互体验。
⑥注视判断场景:提取到的眼部特征点还可以用于进行注视判断,可以根据提取到的眼部特征点的确定注视方向,从而可以根据注视方向确定人物对象的注视对象。例如,可以根据提取到的眼部特征点,确定任务对象在终端屏幕上注视的内容,从而对注视的内容进行相应后续处理(例如,突出显示、提取内容,等等)。注视判断还可以在车辆驾驶领域中能够得到较好地应用,例如,可以根据提取到的驾驶员的眼部特征点,确定驾驶员在车辆中注视的对象是仪表盘、后视镜或车窗,等等,从而可以在驾驶员未集中驾驶时及时对驾驶员进行提醒,提升车辆驾驶安全。
可以理解的是,在本申请以下各实施例中,涉及到人脸图像等相关的数据,当本申请以下各实施例运用到具体产品或技术中时,需要获得相关用户对象的许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
下面结合附图对本申请实施例提供的图像处理方法进行更为详细的介绍。
本申请实施例一种图像处理方法,该图像处理方法主要介绍对人脸图像进行人脸校准处理的方式。该图像处理方法可以由计算机设备执行,计算机设备可以是终端或服务器。如图2所示,该图像处理方法可以包括但不限于以下步骤S201-步骤S204:
S201,获取待处理人脸图像。
待处理人脸图像是指待进行眼部特征点提取的包含人脸的图像,待处理人脸图像可以是采用拍摄设备对人脸进行拍摄得到的。对于拍摄设备是独立的设备的情况,拍摄设备拍摄得到待处理人脸图像后可以发送至计算机设备;对于拍摄设备安装于计算机设备的情况,计算机设备可以通过安装的拍摄设备直接获取待处理人脸图像。
S202,对待处理人脸图像进行人脸特征点预测,得到待处理人脸图像的人脸特征点,并基于人脸特征点对待处理人脸图像进行人脸校准处理,得到目标人脸图像。
在获取到待处理人脸图像之后,可以对待处理人脸图像进行人脸特征点预测,得到待处理人脸图像的人脸特征点,并基于人脸特征点对待处理人脸图像进行人脸校准处理,得到目标人脸图像;人脸校准处理可以用于将待处理人脸图像与标准人脸进行对齐,标准人脸是指五官位置标准、脸部角度标准的人脸,本申请实施例可以涉及两次人脸校准处理,其中:
第一次人脸校准处理是指:可以对待处理人脸图像进行人脸特征点预测,得到待处理人脸图像的第一人脸特征点,然后,可以基于第一人脸特征点对待处理人脸图像进行人脸校准处理,得到参考人脸图像。第一人脸特征点可以用于在待处理人脸图像中标识出人脸五官的位置,如图3a所示的第一人脸特征点采用灰色实心圆点进行表示,预测出的第一人脸特征点的数量可以为5个,用于在待处理人脸图像中标识出左眼、右眼、鼻尖、嘴角的位置,其中,左眼、右眼和鼻尖的位置分别采用1个特征点进行标识,嘴角的位置采用2个特征点进行标识。
此外,在对待处理人脸图像进行人脸特征点预测之前,还可以对待处理人脸图像进行人脸区域检测,确定出待处理人脸图像中的人脸区域,然后,可以从待处理人脸图像中裁剪出人脸区域图像,从而,可以对人脸区域图像进行人脸特征点检测。人脸区域是指人脸在图像中的位置区域,更为具体地,人脸区域可以是指脸颊和眉毛的最小外接矩形。通过这种方式,可以直接对人脸区域图像进行人脸特征点预测,而无需对图像中的人脸无关区域进行处理,这样可以使得人脸特征点的预测效率更高;并且,人脸无关区域不会对人脸区域图像的人脸特征点预测产生干扰,这样可以使得人脸特征点的预测准确率更高。
第二次人脸校准处理是指:可以对参考人脸图像进行人脸特征点预测,得到参考人脸图像的第二人脸特征点,然后,可以基于第二人脸特征点对参考人脸图像进行人脸校准处理,得到目标人脸图像。第二人脸特征点可以用于在参考人脸图像中标识出人脸各个部位的轮廓,如图3b所示的第二人脸特征点采用灰色实心圆点进行表示,预测出的第一人脸特征点的数量可以为106个,用于在参考人脸图像中标识出眼睛、眉毛、鼻子、嘴巴、脸颊等部位的轮廓。
在以上两次人脸校准处理过程中,第一次人脸校准处理可以用于将待处理人脸图像中的人脸与标准人脸进行对齐,得到参考人脸图像,第二次人脸校准处理可以用于将参考人脸图像中的人脸与标准人脸进行对齐,得到目标人脸图像。以第一次人脸校准处理为例,第一次人脸校准处理中的对齐过程可以包括:获取标准人脸的标准特征点,基于第一人脸特征点与标准特征点,将待处理人脸图像中的人脸与标准人脸对齐,得到参考人脸图像;更为具体地,可以根据第一人脸特征点与标准特征点之间的差异,计算用于对待处理人脸图像进行旋转变换的旋转信息,然后,可以按照旋转信息对待处理人脸图像进行旋转变换,得到参考人脸图像;旋转信息可以是指旋转矩阵。如图4所示,可以根据第一人脸特征点(srcPoints)与标准特征点(dstPoints)之间的差异,计算一个旋转矩阵H,然后可以对待处理人脸图像施加旋转矩阵H的旋转变换,将待处理人脸图像转正,得到参考人脸图像。
第二次人脸校准处理中的对齐过程与第一次人脸校准处理中的对齐过程类似,可以获取标准人脸的标准特征点,基于第二人脸特征点与标准特征点,将参考人脸图像中的人脸与标准人脸对齐,得到目标人脸图像,具体可以参见第一次人脸校准处理中的对齐过程。需要注意的是,第一次人脸校准处理的对齐过程中,获取到的标准特征点与第一人脸特征点对应,此处的对应可以理解为是,标准特征点与第一人脸特征点的数量对应(即数量相同,例如均为5个),且标准特征点与第一人脸特征点的标识对象对应,均是标识出人脸五官的位置;第二次人脸校准处理的对齐过程中,获取到的标准特征点与第二人脸特征点对应,此处的对应可以理解为,是标准特征点与第二人脸特征点的数量对应(即数量相同,例如均为106个),且标准特征点与第二人脸特征点的标识对象对应,均是标识出人脸各部位的轮廓。
两次人脸校准处理的过程可参见图5,人脸经常因为遮挡等因素导致部分特征点不可见,第一次人脸校准处理可能无法保证人脸对齐后得到很好的对齐效果,这样会影响到后续眼部特征点的预测效果;并且,眼部区域面积小,且经常在各种场景中受到头发等外界因素的干扰,在人脸对齐上应该做到越准确越好,因此本申请实施例提出第二次人脸校准处理,这样可以提升后续眼部特征点的预测的准确率。
S203,基于人脸特征点,在目标人脸图像中确定眼部区域图像。
在对待处理人脸图像进行人脸特征点预测,得到待处理人脸图像的人脸特征点,并基于人脸特征点对待处理人脸图像进行人脸校准处理,得到目标人脸图像之后,可以基于人脸特征点,在目标人脸图像中确定眼部区域图像,也就是说,可以在目标人脸图像中裁剪眼部区域图像。具体来说,可以基于第二人脸特征点中眼睛部位的特征点在目标人脸图像中的位置,确定目标人脸图像中的眼部区域图像,眼部区域图像可以是一个正方形区域,正方形区域的边长是第二人脸特征点中眼睛部位的特征点最小外接矩形的长边。
S204,对眼部区域图像进行眼部特征点预测,得到眼部区域图像的眼部特征点。
基于人脸特征点,在目标人脸图像中确定眼部区域图像之后,可以对眼部区域图像进行眼部特征点预测,得到眼部区域图像的眼部特征点,眼部特征点可以包括眼睑特征点和虹膜特征点,眼睑特征点和虹膜特征点可以是分别进行预测的。
本申请实施例中,通过将人脸图像与标准人脸进行两次对齐,可以得到相对标准的人脸图像,基于人脸特征点,可以在相对标准的人脸图像中确定出准确的眼部区域图像,从而,对眼部区域图像进行眼部特征点预测,可以较为准确地从人脸图像中提取眼部特征点。另外,裁剪出图像中的人脸区域图像进行人脸特征点预测,无需对图像中的人脸无关区域进行处理,可以提升人脸特征点的预测效率,并且人脸无关区域不会对人脸区域图像的人脸特征点预测产生干扰,可以提升人脸特征点的预测准确率。
本申请实施例提供一种图像处理方法,该图像处理方法主要介绍图像处理模型的模型架构、以及眼部特征点的预测方式。该图像处理方法可以由计算机设备执行,计算机设备可以是终端或服务器。如图6所示,该图像处理方法可以包括但不限于以下步骤S601-步骤S606:
S601,获取待处理人脸图像。
本申请实施例中步骤S601的执行过程与图2所示实施例中步骤S201的执行过程相同,具体执行过程可参见上述图2所示实施例中步骤S201的描述,在此不再赘述。
S602,对待处理人脸图像进行人脸特征点预测,得到待处理人脸图像的人脸特征点,并基于人脸特征点对待处理人脸图像进行人脸校准处理,得到目标人脸图像。
本申请实施例中步骤S602的执行过程与图2所示实施例中步骤S202的执行过程相同,具体执行过程可参见上述图2所示实施例中步骤S202的描述,在此不再赘述。
S603,基于人脸特征点,在目标人脸图像中确定眼部区域图像。
本申请实施例中步骤S603的执行过程与图2所示实施例中步骤S203的执行过程相同,具体执行过程可参见上述图2所示实施例中步骤S203的描述,在此不再赘述。
S604,调用眼睑特征点提取子模型提取眼部区域图像的眼睑特征点。
S605,调用虹膜特征点提取子模型提取眼部区域图像的虹膜特征点。
S606,对眼部区域图像的眼睑特征点和眼部区域图像的虹膜特征点进行组合,得到眼部区域图像的眼部特征点。
本申请实施例提供的图像处理方法具体可以是由计算机设备中部署的图像处理模型执行的,在此对图像处理模型的模型结构进行介绍:如图7所示,图像处理模型中可以包括:人脸检测器、人脸对齐模型、人脸特征点提取模型(即前文所提及的一级稀疏特征点模型)、眼部特征点提取模型(即前文所提及的二级稠密特征点模型)、以及平滑模型。其中:
(1)人脸检测器:人脸检测器可以用于预测图像中的人脸区域,并从图像中裁剪出人脸区域图像,人脸检测器还可以用于预测人脸区域图像中的第一人脸特征点。人脸检测器的实现方式很多,本申请实施例不对人脸检测器的实现方式进行限定,例如,人脸检测器可以是基于SSD(Single Shot MultiBox Detector,一种目标检测算法)结构设计的。
(2)人脸对齐模型:人脸对齐模型可以用于基于人脸特征点将图像中的人脸与标准人脸进行对齐。
(3)人脸特征点提取模型:人脸特征点提取模型可以用于提取第二人脸特征点。人脸特征点提取模型是一个multitask模型(多任务模型),人脸特征点提取模型的结构如图8所示,可以包括骨干网络(backbone)、分类网络(classification head)、标志网络(landmark head)、可见网络(visibility head)、以及姿态网络(pose head)。
其中,骨干网络中可以包括多个结构相同的网络块(block),每个网络块可以是神经网络结构,例如可以是CNN结构,骨干网络可以用于对图像进行特征学习;骨干网络在对人脸检测器裁剪得到的人脸区域图像进行特征学习的过程中,可以将人脸区域图像调整为后续分类网络、标志网络、可见网络、以及姿态网络所需的图像尺寸。
分类网络、标志网络、可见网络、以及姿态网络各自执行一个预测任务,也就是说,人脸特征点提取模型可以支持执行四个预测任务。分类网络可以用于执行真实人脸预测任务,即可以用于预测图像中的人脸是否为真实人脸;分类网络的输入为骨干网络的输出,分类网络的输出可以为人脸分类信息,分类网络的输出维度可以是1×1。标志网络可以用于执行坐标预测任务,即可以用于预测各个第二人脸特征点的二维坐标(2D坐标);标志网络的输入为骨干网络的输出,标志网络的输出可以为各个第二人脸特征点的二维坐标,若第二人脸特征点的数量外为106个,则标志网络的输出维度可以是1×212。可见网络可以用于执行遮挡预测任务,即可以用于预测各个第二人脸特征点是否被遮挡;可见网络的输入为骨干网络的输出,可见网络输出的可以是每一个第二人脸特征点被遮挡的概率,若任一个第二人脸特征点被遮挡,则该特征点的概率会接近于0,若第二人脸特征点到数量为106个,则可见网络的输出维度是可以是1×106。姿态网络可以用于执行姿态预测任务,即可以用于预测图像中的人脸的姿态角(或者可以称为人脸朝向欧拉角),例如,图9所示的人脸姿态角可以包括旋转角(roll)、俯仰角(pitch)、以及偏航角(yaw)等等;姿态网络的输入为骨干网络的输出,当姿态角包括旋转角、俯仰角和偏航角时,姿态网络的输出维度可以是1×3。需要说明的是,上述分类网络、标志网络、可见网络、以及姿态网络可以是神经网络结构,例如可以是CNN结构。
(4)眼部特征点提取模型:眼部特征点提取模型可以用于提取眼部特征点。眼部特征点提取模型是一个multitask模型(多任务模型),眼部特征点提取模型的结构如图10所示,可以包括骨干网络(backbone)、眼睑特征点提取子模型(eye head)、以及虹膜特征点提取子模型(iris head)。
其中,眼部特征点提取网络中的骨干网络与人脸特征点提取模型中的骨干网络类似,骨干网络中可以包括多个结构相同的网络块(block),每个网络块可以是神经网络结构,例如可以是CNN结构,骨干网络可以用于对图像进行特征学习;骨干网络在对眼部区域图像进行特征学习的过程中,将眼部区域图像调整为后续眼睑特征点提取子模型、以及虹膜特征点提取子模型所需的图像尺寸。
眼睑特征点提取子模型和虹膜特征点提取子模型各自执行一个预测任务,也就是说,眼部特征点提取模型可以支持执行两个预测任务。眼睑特征点提取子模型可以用于执行眼睑特征点预测任务,即可以用于提取眼部区域图像的眼睑特征点,眼睑特征点提取子模型的输入为骨干网络的输出,眼睑特征点提取子模型的输出是各个眼睑特征点的二维坐标,例如,若眼睑特征点的数量为36个,则眼睑特征点提取子模型的输出维度可以是1×72。虹膜特征点提取子模型可以用于执行虹膜特征点预测任务,即可以用于提取眼部区域图像的虹膜特征点,虹膜特征点提取子模型的输入为骨干网络的输出,虹膜特征点提取子模型的输出是各个虹膜特征点的二维坐标,例如,若虹膜特征点的数量为20个,则虹膜特征点提取子模型的输出维度可以是1×40。需要说明的是,上述眼睑特征点提取子模型和虹膜特征点提取子模型可以是神经网络结构,例如可以是CNN结构;眼睑特征点提取子模型提取眼睑特征点的具体方式可以为,在椭圆上标注多个初始的眼睑特征点,然后,可以通过插值的方式确定生成其余的眼睑特征点,插值例如可以是均匀插值;类似地,虹膜特征点提取子模型提取虹膜特征点的具体方式可以为,在椭圆上标注多个初始的虹膜特征点,然后,可以通过插值的方式确定生成其余的虹膜特征点,插值例如可以是均匀插值。
(5)平滑模型:平滑模型可以用于进行对各个图像处理模型包含的部分或全部模型的输出结果进行平滑处理,例如,平滑模型可以用于对预测的人脸区域、眼部区域进行框平滑处理,或者,可以用于对预测得到的特征点(例如,人脸特征点、眼部特征点)进行点平滑处理。通过平滑处理,可以降低因为环境光照和脸部运动导致的抖动,提高预测准确率。
在步骤S604-步骤S606中,眼睑特征点和虹膜特征点可以是分别进行提取的,可以调用眼部特征点提取模型中的眼睑特征点提取子模型,提取眼部区域图像的眼睑特征点,以及可以调用眼部特征点提取模型中的虹膜特征点提取子模型,提取眼部区域图像的虹膜特征点,然后,可以对眼部区域图像的眼睑特征点和眼部区域图像的虹膜特征点进行组合,得到眼部区域图像的眼部特征点。
需要注意的是,一般来说,左眼和右眼具有对称相似性,对称相似性是指包含左眼的图像经过水平翻转后可以变成包含右眼的图像,包含右眼的图像经过水平翻转后可以变成包含左眼的图像;基于此,本申请实施例提供的眼部特征点提取模型可以设计为提取某一个眼部方向的眼部特征点,另一个眼部方向的眼部特征点可以在水平翻转后提取,提取后对眼部特征点进行水平翻转后可以回到原来的眼部方向。
具体来说,可以获取眼部区域图像的眼部方向;若眼部区域图像的眼部方向与眼部特征点提取模型提取的眼部方向一致,则可以调用眼部特征点提取模型提取眼部区域图像的眼部特征点。若眼部区域图像的眼部方向与眼部特征点提取模型提取的眼部方向不一致,则可以对眼部区域图像进行翻转处理,得到翻转眼部图像,然后可以调用眼部特征点提取模型提取翻转眼部图像的眼部特征点,以及可以对翻转眼部图像的眼部特征点进行翻转处理,得到眼部区域图像的眼部特征点;翻转处理具体可以是指水平翻转。
例如,眼部特征点提取模型用于提取左眼的眼部特征点,若眼部区域图像中包含左眼,则可以直接调用眼部特征点提取模型提取眼部区域图像的眼部特征点;若眼部区域图像中包含右眼,则可以对眼部区域图像进行水平翻转,调用眼部特征点提取模型提取翻转后图像的眼部特征点,提取的结果再次水平翻转,就得到了右眼的眼部特征点。其中,调用眼部特征点提取模型提取眼部区域图像(或翻转眼部图像)的眼部特征点的过程,具体可参见上述步骤S604-步骤S606的描述。
另外,由前述内容可知,人脸特征点提取模型中的分类网络可以用于预测图像中的人脸是否为真实人脸,下面对分类网络的预测结果的用途进行介绍:分类网络的预测结果可以称为待处理人脸图像的人脸分类信息,即人脸分类信息可以用于指示待处理人脸图像中包含的人脸是否为真实人脸;若根据人脸分类信息确定待处理人脸图像中的人脸为真实人脸,则可以执行后续流程(包括第二次人脸校准处理、眼部区域图像确定,眼部特征点提取);若根据人脸分类信息确定待处理人脸图像中的人脸不是真实人脸,例如,卡通人脸,不完整的人脸(例如不包含眼睛的人脸)等均可以认为不是真实人脸,则可以放弃处理当前待处理人脸图像,获取新的人脸图像进行图像处理。通过这种方式,可以及时过滤非真实人脸图像,避免对非真实人脸图像进行图像处理浪费图像处理资源。
人脸特征点提取模型中的可见网络可以用于预测各个第二人脸特征点被遮挡的概率,姿态网络可以用于预测图像中的人脸的姿态角,下面对可见网络和姿态网络的预测结果的作用进行介绍:可见网络和姿态网络的预测结果可以称为待处理人脸图像的人脸遮挡信息,可以根据人脸遮挡信息,确定眼部区域图像中被遮挡的区域;例如,可以根据各个第二人脸特征点被遮挡的概率,确定各个第二人脸特征点是否被遮挡,然后,可以根据第二人脸特征点中被遮挡的眼睛部位的特征点在眼部区域图像中的位置,确定眼部图像区域中被遮挡的区域;又如,可以根据人脸图像中人脸的姿态角,确定眼部图像区域中被遮挡的区域。从而,可以删除眼部区域图像的眼部特征点中,位于被遮挡的区域中的眼部特征点。如图11所示,人脸图像中的一只眼睛被遮挡,则提取出的该眼睛的眼部特征点是错误的,需要删除。通过这种方式,可以去除预测错误的眼部特征点,可以提升眼部特征点的预测准确率。
基于以上图2和图6所示实施例所描述的内容,下面结合图像处理模型的模型结构,对图像处理流程进行总结,如图12所示:①调用人脸检测器在待处理人脸图像中确定人脸区域图像,并预测出人脸区域图像中的第一人脸特征点。②调用人脸对齐模型基于第一人脸特征点将人脸区域图像中的人脸与标准人脸进行对齐,得到参考人脸图像。③调用人脸特征点提取模型预测出参考人脸图像中的第二人脸特征点,人脸分类信息,以及人脸遮挡信息。④若根据人脸分类信息确定待处理人脸图像中的人脸为真实人脸,则可以调用人脸对齐模型基于第二人脸特征点将参考人脸图像中的人脸与标准人脸进行对齐,得到目标人脸图像,并确定目标人脸图像中的眼部区域图像。⑤调用眼部特征点提取模型提取眼部区域图像的眼部特征点,并根据人脸遮挡信息去除被遮挡的眼部特征点。⑥调用平滑模型在以上①-⑤中对预测得到的区域、以及预测得到的特征点进行平滑处理(可以包括对区域的框平滑处理,对特征点的点平滑处理)。
本申请实施例中,由于脸颊和鼻子的特征点分布比较稀疏,且因为脸颊和鼻子比较刚性,所以预测起来相对比较容易;眼睑和虹膜的自由度比较高,由于眼部的不同程度的睁闭状态,眼睑特征点相对位置移动空间比较广;随着人眼神的移动,虹膜的在眼部的位置也是自由移动,且虹膜经常会被头发或者阴影等遮挡,这些因素都会导致虹膜特征点预测不准确;因此,把脸颊、鼻子和眼部的特征点放在一个模型里进行学习,容易形成眼部的特征点学习不充分的问题,从而导致眼部特征点预测不准确。基于此,本申请实施例提出模型分级的思想,把眼部特征点任务放进一个更加轻量的二级稠密特征点模型里进行学习,可以提升眼部特征点的预测准确性。
本申请实施例提供一种图像处理方法,该图像处理方法主要介绍眼部特征点提取模型的训练过程。该图像处理方法可以由计算机设备执行,计算机设备可以是终端或服务器。如图13所示,该图像处理方法可以包括但不限于以下步骤S1301-步骤S1305:
S1301,获取训练样本数据,训练样本数据包括眼睑样本图像和虹膜样本图像。
在对模型训练过程进行介绍之前,在此先对本申请实施例的模型训练思想进行介绍:
首先,人脸特征点和眼部特征点在训练时的特征尺度差异较大,一起训练难以保证眼部特征点的预测任务充分拟合训练数据;因此,本申请在模型训练阶段采用模型分级的思想,用于预测人脸特征点的模型(例如,前文所提及的人脸检测器与人脸特征点提取模型),与用于预测眼部特征点的模型(例如,前文所提及的眼部特征点提取模型)分别进行训练。人脸检测器与人脸特征点提取模型的训练过程类似;例如,人脸检测器的训练过程大致可以参见如下描述:调用人脸检测器预测样本人脸图像中的人脸图像区域以及人脸特征点,基于预测的人脸图像区域与标注的人脸图像区域之间的差异,以及基于预测的人脸特征点与标注的人脸特征点之间的差异,确定损失信息来训练人脸检测器;又如,人脸特征点提取模型的训练过程大致可以参见如下描述:调用人脸特征点提取模型预测样本人脸图像中的人脸特征点,基于预测的人脸特征点与标注的人脸特征点之间的差异,确定损失信息来训练人脸特征点提取模型。本申请实施例重点介绍眼部特征点提取模型的训练过程,具体可参见本申请实施例中步骤S1301-步骤S1305的相关内容。
其次,虹膜特征点和眼睑特征点之间的关联性比较差,在样本数据采集的时候,同一张人脸图像中难以保证对虹膜和眼睑采集到满意的数据,最终训练出来的模型也很难让虹膜和眼睑的特征点的预测达到准确。如图14a所示的模型训练示意图,DataLoader(数据加载器)是训练模型时存放训练样本数据的队列,每一个单元格都存放一张样本图像和标注的眼部特征点(包括眼睑特征点和虹膜特征点)的坐标数据;然后,每一次模型迭代的过程中都会计算出一个损失信息,该损失信息可以是预测的眼部特征点与标注的眼部特征点之间的距离差异;通过优化该损失信息,使得眼部特征点提取模型可以逐渐学习提取眼部特征点;但是,图14a所示的模型训练方式存在如下两个问题:第一,对于数据采集者来说,想要针对性地采集眼睑数据和虹膜数据,并保证两部分的数据都具有较好的效果是很困难的,第二,对于模型来说,想要同时学习好眼睑和虹膜的特征是很困难的。
基于此,本申请实施例在模型训练过程中解耦了眼睑和虹膜的数据采集过程,眼睑数据和虹膜数据不必要求是同一张图,这样可以大幅度降低采集的难度的同时也大幅度提升的训练针对性,进一步可以提升模型的质量。如图14b所示的模型训练示意图,DataLoader(数据加载器)中存放有等量的眼睑数据和虹膜数据,眼睑数据的单元格中存放有眼睑样本图像和标注的眼睑特征点,虹膜数据的单元格中存放有虹膜样本图像和标注的虹膜特征点;然后,每次取到的batch(一个批次的训练样本数据)可以基本保证眼睑数据和虹膜数据的比例保持1:1,也就是说,眼睑数据和虹膜数据的数据浓度是均衡的,这样可以保证模型学习的时候不产生偏向性,其次两部分数据是分开计算loss的。更为详细的眼部特征点提取模型的训练过程,具体可参见本申请实施例中步骤S1301-步骤S1305的相关内容。
在步骤S1301中,获取到的训练样本数据可以是指一个批次的训练样本数据,训练样本数据中可以包括眼睑样本图像和虹膜样本图像,眼睑样本图像的数量可以为一张或多张,虹膜样本图像的数量可以为一张或多张;训练样本数据中的眼睑样本图像和虹膜样本图像的数量比例是均衡的,例如,训练样本数据中的眼睑样本图像和虹膜样本图像的数量比例是1:1,训练样本数据中包括2张眼睑样本图像和2张虹膜样本图像。
S1302,调用眼睑特征点提取子模型提取眼睑样本图像的预测眼睑特征点,并基于预测眼睑特征点确定眼睑特征点提取子模型的损失信息。
S1303,调用虹膜特征点提取子模型提取虹膜样本图像的预测虹膜特征点,并基于预测虹膜特征点确定虹膜特征点提取子模型的损失信息。
由前文所提及的内容可知,眼部特征点提取模型可以包括眼睑特征点提取子模型和虹膜特征点提取子模型;在步骤S1301-步骤S1303中,在获取到训练样本数据后,可以调用眼睑特征点提取子模型提取眼睑样本图像的预测眼睑特征点,并基于预测眼睑特征点确定眼睑特征点提取子模型的损失信息;以及可以调用虹膜特征点提取子模型提取虹膜样本图像的预测虹膜特征点,并基于预测虹膜特征点确定虹膜特征点提取子模型的损失信息。
如图15所示,本申请实施例中眼部特征点提取模型的训练过程与大多数特征点提取模型的训练过程不同,不同的地方在于,本申请实施例中,眼部特征点提取模型每进行一次模型迭代,可以进行两次前向推理(两次forward),两次前向推理分别是easy forward(容易前向推理)和hard forward(困难前向推理)。
设置两次前向推理是为了优化眼部特征点提取模型输出的特征点出现抖动。具体来说:特征点的抖动优化是所有特征点模型最难以解决的问题,模型输出都会有抖动的倾向性,导致抖动的一个重要原因是环境因素的变动,比如亮度、噪声等;理想的情况下,如果眼球位置不发生变化,不管环境因素发生什么变化,模型的输出结果是不会发生变化的;但是实际情况下,模型的输出都会发生抖动。在本申请实施例中,可以通过从像素角度对训练样本数据(包括眼睑样本图像和虹膜样本图像)进行不同程度的像素增强处理,得到不同程度的像素增强数据,像素增强程度高的像素增强数据可以用于进行hard forward(困难前向推理),像素增强程度低的像素增强数据可以用于进行easy forward(容易前向推理);像素增强处理可以用于模拟环境因素对图像内容产生的干扰,从而达到优化眼部特征点提取模型输出的特征点出现抖动的情况。
其中,像素增强处理可以包括位置增强处理(space augmentation)和颜色增强处理(color augmentation);位置增强处理可以用于模拟环境因素对图像内容产生的位置干扰,位置干扰可能导致模型输出的眼部特征点产生位置的抖动,位置增强处理可以包括但不限于以下至少一种:对图像进行平移、旋转、扭曲、以及遮挡,等等;颜色增强处理可以用于模拟环境因素对图像内容产生的颜色干扰,颜色干扰可能导致模型输出的眼部特征点产生位置的抖动,颜色增强处理可以包括但不限于以下至少一种:改变图像中某些像素点的亮度,增加图像的模糊度,在图像中添加噪声,等等。
结合图15所示的训练流程示意图,眼睑样本图像的处理流程可以参见如下描述:可以对眼睑样本图像进行像素增强处理,得到第一像素增强图像(input_1)和第二像素增强图像(input_2),第一像素增强图像(input_1)可以用于进行容易前向推理,第二像素增强图像(input_2)可以用于进行困难前向推理;然后,可以调用眼睑特征点提取子模型(eyehead)提取第一像素增强图像的预测眼睑特征点(eye_output_easy),调用眼睑特征点提取子模型(eye head)提取第二像素增强图像的预测眼睑特征点(eye_output_hard)。
在此情况下,可以根据第一像素增强图像的预测眼睑特征点(eye_output_easy),与眼睑样本图像的标注眼睑特征点(eye_target)之间的差异,确定第一损失信息(SmoothL1Loss_0);以及,可以根据第一像素增强图像的预测眼睑特征点(eye_output_easy),与第二像素增强图像的预测眼睑特征点(eye_output_hard)之间的差异,确定第二损失信息(MSELoss_0);然后,可以对第一损失信息和第二损失信息进行求和处理,得到眼睑特征点提取子模型的损失信息(eye_loss)。
其中,对眼睑样本图像进行像素增强处理的方式可以包括以下任一种:第一种方式如图15所示,可以对眼睑样本图像进行位置增强处理,得到参考像素增强图像;然后,可以对参考像素增强图像进行第一颜色增强处理(easy color augmentation),得到第一像素增强图像,以及可以对参考像素增强图像进行第二颜色增强处理(hard coloraugmentation),得到第二像素增强图像;其中,第二颜色增强处理的颜色增强强度高于第一颜色增强处理的颜色增强强度。第二种方式,可以对眼睑样本图像进行位置增强处理,得到第一像素增强图像,以及,可以在第一像素增强图像的基础上,对第一像素增强图像进行颜色增强处理,得到第二像素增强图像。
虹膜样本图像与眼睑样本图像的处理流程类似,虹膜样本图像的处理流程可以参见如下描述:可以对虹膜样本图像进行像素增强处理,得到第一像素增强图像(input_1)和第二像素增强图像(input_2),第一像素增强图像(input_1)可以用于进行容易前向推理,第二像素增强图像(input_2)可以用于进行困难前向推理;然后,可以调用虹膜特征点提取子模型(iris head)提取第一像素增强图像的预测虹膜特征点(iris_output_easy),调用虹膜特征点提取子模型(iris head)提取第二像素增强图像的预测虹膜特征点(iris_output_hard)。
在此情况下,可以根据第一像素增强图像的预测虹膜特征点(iris_output_easy),与虹膜样本图像的标注眼睑特征点(iris_target)之间的差异,确定第一损失信息(SmoothL1Loss_1);以及,可以根据第一像素增强图像的预测虹膜特征点(iris_output_easy),与第二像素增强图像的预测虹膜特征点(iris_output_har d)之间的差异,确定第二损失信息(MSELoss_1);然后,可以对第一损失信息和第二损失信息进行求和处理,得到虹膜特征点提取子模型的损失信息(iris_loss)。
S1304,对眼睑特征点提取子模型的损失信息和虹膜特征点提取子模型的损失信息进行求和,确定眼部特征点提取模型的损失信息。
在确定眼睑特征点提取子模型的损失信息(eye_loss)和虹膜特征点提取子模型的损失信息(iris_loss)之后,可以对眼睑特征点提取子模型的损失信息(eye_loss)和虹膜特征点提取子模型的损失信息(iris_loss)进行求和处理,确定眼部特征点提取模型的损失信息(Surpervised Loss)。更为详细地,当训练样本数据中包括多张眼睑样本图像和多张虹膜样本图像时,每张眼睑样本图像分别对应各自的损失信息,每张虹膜样本图像分别对应各自的损失信息,可以对各张眼睑样本图像对应的损失信息与各张虹膜样本图像对应的损失信息进行求和处理,确定眼部特征点提取模型的损失信息。
S1305,按照减小眼部特征点提取模型的损失信息的方向,对眼部特征点提取模型的参数进行更新,以对眼部特征点提取模型进行训练。
在确定眼部特征点提取模型的损失信息后,可以按照减小眼部特征点提取模型的损失信息的方向,对眼部特征点提取模型的参数进行更新,以对眼部特征点提取模型进行训练。
具体来说,按照减小眼部特征点提取模型的损失信息的方向,对眼部特征点提取模型的参数进行更新,具体可以是指:以最小化损失信息为目标的模型优化方向;通过此方向进行模型优化,使得眼部特征点提取模型在优化后所产生的损失信息,需小于眼部特征点提取模型在优化前所产生的损失信息。例如,本次计算得到的眼部特征点提取模型的损失信息为0.85,那么通过按照减小损失信息的方向优化眼部特征点提取模型后,通过优化后的眼部特征点提取模型所产生的损失信息应小于0.85。
本申请实施例中,在对眼部特征提取模型进行训练的过程中,解耦了眼睑数据和虹膜数据的采集过程,降低了样本数据的采集难度,采集的样本数据更具针对性。并且,眼睑特征点提取子模型和虹膜特征点提取子模型分别学习眼睑特征和虹膜特征,特征学习过程更具针对性,这样可以提升眼部特征点提取模型的鲁棒性。此外,对样本图像进行像素增强处理,可以模拟环境因素对图像内容产生的干扰,从而达到优化眼部特征点提取模型输出的特征点出现抖动的情况,进一步提升眼部特征点提取模型的鲁棒性。
上述详细阐述了本申请实施例的方法,为了便于更好地实施本申请实施例的上述方案,相应地,下面提供了本申请实施例的装置。
请参见图16,图16是本申请实施例提供的一种图像处理装置的结构示意图,该图像处理装置可以设置于本申请实施例提供的计算机设备中,计算机设备可以是终端或服务器。图16所示的图像处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),该图像处理装置可以用于执行图2、图6或图13所示的方法实施例中的部分或全部步骤。请参见图16,该图像处理装置可以包括如下单元:
获取单元1601,用于获取待处理人脸图像;
处理单元1602,用于对待处理人脸图像进行人脸特征点预测,得到待处理人脸图像的人脸特征点,并基于人脸特征点对待处理人脸图像进行人脸校准处理,得到目标人脸图像;人脸校准处理用于将待处理人脸图像与标准人脸进行对齐;
处理单元1602,还用于基于人脸特征点,在目标人脸图像中确定眼部区域图像;
处理单元1602,还用于对眼部区域图像进行眼部特征点预测,得到眼部区域图像的眼部特征点。
在一种实现方式中,处理单元1602,用于对待处理人脸图像进行人脸特征点预测,得到待处理人脸图像的人脸特征点,并基于人脸特征点对待处理人脸图像进行人脸校准处理,得到目标人脸图像时,具体用于执行如下步骤:
对待处理人脸图像进行人脸特征点预测,得到待处理人脸图像的第一人脸特征点;
基于第一人脸特征点对待处理人脸图像进行人脸校准处理,得到参考人脸图像;
对参考人脸图像进行人脸特征点预测,得到参考人脸图像的第二人脸特征点;
基于第二人脸特征点对参考人脸图像进行人脸校准处理,得到目标人脸图像。
在一种实现方式中,处理单元1602,用于基于第一人脸特征点对待处理人脸图像进行人脸校准处理,得到参考人脸图像时,具体用于执行如下步骤:
获取标准人脸的标准特征点;
基于第一人脸特征点与标准特征点,将待处理人脸图像中的人脸与标准人脸对齐,得到参考人脸图像。
在一种实现方式中,处理单元1602,用于基于第一人脸特征点与标准特征点,将待处理人脸图像中的人脸与标准人脸进行对齐,得到参考人脸图像时,具体用于执行如下步骤:
根据第一人脸特征点与标准特征点之间的差异,计算用于对待处理人脸图像进行旋转变换的旋转信息;
按照旋转信息对待处理人脸图像进行旋转变换,得到参考人脸图像。
在一种实现方式中,眼部特征点预测由眼部特征点提取模型执行;
处理单元1602,用于对眼部区域图像进行眼部特征点预测,得到眼部区域图像的眼部特征点时,具体用于执行如下步骤:
获取眼部区域图像的眼部方向;
若眼部区域图像的眼部方向与眼部特征点提取模型提取的眼部方向一致,则调用眼部特征点提取模型提取眼部区域图像的眼部特征点。
在一种实现方式中,处理单元1602,用于对眼部区域图像进行眼部特征点预测,得到眼部区域图像的眼部特征点时,还用于执行如下步骤:
若眼部区域图像的眼部方向与眼部特征点提取模型提取的眼部方向不一致,则对眼部区域图像进行翻转处理,得到翻转眼部图像;
调用眼部特征点提取模型提取翻转眼部图像的眼部特征点;
对翻转眼部图像的眼部特征点进行翻转处理,得到眼部区域图像的眼部特征点。
在一种实现方式中,眼部特征点预测由眼部特征点提取模型执行,眼部特征点提取模型包括眼睑特征点提取子模型和虹膜特征点提取子模型;
处理单元1602,用于对眼部区域图像进行眼部特征点预测,得到眼部区域图像的眼部特征点时,具体用于执行如下步骤:
调用眼睑特征点提取子模型提取眼部区域图像的眼睑特征点;
调用虹膜特征点提取子模型提取眼部区域图像的虹膜特征点;
对眼部区域图像的眼睑特征点和眼部区域图像的虹膜特征点进行组合,得到眼部区域图像的眼部特征点。
在一种实现方式中,眼部特征点预测由眼部特征点提取模型执行,眼部特征点提取模型包括眼睑特征点提取子模型和虹膜特征点提取子模型;眼部特征点提取模型的训练过程包括:
获取训练样本数据,训练样本数据包括眼睑样本图像和虹膜样本图像;
调用眼睑特征点提取子模型提取眼睑样本图像的预测眼睑特征点,并基于预测眼睑特征点确定眼睑特征点提取子模型的损失信息;
调用虹膜特征点提取子模型提取虹膜样本图像的预测虹膜特征点,并基于预测虹膜特征点确定虹膜特征点提取子模型的损失信息;
对眼睑特征点提取子模型的损失信息和虹膜特征点提取子模型的损失信息进行求和处理,确定眼部特征点提取模型的损失信息;
按照减小眼部特征点提取模型的损失信息的方向,更新眼部特征点提取模型的参数,以对眼部特征点提取模型进行训练。
在一种实现方式中,处理单元1602,用于调用眼睑特征点提取子模型提取眼睑样本图像的预测眼睑特征点时,具体用于执行如下步骤:
对眼睑样本图像进行像素增强处理,得到第一像素增强图像和第二像素增强图像;像素增强处理用于模拟环境因素对图像内容的干扰;
调用眼睑特征点提取子模型提取第一像素增强图像的预测眼睑特征点;
调用眼睑特征点提取子模型提取第二像素增强图像的预测眼睑特征点。
在一种实现方式中,处理单元1602,用于基于预测眼睑特征点确定眼睑特征点提取子模型的损失信息时,具体用于执行如下步骤:
根据第一像素增强图像的预测眼睑特征点,与眼睑样本图像的标注眼睑特征点之间的差异,确定第一损失信息;
根据第一像素增强图像的预测眼睑特征点,与第二像素增强图像的预测眼睑特征点之间的差异,确定第二损失信息;
对第一损失信息和第二损失信息进行求和处理,得到眼睑特征点提取子模型的损失信息。
在一种实现方式中,处理单元1602,用于对眼睑样本图像进行像素增强处理,得到第一像素增强图像和第二像素增强图像时,具体用于执行如下步骤:
对眼睑样本图像进行位置增强处理,得到第一像素增强图像;
对第一像素增强图像进行颜色增强处理,得到第二像素增强图像。
在一种实现方式中,处理单元1602,用于对眼睑样本图像进行像素增强处理,得到第一像素增强图像和第二像素增强图像时,具体用于执行如下步骤:
对眼睑样本图像进行位置增强处理,得到参考像素增强图像;
对参考像素增强图像进行第一颜色增强处理,得到第一像素增强图像;
对参考像素增强图像进行第二颜色增强处理,得到第二像素增强图像;
其中,第二颜色增强处理的颜色增强强度高于第一颜色增强处理的颜色增强强度。
在一种实现方式中,获取单元1601,还用于执行如下步骤:
获取待处理人脸图像的人脸遮挡信息,人脸遮挡信息是在对待处理人脸图像进行人脸特征点预测的过程中获取到的;
处理单元1602,还用于执行如下步骤:
根据人脸遮挡信息,确定眼部区域图像中被遮挡的区域;
删除眼部区域图像的眼部特征点中,位于被遮挡的区域中的眼部特征点。
在一种实现方式中,获取单元1601,还用于执行如下步骤:
获取待处理人脸图像的人脸分类信息,人脸分类信息是在对待处理人脸图像进行人脸特征点预测的过程中获取到的;
处理单元1602,还用于执行如下步骤:
若根据人脸分类信息确定待处理人脸图像中的人脸为真实人脸,则触发执行基于人脸特征点对待处理人脸图像进行人脸校准处理,得到目标人脸图像的步骤。
根据本申请的一个实施例,图2、图6或图13所示的方法所涉及的方法步骤可以是由图16所示的图像处理装置中的各个单元来执行的。例如,图2中所示的步骤S201可以由图16中所示的获取单元1601执行,图2中所示的步骤S202-步骤S204可以由图16中所示的处理单元1602执行。又如,图6中所示的步骤S601可以由图16中所示的获取单元1601执行,图6中所示的步骤S602-步骤S606可以由图16中所示的处理单元1602执行。再如,图13中所示的步骤S1301可以由图16中所示的获取单元1601执行,图13中所示的步骤S1302-S1305可以由图16中所示的处理单元1602执行。
根据本申请的另一个实施例,图16所示的图像处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,图像处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2、图6或图13所示的部分或全部方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图16中所示的图像处理装置,以及来实现本申请实施例的图像处理方法。计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于上述计算设备中,并在其中运行。
本申请实施例中,在获取到待处理人脸图像后,可以预测出待处理人脸图像的人脸特征点,基于人脸特征点,可以将待处理人脸图像中的人脸与标准人脸进行对齐,得到目标人脸图像,然后,可以基于人脸特征点在目标人脸图像中确定眼部区域图像,对眼部区域图像进行眼部特征点预测,得到眼部区域图像的眼部特征点;在上述过程中,通过将待处理人脸图像中的人脸与标准人脸进行对齐,可以得到相对标准的人脸图像,基于人脸特征点,可以在相对标准的人脸图像中确定出较为准确的眼部区域图像,从而,对眼部区域图像进行眼部特征点预测,可以较为准确地从人脸图像中提取眼部特征点。
基于上述方法以及装置实施例,本申请实施例提供了一种计算机设备,该计算机设备可以终端或服务器。请参见图17,图17是本申请实施例提供的一种计算机设备的结构示意图。图17所示的计算机设备至少包括处理器1701、输入接口1702、输出接口1703以及计算机可读存储介质1704。其中,处理器1701、输入接口1702、输出接口1703以及计算机可读存储介质1704可通过总线或其他方式连接。
计算机可读存储介质1704可以存储在计算机设备的存储器中,计算机可读存储介质1704用于存储计算机程序,计算机程序包括计算机指令,处理器1701用于执行计算机可读存储介质1704存储的程序指令。处理器1701(或称CPU(Central Processing Unit,中央处理器))是计算机设备的计算核心以及控制核心,其适于实现一条或多条计算机指令,具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。
本申请实施例还提供了一种计算机可读存储介质(Memory),计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了计算机设备的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或多条的计算机指令,这些计算机指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(Non-VolatileMemory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机可读存储介质。
在一些实施例中,可由处理器1701加载并执行计算机可读存储介质1704中存放的一条或多条计算机指令,以实现上述有关图2、图6或图13所示的图像处理方法的相应步骤。具体实现中,计算机可读存储介质1704中的计算机指令由处理器1701加载并执行如下步骤:
获取待处理人脸图像;
对待处理人脸图像进行人脸特征点预测,得到待处理人脸图像的人脸特征点,并基于人脸特征点对待处理人脸图像进行人脸校准处理,得到目标人脸图像;人脸校准处理用于将待处理人脸图像与标准人脸进行对齐;
基于人脸特征点,在目标人脸图像中确定眼部区域图像;
对眼部区域图像进行眼部特征点预测,得到眼部区域图像的眼部特征点。
在一种实现方式中,计算机可读存储介质1704中的计算机指令由处理器1701加载并执行对待处理人脸图像进行人脸特征点预测,得到待处理人脸图像的人脸特征点,并基于人脸特征点对待处理人脸图像进行人脸校准处理,得到目标人脸图像时,具体用于执行如下步骤:
对待处理人脸图像进行人脸特征点预测,得到待处理人脸图像的第一人脸特征点;
基于第一人脸特征点对待处理人脸图像进行人脸校准处理,得到参考人脸图像;
对参考人脸图像进行人脸特征点预测,得到参考人脸图像的第二人脸特征点;
基于第二人脸特征点对参考人脸图像进行人脸校准处理,得到目标人脸图像。
在一种实现方式中,计算机可读存储介质1704中的计算机指令由处理器1701加载并执行基于第一人脸特征点对待处理人脸图像进行人脸校准处理,得到参考人脸图像时,具体用于执行如下步骤:
获取标准人脸的标准特征点;
基于第一人脸特征点与标准特征点,将待处理人脸图像中的人脸与标准人脸对齐,得到参考人脸图像。
在一种实现方式中,计算机可读存储介质1704中的计算机指令由处理器1701加载并执行基于第一人脸特征点与标准特征点,将待处理人脸图像中的人脸与标准人脸进行对齐,得到参考人脸图像时,具体用于执行如下步骤:
根据第一人脸特征点与标准特征点之间的差异,计算用于对待处理人脸图像进行旋转变换的旋转信息;
按照旋转信息对待处理人脸图像进行旋转变换,得到参考人脸图像。
在一种实现方式中,眼部特征点预测由眼部特征点提取模型执行;
计算机可读存储介质1704中的计算机指令由处理器1701加载并执行对眼部区域图像进行眼部特征点预测,得到眼部区域图像的眼部特征点时,具体用于执行如下步骤:
获取眼部区域图像的眼部方向;
若眼部区域图像的眼部方向与眼部特征点提取模型提取的眼部方向一致,则调用眼部特征点提取模型提取眼部区域图像的眼部特征点。
在一种实现方式中,计算机可读存储介质1704中的计算机指令由处理器1701加载并执行对眼部区域图像进行眼部特征点预测,得到眼部区域图像的眼部特征点时,还用于执行如下步骤:
若眼部区域图像的眼部方向与眼部特征点提取模型提取的眼部方向不一致,则对眼部区域图像进行翻转处理,得到翻转眼部图像;
调用眼部特征点提取模型提取翻转眼部图像的眼部特征点;
对翻转眼部图像的眼部特征点进行翻转处理,得到眼部区域图像的眼部特征点。
在一种实现方式中,眼部特征点预测由眼部特征点提取模型执行,眼部特征点提取模型包括眼睑特征点提取子模型和虹膜特征点提取子模型;
计算机可读存储介质1704中的计算机指令由处理器1701加载并执行对眼部区域图像进行眼部特征点预测,得到眼部区域图像的眼部特征点时,具体用于执行如下步骤:
调用眼睑特征点提取子模型提取眼部区域图像的眼睑特征点;
调用虹膜特征点提取子模型提取眼部区域图像的虹膜特征点;
对眼部区域图像的眼睑特征点和眼部区域图像的虹膜特征点进行组合,得到眼部区域图像的眼部特征点。
在一种实现方式中,眼部特征点预测由眼部特征点提取模型执行,眼部特征点提取模型包括眼睑特征点提取子模型和虹膜特征点提取子模型;眼部特征点提取模型的训练过程包括:
获取训练样本数据,训练样本数据包括眼睑样本图像和虹膜样本图像;
调用眼睑特征点提取子模型提取眼睑样本图像的预测眼睑特征点,并基于预测眼睑特征点确定眼睑特征点提取子模型的损失信息;
调用虹膜特征点提取子模型提取虹膜样本图像的预测虹膜特征点,并基于预测虹膜特征点确定虹膜特征点提取子模型的损失信息;
对眼睑特征点提取子模型的损失信息和虹膜特征点提取子模型的损失信息进行求和处理,确定眼部特征点提取模型的损失信息;
按照减小眼部特征点提取模型的损失信息的方向,更新眼部特征点提取模型的参数,以对眼部特征点提取模型进行训练。
在一种实现方式中,计算机可读存储介质1704中的计算机指令由处理器1701加载并执行调用眼睑特征点提取子模型提取眼睑样本图像的预测眼睑特征点时,具体用于执行如下步骤:
对眼睑样本图像进行像素增强处理,得到第一像素增强图像和第二像素增强图像;像素增强处理用于模拟环境因素对图像内容的干扰;
调用眼睑特征点提取子模型提取第一像素增强图像的预测眼睑特征点;
调用眼睑特征点提取子模型提取第二像素增强图像的预测眼睑特征点。
在一种实现方式中,计算机可读存储介质1704中的计算机指令由处理器1701加载并执行基于预测眼睑特征点确定眼睑特征点提取子模型的损失信息时,具体用于执行如下步骤:
根据第一像素增强图像的预测眼睑特征点,与眼睑样本图像的标注眼睑特征点之间的差异,确定第一损失信息;
根据第一像素增强图像的预测眼睑特征点,与第二像素增强图像的预测眼睑特征点之间的差异,确定第二损失信息;
对第一损失信息和第二损失信息进行求和处理,得到眼睑特征点提取子模型的损失信息。
在一种实现方式中,计算机可读存储介质1704中的计算机指令由处理器1701加载并执行对眼睑样本图像进行像素增强处理,得到第一像素增强图像和第二像素增强图像时,具体用于执行如下步骤:
对眼睑样本图像进行位置增强处理,得到第一像素增强图像;
对第一像素增强图像进行颜色增强处理,得到第二像素增强图像。
在一种实现方式中,计算机可读存储介质1704中的计算机指令由处理器1701加载并执行对眼睑样本图像进行像素增强处理,得到第一像素增强图像和第二像素增强图像时,具体用于执行如下步骤:
对眼睑样本图像进行位置增强处理,得到参考像素增强图像;
对参考像素增强图像进行第一颜色增强处理,得到第一像素增强图像;
对参考像素增强图像进行第二颜色增强处理,得到第二像素增强图像;
其中,第二颜色增强处理的颜色增强强度高于第一颜色增强处理的颜色增强强度。
在一种实现方式中,计算机可读存储介质1704中的计算机指令由处理器1701加载并还用于执行如下步骤:
获取待处理人脸图像的人脸遮挡信息,人脸遮挡信息是在对待处理人脸图像进行人脸特征点预测的过程中获取到的;
根据人脸遮挡信息,确定眼部区域图像中被遮挡的区域;
删除眼部区域图像的眼部特征点中,位于被遮挡的区域中的眼部特征点。
在一种实现方式中,计算机可读存储介质1704中的计算机指令由处理器1701加载并还用于执行如下步骤:
获取待处理人脸图像的人脸分类信息,人脸分类信息是在对待处理人脸图像进行人脸特征点预测的过程中获取到的;
若根据人脸分类信息确定待处理人脸图像中的人脸为真实人脸,则触发执行基于人脸特征点对待处理人脸图像进行人脸校准处理,得到目标人脸图像的步骤。
本申请实施例中,在获取到待处理人脸图像后,可以预测出待处理人脸图像的人脸特征点,基于人脸特征点,可以将待处理人脸图像中的人脸与标准人脸进行对齐,得到目标人脸图像,然后,可以基于人脸特征点在目标人脸图像中确定眼部区域图像,对眼部区域图像进行眼部特征点预测,得到眼部区域图像的眼部特征点;在上述过程中,通过将待处理人脸图像中的人脸与标准人脸进行对齐,可以得到相对标准的人脸图像,基于人脸特征点,可以在相对标准的人脸图像中确定出较为准确的眼部区域图像,从而,对眼部区域图像进行眼部特征点预测,可以较为准确地从人脸图像中提取眼部特征点。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选方式中提供的图像处理方法。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (18)
1.一种图像处理方法,其特征在于,包括:
获取待处理人脸图像;
对所述待处理人脸图像进行人脸特征点预测,得到所述待处理人脸图像的人脸特征点,并基于所述人脸特征点对所述待处理人脸图像进行人脸校准处理,得到目标人脸图像;所述人脸校准处理用于将所述待处理人脸图像中的人脸与标准人脸进行对齐;
基于所述人脸特征点,在所述目标人脸图像中确定眼部区域图像;
对所述眼部区域图像进行眼部特征点预测,得到所述眼部区域图像的眼部特征点。
2.如权利要求1所述的方法,其特征在于,所述对所述待处理人脸图像进行人脸特征点预测,得到所述待处理人脸图像的人脸特征点,并基于所述人脸特征点对所述待处理人脸图像进行人脸校准处理,得到目标人脸图像,包括:
对所述待处理人脸图像进行人脸特征点预测,得到所述待处理人脸图像的第一人脸特征点;
基于所述第一人脸特征点对所述待处理人脸图像进行人脸校准处理,得到参考人脸图像;
对所述参考人脸图像进行人脸特征点预测,得到所述参考人脸图像的第二人脸特征点;
基于所述第二人脸特征点对所述参考人脸图像进行人脸校准处理,得到目标人脸图像。
3.如权利要求2所述的方法,其特征在于,所述基于所述第一人脸特征点对所述待处理人脸图像进行人脸校准处理,得到参考人脸图像,包括:
获取所述标准人脸的标准特征点;
基于所述第一人脸特征点与所述标准特征点,将所述待处理人脸图像中的人脸与所述标准人脸进行对齐,得到参考人脸图像。
4.如权利要求3所述的方法,其特征在于,所述基于所述第一人脸特征点与所述标准特征点,将所述待处理人脸图像中的人脸与所述标准人脸进行对齐,得到参考人脸图像,包括:
根据所述第一人脸特征点与所述标准特征点之间的差异,计算用于对所述待处理人脸图像进行旋转变换的旋转信息;
按照所述旋转信息对所述待处理人脸图像进行旋转变换,得到参考人脸图像。
5.如权利要求1所述的方法,其特征在于,所述眼部特征点预测由眼部特征点提取模型执行;所述对所述眼部区域图像进行眼部特征点预测,得到所述眼部区域图像的眼部特征点,包括:
获取所述眼部区域图像的眼部方向;
若所述眼部区域图像的眼部方向与所述眼部特征点提取模型提取的眼部方向一致,则调用所述眼部特征点提取模型提取所述眼部区域图像的眼部特征点。
6.如权利要求5所述的方法,其特征在于,所述对所述眼部区域图像进行眼部特征点预测,得到所述眼部区域图像的眼部特征点,还包括:
若所述眼部区域图像的眼部方向与所述眼部特征点提取模型提取的眼部方向不一致,则对所述眼部区域图像进行翻转处理,得到翻转眼部图像;
调用所述眼部特征点提取模型提取所述翻转眼部图像的眼部特征点;
对所述翻转眼部图像的眼部特征点进行翻转处理,得到所述眼部区域图像的眼部特征点。
7.如权利要求1所述的方法,其特征在于,所述眼部特征点预测由眼部特征点提取模型执行,所述眼部特征点提取模型包括眼睑特征点提取子模型和虹膜特征点提取子模型;所述对所述眼部区域图像进行眼部特征点预测,得到所述眼部区域图像的眼部特征点,包括:
调用所述眼睑特征点提取子模型提取所述眼部区域图像的眼睑特征点;
调用所述虹膜特征点提取子模型提取所述眼部区域图像的虹膜特征点;
对所述眼部区域图像的眼睑特征点和所述眼部区域图像的虹膜特征点进行组合,得到所述眼部区域图像的眼部特征点。
8.如权利要求1所述的方法,其特征在于,所述眼部特征点预测由眼部特征点提取模型执行,所述眼部特征点提取模型包括眼睑特征点提取子模型和虹膜特征点提取子模型;所述眼部特征点提取模型的训练过程包括:
获取训练样本数据,所述训练样本数据包括眼睑样本图像和虹膜样本图像;
调用所述眼睑特征点提取子模型提取所述眼睑样本图像的预测眼睑特征点,并基于所述预测眼睑特征点确定所述眼睑特征点提取子模型的损失信息;
调用所述虹膜特征点提取子模型提取所述虹膜样本图像的预测虹膜特征点,并基于所述预测虹膜特征点确定所述虹膜特征点提取子模型的损失信息;
对所述眼睑特征点提取子模型的损失信息和所述虹膜特征点提取子模型的损失信息进行求和处理,确定所述眼部特征点提取模型的损失信息;
按照减小所述眼部特征点提取模型的损失信息的方向,更新所述眼部特征点提取模型的参数,以对所述眼部特征点提取模型进行训练。
9.如权利要求8所述的方法,其特征在于,所述调用所述眼睑特征点提取子模型提取所述眼睑样本图像的预测眼睑特征点,包括:
对所述眼睑样本图像进行像素增强处理,得到第一像素增强图像和第二像素增强图像;所述像素增强处理用于模拟环境因素对图像内容的干扰;
调用所述眼睑特征点提取子模型提取所述第一像素增强图像的预测眼睑特征点;
调用所述眼睑特征点提取子模型提取所述第二像素增强图像的预测眼睑特征点。
10.如权利要求9所述的方法,其特征在于,所述基于所述预测眼睑特征点确定所述眼睑特征点提取子模型的损失信息,包括:
根据所述第一像素增强图像的预测眼睑特征点,与所述眼睑样本图像的标注眼睑特征点之间的差异,确定第一损失信息;
根据所述第一像素增强图像的预测眼睑特征点,与所述第二像素增强图像的预测眼睑特征点之间的差异,确定第二损失信息;
对所述第一损失信息和所述第二损失信息进行求和处理,得到所述眼睑特征点提取子模型的损失信息。
11.如权利要求9所述的方法,其特征在于,所述对所述眼睑样本图像进行像素增强处理,得到第一像素增强图像和第二像素增强图像,包括:
对所述眼睑样本图像进行位置增强处理,得到第一像素增强图像;
对所述第一像素增强图像进行颜色增强处理,得到第二像素增强图像。
12.如权利要求9所述的方法,其特征在于,所述对所述眼睑样本图像进行像素增强处理,得到第一像素增强图像和第二像素增强图像,包括:
对所述眼睑样本图像进行位置增强处理,得到参考像素增强图像;
对所述参考像素增强图像进行第一颜色增强处理,得到第一像素增强图像;
对所述参考像素增强图像进行第二颜色增强处理,得到第二像素增强图像;
其中,所述第二颜色增强处理的颜色增强强度高于所述第一颜色增强处理的颜色增强强度。
13.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述待处理人脸图像的人脸遮挡信息,所述人脸遮挡信息是在对所述待处理人脸图像进行人脸特征点预测的过程中获取到的;
根据所述人脸遮挡信息,确定所述眼部区域图像中被遮挡的区域;
删除所述眼部区域图像的眼部特征点中,位于所述被遮挡的区域中的眼部特征点。
14.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述待处理人脸图像的人脸分类信息,所述人脸分类信息是在对所述待处理人脸图像进行人脸特征点预测的过程中获取到的;
若根据所述人脸分类信息确定所述待处理人脸图像中的人脸为真实人脸,则触发执行所述基于所述人脸特征点对所述待处理人脸图像进行人脸校准处理,得到目标人脸图像的步骤。
15.一种图像处理装置,其特征在于,包括:
获取单元,用于获取待处理人脸图像;
处理单元,用于对所述待处理人脸图像进行人脸特征点预测,得到所述待处理人脸图像的人脸特征点,并基于所述人脸特征点对所述待处理人脸图像进行人脸校准处理,得到目标人脸图像;所述人脸校准处理用于将所述待处理人脸图像中的人脸与标准人脸进行对齐;
所述处理单元,还用于基于所述人脸特征点,在所述目标人脸图像中确定眼部区域图像;
所述处理单元,还用于对所述眼部区域图像进行眼部特征点预测,得到所述眼部区域图像的眼部特征点。
16.一种计算机设备,其特征在于,所述计算机设备包括:
处理器,适于实现计算机程序;
计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1-14任一项所述的图像处理方法。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于由处理器加载并执行如权利要求1-14任一项所述的图像处理方法。
18.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令被处理器执行时实现如权利要求1-14任一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211520758.9A CN117011910A (zh) | 2022-11-30 | 2022-11-30 | 图像处理方法、装置及计算机设备、存储介质、程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211520758.9A CN117011910A (zh) | 2022-11-30 | 2022-11-30 | 图像处理方法、装置及计算机设备、存储介质、程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117011910A true CN117011910A (zh) | 2023-11-07 |
Family
ID=88567886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211520758.9A Pending CN117011910A (zh) | 2022-11-30 | 2022-11-30 | 图像处理方法、装置及计算机设备、存储介质、程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117011910A (zh) |
-
2022
- 2022-11-30 CN CN202211520758.9A patent/CN117011910A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4198814A1 (en) | Gaze correction method and apparatus for image, electronic device, computer-readable storage medium, and computer program product | |
EP3885965B1 (en) | Image recognition method based on micro facial expressions, apparatus and related device | |
US20220101654A1 (en) | Method for recognizing actions, device and storage medium | |
US20220277596A1 (en) | Face anti-spoofing recognition method and apparatus, device, and storage medium | |
CN109345556A (zh) | 用于混合现实的神经网络前景分离 | |
US20230048906A1 (en) | Method for reconstructing three-dimensional model, method for training three-dimensional reconstruction model, and apparatus | |
CN111488865A (zh) | 图像优化方法、装置、计算机存储介质以及电子设备 | |
CN110555896B (zh) | 一种图像生成方法、装置以及存储介质 | |
JP2018116589A (ja) | 対象画像の変更画像群を用いる状態識別装置、プログラム及び方法 | |
WO2022148248A1 (zh) | 图像处理模型的训练方法、图像处理方法、装置、电子设备及计算机程序产品 | |
CN117218246A (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN112613374A (zh) | 人脸可见区域解析与分割方法、人脸上妆方法及移动终端 | |
CN113538254A (zh) | 图像恢复方法、装置、电子设备及计算机可读存储介质 | |
CN117011449A (zh) | 三维面部模型的重构方法和装置、存储介质及电子设备 | |
CN117011910A (zh) | 图像处理方法、装置及计算机设备、存储介质、程序产品 | |
CN113223128B (zh) | 用于生成图像的方法和装置 | |
CN115937365A (zh) | 用于人脸重建的网络训练方法、装置、设备及存储介质 | |
CN112132107A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN117576245B (zh) | 一种图像的风格转换方法、装置、电子设备及存储介质 | |
US11978170B2 (en) | Data processing method, computer device and readable storage medium | |
CN115294623B (zh) | 一种人体全身动作捕捉方法、装置、存储介质及终端 | |
WO2023169023A1 (zh) | 表情模型的生成方法、装置、设备及介质 | |
CN114327703A (zh) | 对终端屏显内容进行翻译处理的方法、装置、设备及介质 | |
KR20240106541A (ko) | 실사촬영에 기반한 다중시점 메타버스 서비스를 제공하는 방법 및 시스템 | |
CN116977507A (zh) | 一种动画处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40097793 Country of ref document: HK |