CN111476096A - 一种人脸图像关键点方法、装置、计算机设备及存储介质 - Google Patents
一种人脸图像关键点方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111476096A CN111476096A CN202010151332.5A CN202010151332A CN111476096A CN 111476096 A CN111476096 A CN 111476096A CN 202010151332 A CN202010151332 A CN 202010151332A CN 111476096 A CN111476096 A CN 111476096A
- Authority
- CN
- China
- Prior art keywords
- key point
- point data
- positioning
- image information
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Abstract
本申请实施例属于人工智能领域,涉及一种人脸图像关键点定位方法,包括:将原始图像信息输入至第一定位模型进行原始关键点定位操作,获得原始关键点数据;基于标准关键点数据获取与所述原始关键点数据相对应的矫正矩阵;基于所述矫正矩阵对所述原始图像信息进行矫正操作,获得中间图像信息;将所述中间图像信息输入至第二定位模型进行目标关键点定位操作,获得目标关键点数据;基于所述矫正矩阵对所述目标关键点数据进行复位操作,获得最终关键点数据;向所述用户终端输出所述最终关键点数据。本申请还提供一种人脸图像关键点定位装置、计算机设备及存储介质。本申请提高系统的适用性,同时有效减少计算模型的训练难度,提高模型的准确性。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种人脸图像关键点方法、装置、计算机设备及存储介质。
背景技术
随着技术的发展,人脸识别的应用范围越来越广泛,例如,表情分析等。而在人脸识别的过程中,人脸图像的关键点定位是图像处理技术的一个重要分支。
现有一种人脸图像关键点定位方法,通过将人脸图像输入计算模型来预测人脸图像的关键点,从而实现人脸图像关键点的定位目的。
然而,传统的人脸图像关键点定位方法普遍不智能,当人脸图像的拍摄现场较为复杂多变,例如在人脸图像中将人脸的转动,按照传统的人脸图像关键点定位方法则会增加该计算模型的参数搜索空间,从而导致该计算模型训练难度大大增加,进而极大降低模型的准确率。
发明内容
本申请实施例的目的在于提出一种基于人工智能的人脸图像关键点定位方法,旨在解决现有的人脸图像关键点定位方法的计算模型训练难度过大,极大降低模型的准确性的问题。
为了解决上述技术问题,本申请实施例提供一种基于人工智能的人脸图像关键点定位方法,采用了如下所述的技术方案:
接收用户终端发送的关键点定位请求,所述关键点定位请求至少携带有原始图像信息;
响应所述关键点定位请求,将所述原始图像信息输入至第一定位模型进行原始关键点定位操作,获得原始关键点数据;
基于标准关键点数据获取与所述原始关键点数据相对应的矫正矩阵;
基于所述矫正矩阵对所述原始图像信息进行矫正操作,获得中间图像信息;
将所述中间图像信息输入至第二定位模型进行目标关键点定位操作,获得目标关键点数据;
基于所述矫正矩阵对所述目标关键点数据进行复位操作,获得最终关键点数据;
向所述用户终端输出所述最终关键点数据。
为了解决上述技术问题,本申请实施例还提供一种基于人工智能的人脸图像关键点定位装置,采用了如下所述的技术方案:
请求接收模块,用于接收用户终端发送的关键点定位请求,所述关键点定位请求至少携带有原始图像信息;
请求响应模块,用于响应所述关键点定位请求,将所述原始图像信息输入至第一定位模型进行原始关键点定位操作,获得原始关键点数据;
矫正矩阵获取模块,用于基于标准关键点数据获取与所述原始关键点数据相对应的矫正矩阵;
矫正图像获取模块,用于基于所述矫正矩阵对所述原始图像信息进行矫正操作,获得中间图像信息;
目标关键点获取模块,用于将所述中间图像信息输入至第二定位模型进行目标关键点定位操作,获得目标关键点数据;
最终关键点获取模块,用于基于所述矫正矩阵对所述目标关键点数据进行复位操作,获得最终关键点数据;
最终关键点输出模块,用于向所述用户终端输出所述最终关键点数据。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
包括存储器和处理器,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述基于人工智能的人脸图像关键点定位方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述基于人工智能的人脸图像关键点定位方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本发明申请提供了一种基于人工智能的人脸图像关键点定位方法,接收用户终端发送的关键点定位请求,所述关键点定位请求至少携带有原始图像信息;响应所述关键点定位请求,将所述原始图像信息输入至第一定位模型进行原始关键点定位操作,获得原始关键点数据;基于标准关键点数据获取与所述原始关键点数据相对应的矫正矩阵;基于所述矫正矩阵对所述原始图像信息进行矫正操作,获得中间图像信息;将所述中间图像信息输入至第二定位模型进行目标关键点定位操作,获得目标关键点数据;基于所述矫正矩阵对所述目标关键点数据进行复位操作,获得最终关键点数据;向所述用户终端输出所述最终关键点数据。通过第一定位模型获取原始图像信息的原始关键点数据,然后根据原始关键点数据对该原始图像信息进行矫正操作,并通过第二定位模型获取目标关键点数据,最后基于矫正操作对该目标关键点数据进行复位操作,从而获取原始图像信息的关键点数据,使得系统有效适应于复杂多变的场景,提高系统的适用性,同时有效减少计算模型的训练难度,提高模型的准确性。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的基于人工智能的人脸图像关键点定位方法的实现流程图;
图2是图1中步骤S106的实现流程图;
图3是本发明实施例二提供的基于人工智能的人脸图像关键点定位装置的结构示意图;
图4是本发明实施例二提供的最终关键点获取模块的结构示意图;
图5是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本发明实施例提供的基于人工智能的人脸图像关键点定位方法,通过第一定位模型获取原始图像信息的原始关键点数据,然后根据原始关键点数据对该原始图像信息进行矫正操作,并通过第二定位模型获取目标关键点数据,最后基于矫正操作对该目标关键点数据进行复位操作,从而获取原始图像信息的关键点数据,使得系统有效适应于复杂多变的场景,提高系统的适用性,同时有效减少计算模型的训练难度,提高模型的准确性。
实施例一
图1示出了本发明实施例一提供的基于人工智能的人脸图像关键点定位方法的实现流程图,为了便于说明,仅示出与本发明相关的部分。
在步骤S101中,接收用户终端发送的关键点定位请求,所述关键点定位请求至少携带有原始图像信息。
在本发明实施例中,用户终端可以是诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端,应当理解,此处对用户终端的举例仅为方便理解,不用于限定本发明。
在本发明实施例中,关键点指的是在人脸图像中,人脸的眼、鼻、嘴等的形状和二维坐标位置。
在本发明实施例中,原始图像信息指的是摄像装置现场拍摄到的图像信息。
在步骤S102中,响应所述关键点定位请求,将所述原始图像信息输入至第一定位模型进行原始关键点定位操作,获得原始关键点数据。
在本发明实施例中,第一定位模型可以实现人脸区域的识别以及基于该识别到的人脸区域定位人脸关键点的功能,作为示例,该第一定位模型可以是多任务卷积神经网络(MTCNN,Multi-task convolutional neural network)模型,该第一定位模型也可以是state-of-the-art人脸检测模型,该第一定位模型还可以是YOLO模型等,应当理解,此处对第一定位模型的举例仅为方便理解,不用于限定本发明。
在本发明实施例中,原始关键点指的是基于原始图像信息识别到的人脸左眼睛、右眼睛、鼻子、左嘴角和右嘴角的5个坐标点。
在本发明实施例中,原始关键点定位操作包括人脸区域的预识别过程、人脸区域的确定过程以及人脸关键点的识别过程,以获取原始图像信息中的人脸关键点。
在步骤S103中,基于标准关键点数据获取与所述原始关键点数据相对应的矫正矩阵。
在本发明实施例中,标准关键点指的是人脸在不存在转动角度的情况下拍摄到的标准人脸图像中左眼睛、右眼睛、鼻子、左嘴角和右嘴角5个关键点数据。
在本发明实施例中,矫正矩阵指的是将原始关键点通过转动操作实现与标准关键点重合的线性变换通过矩阵进行表示,作为示例,该矫正矩阵表示可以是:
旋转:绕原点逆时针旋转θ度角的变换公式是x'=xcosθ-ysinθ与y'=xsinθ+ycosθ,用矩阵表示为:
缩放:缩放公式用矩阵表示为:
该矫正矩阵还可以通过skimage库中的transform.SimilarityTransform函数或estimate函数来计算原始关键点变换至标准关键点的变换矩阵。
在步骤S104中,基于所述矫正矩阵对所述原始图像信息进行矫正操作,获得中间图像信息。
在本发明实施例中,中间图像信息指的是上述原始图像按照校正矩阵进行矫正过后行程的不存在转动角度的人脸图像信息。
在步骤S105中,将所述中间图像信息输入至第二定位模型进行目标关键点定位操作,获得目标关键点数据。
在本发明实施例中,第二定位模型可实现对中间图像信息的降采样操作,作为示例,例如一个4*4的人脸图像方格,经过降采样操作即取该16个像素值的平均值或者最大值作为一个1*1人脸图像方格的值;对降采样操作后的降维特征数据进行扩充操作,从而获得维度更大的特征数据,即目标关键点数据,作为示例,例如一个4*4的人脸图像方格(16个值),经过扩充操作后,会通过插值得到一个16*16的人脸图像方格(256个值)。
在本发明实施例中,目标关键点数据指的是经过目标关键点定位操作后输出的热图数据中,每张热图中含有人脸图像的各个像素点的关键点预测值,以该预测值最大的点作为该目标关键点。其中,目标关键点数据量可以是68个,该目标关键点数据量还可以是大于68个,应当理解,此处对目标关键点数量的举例仅为便于理解,不用于限定本发明。
在步骤S106中,基于所述矫正矩阵对所述目标关键点数据进行复位操作,获得最终关键点数据。
在本发明实施例中,复位操作指的是基于上述矫正矩阵变换的逆向变换过程。作为示例,例如根据变换矩阵会进行加法,则在逆运算中进行减法;再例如根据变换矩阵会进行乘法,则在逆运算中进行除法,应当理解,此处对复位操作的举例仅为便于理解,不用于限定本发明。
在本发明实施例中,最终关键点数据指的是在原始图像信息中预测值最大的像素点数据。
在步骤S107中,向所述用户终端输出所述最终关键点数据。
在本发明实施例中,接收用户终端发送的关键点定位请求,所述关键点定位请求至少携带有原始图像信息;响应所述关键点定位请求,将所述原始图像信息输入至第一定位模型进行原始关键点定位操作,获得原始关键点数据;基于标准关键点数据获取与所述原始关键点数据相对应的矫正矩阵;基于所述矫正矩阵对所述原始图像信息进行矫正操作,获得中间图像信息;将所述中间图像信息输入至第二定位模型进行目标关键点定位操作,获得目标关键点数据;基于所述矫正矩阵对所述目标关键点数据进行复位操作,获得最终关键点数据;向所述用户终端输出所述最终关键点数据。通过第一定位模型获取原始图像信息的原始关键点数据,然后根据原始关键点数据对该原始图像信息进行矫正操作,并通过第二定位模型获取目标关键点数据,最后基于矫正操作对该目标关键点数据进行复位操作,从而获取原始图像信息的关键点数据,使得系统有效适应于复杂多变的场景,提高系统的适用性,同时有效减少计算模型的训练难度,提高模型的准确性。
作为实施例一的一些可选实现方式中,上述第一定位模型为多任务卷积神经网络模型,所述多任务卷积神经网络模型由P-NET神经网络、R-NET神经网络和O-NET神经网络级联而成。
在本发明实施例中,多任务卷积神经网络模型指的是MTCNN,Multi-taskconvolutional neural network(多任务卷积神经网络),将人脸区域检测与人脸关键点检测放在了一起,它的主题框架类似于cascade。总体可分为P-Net、R-Net、和O-Net三层网络结构。
在本发明实施例中,P-NET神经网络是一个人脸区域的区域建议网络,该网络的将特征输入结果三个卷积层之后,通过一个人脸分类器判断该区域是否是人脸,同时使用边框回归和一个面部关键点的定位器来进行人脸区域的初步预测,该部分最终将输出很多张可能存在人脸的人脸区域,并将这些区域输入R-Net进行进一步处理。
在本发明实施例中,P-Net神经网络是将对输入进行细化选择,并且舍去大部分的错误输入,并再次使用边框回归和面部关键点定位器进行人脸区域的边框回归和关键点定位,最后将输出较为可信的人脸区域,供O-Net使用。
在本发明实施例中,O-NET神经网络是一个更复杂的卷积网络,该网络的输入特征更多,在网络结构的最后同样是一个更大的256的全连接层,保留了更多的图像特征,同时再进行人脸判别、人脸区域边框回归和人脸特征定位,最终输出人脸区域的左上角坐标和右下角坐标与人脸区域的五个特征点。O-Net拥有特征更多的输入和更复杂的网络结构,也具有更好的性能,这一层的输出作为最终的网络模型输出。
在本发明实施例中,通过选取多任务卷积神经网络模型作为第一定位模型,从而保证了系统的运算速度以及数据的准确率。
作为实施例一的一些可选实现方式中,第二定位模型包括池化层和上采样层,所述池化层和所述上采样层在所述第二定位模型中相互交替组合。
在本发明实施例中,池化层可以是对矫正人脸图像数据进行平均池化或最大池化。池化是指一种降采样方法,其能起到归纳信息和降低信息维度的作用。其中,平均池化:例如一个4乘4的图像像素方格,取这16个像素值的平均值作为一个1乘1格子的值,即为平均池化操作。最大池化:例如一个4乘4的图像像素方格,取这16个像素值的最大值作为一个1乘1格子的值,即为最大池化操作。
在本发明实施例中,上采样层主要用于对经过池化层后得到的降维特征数据进行扩充后得到维度更大的特征数据。例如一个4乘4的网格(16个值),经过上采样层后,会通过插值得到一个16乘16的网格(256个值)。
在本发明实施例中,池化层得到的特征数据通常是较为整体的特征数据,有利于预测关键点的大概位置,而上采样层得到的特征数据通常是较为精细的特征数据,有利于精准地预测关键点。将池化层和上采样层集合在同一模型内进行关键点的预测比将粗定位和细定位设置于不同的模型中的预测效果更好、更加准确。同时,通过交替使用池化层和上采样层,能够在矫正人脸图像出现头发挡住脸,两张人脸部分重叠,脸部部分区域光线太暗或太强,或嘴巴张的特别大等特殊情况时,也能够更准确地预测关键点。池化层得到的特征数据在出现脸部部分区域被遮挡等特殊情况时,预测关键点的位置较为有效,因为其主要用于预测关键点的大概位置。上采样层得到的特征数据在脸部没遮挡的部分,预测关键点尤为有效,因为上采样层得到的特征数据是高分辨率的数据,所以有利于精确预测关键点的位置。另外,多次使用池化和上采样操作,这些操作是无需参数的,减少了模型的数量级,加快了运行时间,在英伟达1080型号GPU上也能够做到实时分析。
作为实施例一的一些可选实现方式中,池化层和上采样层的数量均为四层。
在本发明实施例中,池化层和上采样层的数量均为四层的第二定位模型的结构可以大致表示为:池化层-采样层-池化层-采样层-池化层-采样层-池化层-采样层。由于增加第二定位模型的层数将导致计算时间的增加,经过多次实验发现,当层数为四层时,能够较好地取得准确度和计算时间的平衡。
作为实施例一的一些可选实现方式中,第二定位模型还包括有注意力机制模块,用于为所述池化层和所述上采样层得到的特征数据分配权重。
在本发明实施例中,第二定位模型还可以包括有注意力机制模块,所述注意力机制模块用于为所述池化层和所述上采样层得到的特征数据分配权重,特征数据经过所述注意力机制模块后将得到加权后的特征数据。所述注意力机制模块包括平均注意力机制模块和最大值注意力机制模块。这两种注意力机制分多次同时作用于池化后特征与上采样后的特征数据以形成池化数据。然后,对所述池化数据进行卷积以形成加权数据;根据所述加权数据对所述特征数据进行加权处理。
其中,平均注意力机制模块和最大值注意力机制模块会对特征数据分别进行平均池化和最大池化。最大池化和平均池化的处理过程如前文所述,在此不再赘述。假如,最大池化数据是一个128*128*40的数据立方体,平均池化数据是一个128*128*30的数据立方体,汇总后形成的池化数据即是一个128*128*70的数据立方体。将128*128*70的数据立方体经过卷积层操作后形成一个128*128*1的数据立方体,该数据立方体中每个位置的数值即为特征数据中每个位置的权重,将特征数据中每个位置的数值与对应的权值相乘得到的结果作为特征数据加权后的数值。
在本发明实施例中,通过引入注意力机制模块,能够使第二定位模型更加关注关键信息,从而使关键点的预测结果更加准确。
继续参考图2,示出了图1中步骤S106的实现流程图,为了便于说明,仅示出与本发明相关的部分。
作为实施例一的一些可选实现方式中,上述步骤S106具体包括:步骤S201以及步骤S202。
在步骤S201中,获取与所述矫正矩阵相对应的复位矩阵。
在本发明实施例中,复位矩阵指的是该矫正矩阵中对应位置进行逆运算的复位方式。
在步骤S202中,基于所述复位矩阵对所述目标关键点进行所述复位操作,获得所述最终关键点数据。
在实际应用中,若矫正矩阵为[[a0,b0,a1],[b0,a0,b1],[0,0,1]],则矫正后的像素点坐标X,Y与矫正前的像素点坐标x,y之间的关系为X=a0*x-b0*y+a1,Y=b0*x+a0*y+b1。那么复位操作即可知X,Y求解上述方程组中的x,y,从而得到最终关键点在原始图像信息中的位置。
综上所述,本发明申请提供了一种基于人工智能的人脸图像关键点定位方法,接收用户终端发送的关键点定位请求,所述关键点定位请求至少携带有原始图像信息;响应所述关键点定位请求,将所述原始图像信息输入至第一定位模型进行原始关键点定位操作,获得原始关键点数据;基于标准关键点数据获取与所述原始关键点数据相对应的矫正矩阵;基于所述矫正矩阵对所述原始图像信息进行矫正操作,获得中间图像信息;将所述中间图像信息输入至第二定位模型进行目标关键点定位操作,获得目标关键点数据;基于所述矫正矩阵对所述目标关键点数据进行复位操作,获得最终关键点数据;向所述用户终端输出所述最终关键点数据。通过第一定位模型获取原始图像信息的原始关键点数据,然后根据原始关键点数据对该原始图像信息进行矫正操作,并通过第二定位模型获取目标关键点数据,最后基于矫正操作对该目标关键点数据进行复位操作,从而获取原始图像信息的关键点数据,使得系统有效适应于复杂多变的场景,提高系统的适用性,同时有效减少计算模型的训练难度,提高模型的准确性。同时,通过选取多任务卷积神经网络模型作为第一定位模型,从而保证了系统的运算速度以及数据的准确率;通过交替使用池化层和上采样层,能够在矫正人脸图像出现头发挡住脸,两张人脸部分重叠,脸部部分区域光线太暗或太强,或嘴巴张的特别大等特殊情况时,也能够更准确地预测关键点;通过引入注意力机制模块,能够使第二定位模型更加关注关键信息,从而使关键点的预测结果更加准确。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实施例二
进一步参考图3,作为对上述图1所示方法的实现,本申请提供了一种基于人工智能的人脸图像关键点定位装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本发明实施例二所提供的基于人工智能的人脸图像关键点定位装置100包括:请求接收模块101、请求响应模块102、矫正矩阵获取模块103、矫正图像获取模块104、目标关键点获取模块105、最终关键点获取模块106以及最终关键点输出模块107。其中:
请求接收模块101,用于接收用户终端发送的关键点定位请求,所述关键点定位请求至少携带有原始图像信息。
请求响应模块102,用于响应所述关键点定位请求,将所述原始图像信息输入至第一定位模型进行原始关键点定位操作,获得原始关键点数据。
矫正矩阵获取模块103,用于基于标准关键点数据获取与所述原始关键点数据相对应的矫正矩阵。
矫正图像获取模块104,用于基于所述矫正矩阵对所述原始图像信息进行矫正操作,获得中间图像信息。
目标关键点获取模块105,用于将所述中间图像信息输入至第二定位模型进行目标关键点定位操作,获得目标关键点数据。
最终关键点获取模块106,用于基于所述矫正矩阵对所述目标关键点数据进行复位操作,获得最终关键点数据。
最终关键点输出模块107,用于向所述用户终端输出所述最终关键点数据。
在本发明实施例中,用户终端可以是诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端,应当理解,此处对用户终端的举例仅为方便理解,不用于限定本发明。
在本发明实施例中,关键点指的是在人脸图像中,人脸的眼、鼻、嘴等的形状和二维坐标位置。
在本发明实施例中,原始图像信息指的是摄像装置现场拍摄到的图像信息。
在本发明实施例中,第一定位模型可以实现人脸区域的识别以及基于该识别到的人脸区域定位人脸关键点的功能,作为示例,该第一定位模型可以是多任务卷积神经网络(MTCNN,Multi-task convolutional neural network)模型,该第一定位模型也可以是state-of-the-art人脸检测模型,该第一定位模型还可以是YOLO模型等,应当理解,此处对第一定位模型的举例仅为方便理解,不用于限定本发明。
在本发明实施例中,原始关键点指的是基于原始图像信息识别到的人脸左眼睛、右眼睛、鼻子、左嘴角和右嘴角的5个坐标点。
在本发明实施例中,原始关键点定位操作包括人脸区域的预识别过程、人脸区域的确定过程以及人脸关键点的识别过程,以获取原始图像信息中的人脸关键点。
在本发明实施例中,标准关键点指的是人脸在不存在转动角度的情况下拍摄到的标准人脸图像中左眼睛、右眼睛、鼻子、左嘴角和右嘴角5个关键点数据。
在本发明实施例中,矫正矩阵指的是将原始关键点通过转动操作实现与标准关键点重合的线性变换通过矩阵进行表示,作为示例,该矫正矩阵表示可以是:
旋转:绕原点逆时针旋转θ度角的变换公式是x'=xcosθ-ysinθ与y'=xsinθ+ycosθ,用矩阵表示为:
缩放:缩放公式用矩阵表示为:
该矫正矩阵还可以通过skimage库中的transform.SimilarityTransform函数或estimate函数来计算原始关键点变换至标准关键点的变换矩阵。
在本发明实施例中,中间图像信息指的是上述原始图像按照校正矩阵进行矫正过后行程的不存在转动角度的人脸图像信息。
在本发明实施例中,第二定位模型可实现对中间图像信息的降采样操作,作为示例,例如一个4*4的人脸图像方格,经过降采样操作即取该16个像素值的平均值或者最大值作为一个1*1人脸图像方格的值;对降采样操作后的降维特征数据进行扩充操作,从而获得维度更大的特征数据,即目标关键点数据,作为示例,例如一个4*4的人脸图像方格(16个值),经过扩充操作后,会通过插值得到一个16*16的人脸图像方格(256个值)。
在本发明实施例中,目标关键点数据指的是经过目标关键点定位操作后输出的热图数据中,每张热图中含有人脸图像的各个像素点的关键点预测值,以该预测值最大的点作为该目标关键点。其中,目标关键点数据量可以是68个,该目标关键点数据量还可以是大于68个,应当理解,此处对目标关键点数量的举例仅为便于理解,不用于限定本发明。
在本发明实施例中,复位操作指的是基于上述矫正矩阵变换的逆向变换过程。作为示例,例如根据变换矩阵会进行加法,则在逆运算中进行减法;再例如根据变换矩阵会进行乘法,则在逆运算中进行除法,应当理解,此处对复位操作的举例仅为便于理解,不用于限定本发明。
在本发明实施例中,最终关键点数据指的是在原始图像信息中预测值最大的像素点数据。
在本发明实施例中,提供了一种基于人工智能的人脸图像关键点定位装置,包括:请求接收模块,用于接收用户终端发送的关键点定位请求,所述关键点定位请求至少携带有原始图像信息;请求响应模块,用于响应所述关键点定位请求,将所述原始图像信息输入至第一定位模型进行原始关键点定位操作,获得原始关键点数据;矫正矩阵获取模块,用于基于标准关键点数据获取与所述原始关键点数据相对应的矫正矩阵;矫正图像获取模块,用于基于所述矫正矩阵对所述原始图像信息进行矫正操作,获得中间图像信息;目标关键点获取模块,用于将所述中间图像信息输入至第二定位模型进行目标关键点定位操作,获得目标关键点数据;最终关键点获取模块,用于基于所述矫正矩阵对所述目标关键点数据进行复位操作,获得最终关键点数据;最终关键点输出模块,用于向所述用户终端输出所述最终关键点数据。通过第一定位模型获取原始图像信息的原始关键点数据,然后根据原始关键点数据对该原始图像信息进行矫正操作,并通过第二定位模型获取目标关键点数据,最后基于矫正操作对该目标关键点数据进行复位操作,从而获取原始图像信息的关键点数据,使得系统有效适应于复杂多变的场景,提高系统的适用性,同时有效减少计算模型的训练难度,提高模型的准确性。
在本发明实施例二的一些可选的实现方式中,如图4所示,上述目标关键点获取模块106包括:复位矩阵获取子模块1061以及复位操作子模块1062。
其中:
复位矩阵获取子模块1061,用于获取与所述矫正矩阵相对应的复位矩阵;
复位操作子模块1062,用于基于所述复位矩阵对所述目标关键点进行所述复位操作,获得所述最终关键点数据。
在本发明实施例中,复位矩阵指的是该矫正矩阵中对应位置进行逆运算的复位方式。
在实际应用中,若矫正矩阵为[[a0,b0,a1],[b0,a0,b1],[0,0,1]],则矫正后的像素点坐标X,Y与矫正前的像素点坐标x,y之间的关系为X=a0*x-b0*y+a1,Y=b0*x+a0*y+b1。那么复位操作即可知X,Y求解上述方程组中的x,y,从而得到最终关键点在原始图像信息中的位置。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图5,图5为本实施例计算机设备基本结构框图。
所述计算机设备5包括通过系统总线相互通信连接存储器51、处理器52、网络接口53。需要指出的是,图中仅示出了具有组件51-53的计算机设备5,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器51至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器51可以是所述计算机设备5的内部存储单元,例如该计算机设备5的硬盘或内存。在另一些实施例中,所述存储器51也可以是所述计算机设备5的外部存储设备,例如该计算机设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器51还可以既包括所述计算机设备5的内部存储单元也包括其外部存储设备。本实施例中,所述存储器51通常用于存储安装于所述计算机设备5的操作系统和各类应用软件,例如基于人工智能的人脸图像关键点定位方法的程序代码等。此外,所述存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器52在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制所述计算机设备5的总体操作。本实施例中,所述处理器52用于运行所述存储器51中存储的程序代码或者处理数据,例如运行所述基于人工智能的人脸图像关键点定位方法的程序代码。
所述网络接口53可包括无线网络接口或有线网络接口,该网络接口53通常用于在所述计算机设备5与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有基于人工智能的人脸图像关键点定位程序,所述基于人工智能的人脸图像关键点定位程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于人工智能的人脸图像关键点定位方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种基于人工智能的人脸图像关键点定位方法,其特征在于,所述方法包括如下步骤:
接收用户终端发送的关键点定位请求,所述关键点定位请求至少携带有原始图像信息;
响应所述关键点定位请求,将所述原始图像信息输入至第一定位模型进行原始关键点定位操作,获得原始关键点数据;
基于标准关键点数据获取与所述原始关键点数据相对应的矫正矩阵;
基于所述矫正矩阵对所述原始图像信息进行矫正操作,获得中间图像信息;
将所述中间图像信息输入至第二定位模型进行目标关键点定位操作,获得目标关键点数据;
基于所述矫正矩阵对所述目标关键点数据进行复位操作,获得最终关键点数据;
向所述用户终端输出所述最终关键点数据。
2.如权利要求1所述的基于人工智能的人脸图像关键点定位方法,其特征在于,所述第一定位模型为多任务卷积神经网络模型,所述多任务卷积神经网络模型由P-NET神经网络、R-NET神经网络和O-NET神经网络级联而成。
3.如权利要求1所述的基于人工智能的人脸图像关键点定位方法,其特征在于,所述第二定位模型包括池化层和上采样层,所述池化层和所述上采样层在所述第二定位模型中相互交替组合。
4.如权利要求3所述的基于人工智能的人脸图像关键点定位方法,其特征在于,所述池化层和上采样层的数量均为四层。
5.如权利要求3所述的基于人工智能的人脸图像关键点定位方法,其特征在于,所述第二定位模型还包括有注意力机制模块,用于为所述池化层和所述上采样层得到的特征数据分配权重。
6.如权利要求1所述的基于人工智能的人脸图像关键点定位方法,其特征在于,所述基于所述矫正矩阵对所述目标关键点数据进行复位操作,获得最终关键点数据的步骤,具体包括如下步骤:
获取与所述矫正矩阵相对应的复位矩阵;
基于所述复位矩阵对所述目标关键点进行所述复位操作,获得所述最终关键点数据。
7.一种基于人工智能的人脸图像关键点定位装置,其特征在于,所述装置包括:
请求接收模块,用于接收用户终端发送的关键点定位请求,所述关键点定位请求至少携带有原始图像信息;
请求响应模块,用于响应所述关键点定位请求,将所述原始图像信息输入至第一定位模型进行原始关键点定位操作,获得原始关键点数据;
矫正矩阵获取模块,用于基于标准关键点数据获取与所述原始关键点数据相对应的矫正矩阵;
矫正图像获取模块,用于基于所述矫正矩阵对所述原始图像信息进行矫正操作,获得中间图像信息;
目标关键点获取模块,用于将所述中间图像信息输入至第二定位模型进行目标关键点定位操作,获得目标关键点数据;
最终关键点获取模块,用于基于所述矫正矩阵对所述目标关键点数据进行复位操作,获得最终关键点数据;
最终关键点输出模块,用于向所述用户终端输出所述最终关键点数据。
8.如权利要求7所述的基于人工智能的人脸图像关键点定位装置,其特征在于,所述最终关键点获取模块包括:
复位矩阵获取子模块,用于获取与所述矫正矩阵相对应的复位矩阵;
复位操作子模块,用于基于所述复位矩阵对所述目标关键点进行所述复位操作,获得所述最终关键点数据。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的基于人工智能的人脸图像关键点定位方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于人工智能的人脸图像关键点定位方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010151332.5A CN111476096A (zh) | 2020-03-06 | 2020-03-06 | 一种人脸图像关键点方法、装置、计算机设备及存储介质 |
PCT/CN2021/071795 WO2021175020A1 (zh) | 2020-03-06 | 2021-01-14 | 一种人脸图像关键点方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010151332.5A CN111476096A (zh) | 2020-03-06 | 2020-03-06 | 一种人脸图像关键点方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111476096A true CN111476096A (zh) | 2020-07-31 |
Family
ID=71747359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010151332.5A Pending CN111476096A (zh) | 2020-03-06 | 2020-03-06 | 一种人脸图像关键点方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111476096A (zh) |
WO (1) | WO2021175020A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883777A (zh) * | 2021-01-04 | 2021-06-01 | 北京地平线信息技术有限公司 | 人脸关键点模板的生成及人脸矫正方法、装置、设备、介质 |
WO2021175020A1 (zh) * | 2020-03-06 | 2021-09-10 | 深圳壹账通智能科技有限公司 | 一种人脸图像关键点方法、装置、计算机设备及存储介质 |
CN114519666A (zh) * | 2022-02-18 | 2022-05-20 | 广州方硅信息技术有限公司 | 直播图像矫正方法、装置、设备及存储介质 |
WO2023098662A1 (zh) * | 2021-11-30 | 2023-06-08 | 维沃移动通信有限公司 | 定位方法及通信设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103824049A (zh) * | 2014-02-17 | 2014-05-28 | 北京旷视科技有限公司 | 一种基于级联神经网络的人脸关键点检测方法 |
CN106295567B (zh) * | 2016-08-10 | 2019-04-12 | 腾讯科技(深圳)有限公司 | 一种关键点的定位方法及终端 |
US20190251675A1 (en) * | 2018-02-09 | 2019-08-15 | Megvii Technology Llc | Image processing method, image processing device and storage medium |
CN109087261B (zh) * | 2018-08-03 | 2020-08-18 | 上海依图网络科技有限公司 | 基于非受限采集场景的人脸矫正方法 |
CN109961055A (zh) * | 2019-03-29 | 2019-07-02 | 广州市百果园信息技术有限公司 | 人脸关键点检测方法、装置、设备及存储介质 |
CN111476096A (zh) * | 2020-03-06 | 2020-07-31 | 深圳壹账通智能科技有限公司 | 一种人脸图像关键点方法、装置、计算机设备及存储介质 |
-
2020
- 2020-03-06 CN CN202010151332.5A patent/CN111476096A/zh active Pending
-
2021
- 2021-01-14 WO PCT/CN2021/071795 patent/WO2021175020A1/zh active Application Filing
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021175020A1 (zh) * | 2020-03-06 | 2021-09-10 | 深圳壹账通智能科技有限公司 | 一种人脸图像关键点方法、装置、计算机设备及存储介质 |
CN112883777A (zh) * | 2021-01-04 | 2021-06-01 | 北京地平线信息技术有限公司 | 人脸关键点模板的生成及人脸矫正方法、装置、设备、介质 |
CN112883777B (zh) * | 2021-01-04 | 2024-03-29 | 北京地平线信息技术有限公司 | 人脸关键点模板的生成及人脸矫正方法、装置、设备、介质 |
WO2023098662A1 (zh) * | 2021-11-30 | 2023-06-08 | 维沃移动通信有限公司 | 定位方法及通信设备 |
CN114519666A (zh) * | 2022-02-18 | 2022-05-20 | 广州方硅信息技术有限公司 | 直播图像矫正方法、装置、设备及存储介质 |
CN114519666B (zh) * | 2022-02-18 | 2023-09-19 | 广州方硅信息技术有限公司 | 直播图像矫正方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021175020A1 (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476096A (zh) | 一种人脸图像关键点方法、装置、计算机设备及存储介质 | |
CN111860398B (zh) | 遥感图像目标检测方法、系统及终端设备 | |
WO2021027692A1 (zh) | 视觉特征库的构建方法、视觉定位方法、装置和存储介质 | |
CN110619334B (zh) | 基于深度学习的人像分割方法、架构及相关装置 | |
CN112016502B (zh) | 安全带检测方法、装置、计算机设备及存储介质 | |
CN114529574A (zh) | 基于图像分割的图像抠图方法、装置、计算机设备及介质 | |
CN114241597A (zh) | 一种姿态识别方法及其相关设备 | |
CN113807361A (zh) | 神经网络、目标检测方法、神经网络训练方法及相关产品 | |
JP2023527615A (ja) | 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム | |
CN112966725A (zh) | 匹配模板图像的方法、装置及终端设备 | |
CN111489293A (zh) | 图像的超分辨率重建方法及装置 | |
CN115937537A (zh) | 一种目标图像的智能识别方法、装置、设备及存储介质 | |
CN116912467A (zh) | 图像拼接方法、装置、设备及存储介质 | |
CN116309274B (zh) | 图像中小目标检测方法、装置、计算机设备及存储介质 | |
CN117036985B (zh) | 一种面向视频卫星图像的小目标检测方法及装置 | |
CN117553808B (zh) | 基于深度学习的机器人定位导航方法、装置、设备及介质 | |
CN113139490B (zh) | 一种图像特征匹配方法、装置、计算机设备及存储介质 | |
CN111353464B (zh) | 一种物体检测模型训练、物体检测方法及装置 | |
CN114283475A (zh) | 视频人脸分割方法、装置、计算机设备及存储介质 | |
CN115035387A (zh) | 网络模型训练方法及其装置 | |
CN117132950A (zh) | 一种车辆追踪方法、系统、设备及存储介质 | |
CN117423161A (zh) | 手势识别方法、装置、设备及存储介质 | |
CN115761755A (zh) | 生成文本检测模型的方法、文本检测方法及装置 | |
CN114897700A (zh) | 图像优化方法、校正模型的训练方法及装置 | |
CN115170451A (zh) | 天空背景的替换方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40034017 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |