CN110197109B - 神经网络模型训练、人脸识别方法、装置、设备及介质 - Google Patents
神经网络模型训练、人脸识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN110197109B CN110197109B CN201810939556.5A CN201810939556A CN110197109B CN 110197109 B CN110197109 B CN 110197109B CN 201810939556 A CN201810939556 A CN 201810939556A CN 110197109 B CN110197109 B CN 110197109B
- Authority
- CN
- China
- Prior art keywords
- data
- point cloud
- cloud data
- preset direction
- projection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 101
- 238000003062 neural network model Methods 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000004590 computer program Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 9
- 230000036544 posture Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 description 17
- 238000011176 pooling Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请公开了一种神经网络模型训练、人脸识别方法、装置、设备及介质,可有效地对待识别人脸进行识别。其中神经网络模型训练方法部分包括:获取人脸对应的点云数据,以及人脸对应的深度图像数据;获取点云数据在第一预设方向上的第一投影数据,并获取点云数据在第二预设方向上的第二投影数据,第一预设方向和第二预设方向为不同的投影方向;将深度图像数据、第一投影数据以及第二投影数据,作为VGG神经网络模型的训练数据;通过由N个人脸对应的训练数据所构成的训练集对VGG神经网络模型进行训练以得到收敛的所述VGG神经网络模型,N大于或等于2。
Description
技术领域
本申请涉及计算机领域,尤其涉及一种神经网络模型训练、人脸识别方法、装置、设备及介质。
背景技术
卷积神经网络(convolutional neural network,CNN)是近年发展起来,并引起广泛重视的一种高效识别方法。现在,CNN已经成为众多科学领域的研究热点之一,尤其是在人脸识别、图像分类识别等领域有着较大的研究前景。VGG(visual geometry group)神经网络为卷积神经网络中的一种,由牛津大学的视觉几何组提出,VGG神经网络对其他数据集具有很好的泛化能力。
然而,VGG神经网络模型中,由于其固有的卷积神经网络架构,可以用来做二维的人脸识别,传统上训练得到的VGG神经网络模型通常为对待识别人脸为二维的人脸图像的R\G\B三个通道的数据作为输入数据,但是它不适合用于待识别人脸为三维的人脸识别,三维人脸是一种三维数据信息,转换成深度图像数据时为单通道图像数据,因此,传统的VGG卷积神经网络模型并不是很适用于三维人脸识别,不能有效地提取对三维人脸进行识别。
发明内容
基于此,有必要针对所述技术问题,提供一种可以有效地对三维人脸进行识别的神经网络模型训练、人脸识别方法、装置、设备及介质。
一种神经网络模型训练方法,包括:
获取人脸对应的点云数据,以及人脸对应的深度图像数据;
获取点云数据在第一预设方向上的第一投影数据,并获取点云数据在第二预设方向上的第二投影数据,第一预设方向和第二预设方向为不同的投影方向;
将深度图像数据、第一投影数据以及第二投影数据,作为VGG神经网络模型的训练数据;
通过由N个人脸对应的训练数据所构成的训练集对VGG神经网络模型进行训练以得到收敛的所述VGG神经网络模型,N大于或等于2。
一种人脸识别方法,包括:
获取待识别人脸的点云数据以及深度图像数据;
获取点云数据在第一预设方向上的第一投影数据,并获取点云数据在第二预设方向上的第二投影数据,第一预设方向和第二预设方向为不同的投影方向;
将深度图像数据、第一投影数据以及第二投影数据,作为VGG神经网络识别模型的输入数据;
将输入数据输入神经网络模型训练方法得到的收敛的VGG神经网络识别模型以对待识别人脸进行识别。
一种神经网络模型训练装置,包括:
第一获取模块,用于获取人脸对应的点云数据,以及人脸对应的深度图像数据;
第二获取模块,用于获取第一获取模块获取的点云数据在第一预设方向上的第一投影数据,并获取第一获取模块在点云数据在第二预设方向上的第二投影数据,第一预设方向和第二预设方向为不同的投影方向;
确定模块,用于将第一获取模块获取的深度图像数据、第二获取模块获取的第一投影数据以及第二投影数据三个通道的数据,作为VGG神经网络模型的训练数据;
训练模块,用于通过由N个人脸对应的确定模块确定的训练数据所构成的训练集对VGG神经网络模型进行训练,N大于或等于2。
一种人脸识别装置,包括:
第一获取模块,用于获取待识别人脸的点云数据以及深度图像数据;
第二获取模块,用于获取第一获取模块获取的点云数据在第一预设方向上的第一投影数据,并获取点云数据在第二预设方向上的第二投影数据,第一预设方向和第二预设方向为不同的投影方向;
确定模块,用于将第一获取模块获取的深度图像数据、第二获取模块获取的第一投影数据以及第二投影数据三个通道的数据作为VGG神经网络识别模型的输入数据;
识别模块,用于将确定模块确定的输入数据输入VGG神经网络识别模型以对待识别人脸进行识别。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述模型训练或人脸识别方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述模型训练或人脸识别方法的步骤。
本申请提供了一种神经网络模型训练、人脸识别方法、装置、设备及介质,由此可见,是将不同人脸的深度图像数据,以及点云数据在不同投影方向的投影数据,共有三个通道的数据所构成的训练数据对VGG神经网络模型进行训练以得到收敛的所述VGG神经网络模型,因此,训练得到的收敛的VGG神经网络模型适用于三维人脸的识别,且由于点云数据对应的投影数据保留有三维人脸的三维特性,因此训练得到的收敛的VGG神经网络模型可有效地三维人脸进行识别。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请中神经网络模型训练方法一应用框架示意图;
图2是本申请中神经网络模型训练方法一实施例流程示意图;
图3是本申请中人脸识别方法一实施例流程示意图;
图4是本申请中神经网络模型训练装置的一实施例结构示意图;
图5是本申请中人脸识别装置的一实施例结构示意图;
图6是本申请中计算机设备一实施例结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供的神经网络模型训练方法,可应用在如图1的应用环境中,其中,计算机设备获取人脸对应的点云数据,以及人脸对应的深度图像数据;获取点云数据在第一预设方向上的第一投影数据,并获取点云数据在第二预设方向上的第二投影数据,第一预设方向和第二预设方向为不同的投影方向;将深度图像数据、第一投影数据以及第二投影数据三个通道的数据,作为VGG神经网络模型的训练数据;将由N张不同人脸对应的训练数据所构成的训练集对VGG神经网络模型进行训练从而得到训练后收敛的VGG神经网络模型,其中,N大于或等于2。由此可见,在本申请中,是将不同人脸的深度图像数据,以及人脸的点云数据在两个不同投影方向的投影数据,共有三个通道的数据所构成的训练数据对VGG神经网络模型进行训练,训练得到收敛的VGG神经网络模型,适用于三维人脸的识别,且由于人脸的点云数据对应的投影方向保留有三维人脸的三维特性,因此可有效地三维人脸进行识别。其中,计算机设备为具有计算处理能力的设备,可以但不限于各种个人计算机、笔记本电脑、服务器等。
在一实施例中,如图2所示,图2为本申请神经网络模型训练方法一实施例流程示意图,包括如下步骤:
S10、获取人脸对应的点云数据,以及该人脸对应的深度图像数据;
在本方案中,可以获取人脸对应点云数据以及该人脸对应的深度图像数据,其中,点云数据是指以点的方式记录人脸的表面离散点的信息,包括人脸的表面离散点的空间位置信息和颜色信息(例如RGB),具体地,上述空间位置信息为人脸的表面离散点的空间坐标。例如,该点云数据具体可以表示为:U={Pi=(xi,yi,zi,ri,gi,bi)|1≤i≤M},其中,M为正整数,M为点云数据U中点的数量,i的初始值为1,U中的第i个点记为Pi,xi、yi和zi是点Pi的空间坐标,ri,gi,bi为点Pi中的颜色信息,也即红、绿、蓝三元色信息。
另外,在本申请中,可以直接通过深度相机(depth camera)获取人脸的对应的点云数据,深度相机指的是一种图像传感器,该图像传感器能够观察到人脸在空间中的位置,具体的,该深度相机可以是主动式、被动式,接触式或非接触式深度相机,其中,主动式是指向人脸发射能量束(如激光、电磁波或超声波等)以获取人脸的点云数据,被动式深度相机主要利用待拍摄对象的周围环境的条件来获取人脸的点云数据,接触式深度相机是指需与人脸接触或比较靠近,非接触式是指不需要与人脸接触。该示例性的,上述深度相机具体可以是指TOF(time-of-flight)深度相机,除此之外,还可以是kinect深度相机,XTion深度相机或RealSense深度相机,具体不做限定。
另外,应理解,深度图像数据(depth image)也被称为距离影像(range image)数据,是指将图像采集器到现实场景中各点的距离(深度)作为像素值的图像数据,它直接反映了人脸可见表面的几何形状。深度图像数据经过坐标转换可以转换为对应的点云数据,相反的,点云数据也可以反算为深度图像数据,因此,在本申请中,在获得了人脸的点云数据后,可以将得到的人脸的点云数据转换为该人脸对应的深度图像数据。当然,在一些应用场景中,可通过深度相机直接获取人脸的深度图像数据和点云数据,也可先获取人脸的深度图像数据或点云数据,再转换为点云数据或深度图像数据,具体不做限定。
S20、获取点云数据在第一预设方向上的第一投影数据,并获取点云数据在第二预设方向上的第二投影数据,第一预设方向和第二预设方向为不同的投影方向;
本申请中,在获取了人脸的点云数据后,可进一步获取人脸的点云数据在第一预设方向上的第一投影数据,以及人脸的点云数据在第二预设方向上的投影数据,并且,第一预设方向和第二预设方向为不同的投影方向。也就是,根据投影方向的不同,可以得到该人脸的点云数据在不同平面上的投影数据。
S30、将深度图像数据、第一投影数据以及第二投影数据,作为VGG神经网络模型的训练数据;
也就是说,经过步骤S10-S30,可得到该人脸的对应的深度图像数据、第一投影数据以及第二投影数据三种数据,在本步骤中,将深度图像数据、第一投影数据以及第二投影数据,作为VGG神经网络模型三个通道的训练数据从而构成VGG神经网络模型的训练数据,也就是得到该人脸对应的一个训练样本。
S40、通过由N张人脸对应的训练数据所构成的训练集对VGG神经网络模型进行训练以得到收敛的所述VGG神经网络模型,N大于或等于2。
也就是说,假设有{1,2,...,N}个人脸,N大于或等于2,每一个人脸都对应有图像数据、第一投影数据以及第二投影数据三种数据,每个人脸对应的上述三种数据构成一个训练样本,将N个人脸对应的训练样本则构成训练样本集,并通过该训练集对VGG神经网络模型进行训练直到该VGG神经网络模型收敛。
由此可见,在本申请中,是将不同人脸的深度图像数据,以及点云数据在不同投影方向的投影数据,共有三个通道的数据所构成的训练数据对VGG神经网络模型进行训练,训练得到VGG神经网络模型,适用于三维人脸的识别,且由于点云数据对应的投影方向保留有三维人脸的三维特性,因此可有效地提取对待识别三维人脸进行识别,能有效地对该三维人脸进行特征提取。
在一实施例中,步骤S20中,获取点云数据在第一预设方向上的第一投影数据,包括:
S21、将点云数据在目标坐标系的方位角方向作为第一预设方向;
S22、点云数据在第一预设方向上进行投影以生成第一投影数据。
也就是说,在本申请中,可以将点云数据在目标坐标系的方位角方向进行投影以得到第一投影数据,从而得到人脸的点云数据在其中一个二维平面上的投影数据。其中,目标坐标系为世界坐标系,是一种三维坐标系,已知点云数据的一个坐标点P,设为目标坐标系第一挂限的一个点P,站在原点(O点)看这个点P,从x轴正方向,沿逆时针旋转到点P的垂直投影线上,旋转所形成的x轴与P点的垂直投影线之间的角度就是方向角。其中,对上述点云数据在上述方位角方向上进行投影以生成第一投影数据,具体包括:获取点云数据在目标坐标系中每一个点的坐标值,对点云数据中的每一个点的坐标值在该目标坐标系对应的倾斜角上进行投影,从而生成点云数据中的每一个点的坐标值在该目标坐标系对应的倾斜角上的投影,该点云数据中在该目标坐标系的每一个点的坐标值在倾斜角方向上的投影构成第一投影数据。
在一实施例中,步骤,S20中,获取点云数据在第二预设方向上的第二投影数据,包括:
S23、将点云数据在目标坐标系的倾斜角方向作为第二预设方向;
S24、对点云数据在第二预设方向上进行投影以生成第二投影数据。
也就是说,在本申请中,可以将点云数据在目标坐标系的倾斜角方向进行投影以得到第一投影数据,从而得到人脸的点云数据在其中一个二维平面上的投影数据。目标坐标系为世界坐标系,是一种三维坐标系,已知点云数据的一个坐标点P,设为目标坐标系第一挂限的一个点P,站在原点(O点)看这个点P,从x轴正方向,沿逆时针旋转到点P的垂直投影线上,旋转所形成的x轴与P点的垂直投影线之间的角度就是方向角,再往高出寻找P点又得到倾斜角,也即P点的垂直投影线与原点与P点之间的直线所形成的角为倾斜角。其中,对上述点云数据在上述倾斜角方向上进行投影以生成第一投影数据,具体包括:获取点云数据在目标坐标系中每一个点的坐标值,对点云数据中的每一个点的坐标值在该目标坐标系对应的倾斜角上进行投影,从而生成点云数据中的每一个点的坐标值在该目标坐标系对应的倾斜角上的投影,该点云数据中在该目标坐标系的每一个点的坐标值在倾斜角方向上的投影构成第一投影数据。
由此可得,本申请提出了一种具体投影方向以获得人脸的点云数据对应的第一投影数据以及第二投影数据,提高了方案的可实施性。
在一实施例中,步骤S40中,所采用的VGG神经网络模型的卷积核大小为7x7。
其中,本申请中的VGG神经网络模型包括输入层、卷积层(convolution)、激活函数、池化层(pooling)、全连接层(fully connected)、以及归一化层(softmax),卷积层的卷积核大小为7x7。本申请中,将人脸的深度图像数据、第一投影数据以及第二投影数据作为VGG神经网络模型的训练数据代入VGG神经网络模型进行训练。其中,该VGG神经网络模型的输入层用于输入人脸的深度图像数据、人脸的点云数据对应的第一投影数据以及第二投影数据这三个通道的数据。其中,将上述训练数据输入上述VGG神经网络模型进行训练之前,该方法还包括:在对上述三个通道的训练数据做预处理,其中该预处理包括:去均值处理,用于把输入数据各个维度都中心化为0;归一化处理:分别将输入数据中三个通道的数据的幅度归一化到同样的范围,从而减少各通道数据取值范围的差异而带来的干扰,例如,我们有两个维度的数据A和B,A范围是0到10,而B范围是0到10000,如果直接使用这两个特征会有问题,好的做法就是归一化处理,即A和B的数据都变为0到1的范围。卷积层用于对上述输入数据进行卷积操作以得到特征图并利用激活函数(如ReLU函数)进行非线性转换,应理解,由于经过卷积层卷积得到的特征图是一种线性映射,线性映射的表达能力不够,因此加入一些非线性的激活函数,整个网络中就引入了非线性部分,增强特征图的表达能力,另外,该激活函数具体还可以是sigmoid或tanh激活函数,具体不做限定。池化层用于对上述特征图进行压缩,一方面使特征图变小,简化VGG神经网络计算复杂度;一方面进行特征压缩,从而提取出输入数据的主要特征;其中,常用的池化层具体可以是max Pooling或Overlapping Pooling,还可以是其他的池化层,例如Spatial Pyramid Pooling等,具体不做限定。全连接层用于连接池化层得到的所有特征,最后输出至归一化层,在将人脸的深度图像数据、第一投影数据以及第二投影数据作为训练数据所构成的训练集进行大量训练后可得到最终的VGG神经网络模型,具体的训练过程不做一一赘述。
在本申请中,该VGG神经网络模型的卷积层中,使用结构为7x7的卷积层模板。应理解,因为深度图像数据相对于二维图像更加平滑,不再适用3x3的卷积核数,如果还采用3x3的卷积核,由于3x3的卷积核,由于卷积核范围较宅,深度图像数据又比较平滑,易丢人脸的深度图像数据,因此在本申请中,可以扩大卷积核的大小,具体地,在本申请中,使用结构为7x7的卷积核,可以有效地减少人脸的深度图像数据的丢失,从而使得训练出来的VGG神经网络模型在对待识别人脸进行识别时更为准确。
在一实施例中,获取人脸的点云数据,包括:
获取人脸不同姿态下的每一帧点云数据;
将不同帧点云数据进行融合匹配,以统一到同一坐标系中的融合点云数据作为人脸的点云数据。
需要说明的是,由于受人脸的大小、环境以及扫描设备具等因素的限制,扫描设备在每次扫描时可能只能测量到人脸的一个侧面。因此,在具体实现上,为获得人脸完整的点云数据,通过扫描设备以不同姿态对人脸行多次扫描。其中,每次扫描可以得到一帧点云数据,将不同帧点云数据进行融合匹配,以统一到同一坐标系中的融合点云数据作为人脸的点云数据。具体的,在一些方案中,将不同帧点云数据进行融合匹配,可以采用以下方式,例如:迭代最近点法((Iterative Closest Point,ICP)、正态分布变换法(NormalDistribution Transformation,NDT)等,具体不做限定。
需要说明的,通过由N张人脸对应的训练数据所构成的训练集对VGG神经网络模型进行训练以得到收敛的所述VGG神经网络模型,其收敛条件可进行配置,例如通过BP(ErrorBack Propagation)算法对上述训练集进行迭代训练直至VGG神经网络模型收敛。
在一实施例中,如图3所示,图3为本申请人脸识别方法一实施例流程示意图,包括如下步骤:
S10`、获取待识别人脸的点云数据以及深度图像数据;
在本申请中,也可以直接通过深度相机获取待识别人脸的点云数据和深度图像数据,其中,深度相机指的是一种图像传感器,该图像传感器能够观察到物体或人物在空间中的位置,具体的,该深度相机可以是主动式、被动式,接触式或非接触式深度相机,其中,主动式是指向待识别人脸发射能量束(如激光、电磁波或超声波等)以获取待识别人脸的点云数据,被动式深度相机主要利用待识别人脸的周围环境的条件来获取待识别人脸的点云数据,接触式深度相机是指需与待识别人脸接触或比较靠近,非接触式是指不需要与待识别人脸接触。该示例性的,上述深度相机具体可以是指TOF(time-of-flight)深度相机,除此之外,还可以是kinect深度相机,XTion深度相机或RealSense深度相机,具体不做限定。
在本申请中,在获得了待识别人脸的点云数据后,可以将得到的待识别人脸的点云数据转换为该待识别人脸对应的深度图像数据。简单点说,在一些应用场景中,可通过深度相机直接获取待识别人脸的深度图像数据和点云数据,也可先获取待识别人脸的深度图像数据或点云数据,再转换为点云数据或深度图像数据,具体不做限定。
S20`、获取点云数据在第一预设方向上的第一投影数据,并获取点云数据在第二预设方向上的第二投影数据,第一预设方向和第二预设方向为不同的投影方向;
本申请中,在获取了待识别人脸的点云数据后,可进一步获取待识别人脸的点云数据在第一预设方向上的第一投影数据,以及待识别人脸的点云数据在第二预设方向上的投影数据,并且,第一预设方向和第二预设方向为不同的投影方向。在一些应用场景中,上述第一预设方向为待识别人脸的点云数据在目标坐标系的方位方向,第二预设方向为待识别人脸的点云数据在目标坐标系的倾斜角方向。目标坐标系为世界坐标系,是一种三维坐标系,已知待识别人脸的点云数据的一个坐标点P,设为目标坐标系第一挂限的一个点P,站在原点(O点)看这个点P,从x轴正方向,沿逆时针旋转到点P的垂直投影线上,旋转所形成的x轴与P点的垂直投影线之间的角度就是方向角,再往高出寻找P点又得到倾斜角,也即P点的垂直投影线与原点与P点之间的直线所形成的角为倾斜角。其中,对上述点云数据在上述倾斜角方向上进行投影以生成第一投影数据,具体包括:获取待识别人脸的点云数据在目标坐标系中每一个点的坐标值,对待识别人脸的点云数据中的每一个点的坐标值在该目标坐标系对应的倾斜角上进行投影,从而生成待识别人脸的点云数据中的每一个点的坐标值在该目标坐标系对应的倾斜角上的投影,该待识别人脸的点云数据中在该目标坐标系的每一个点的坐标值在倾斜角方向上的投影构成第一投影数据。
S30`、将深度图像数据、第一投影数据以及第二投影数据,作为VGG神经网络识别模型的输入数据;
S40`、将输入数据输入VGG神经网络识别模型以对待识别人脸进行识别。
应理解,VGG神经网络识别模型是一种深度卷积神经网络架构,本申请的VGG神经网络识别模型是指前述模型训练方法中所得到的VGG神经网络模型。通过将待识别人脸对应的深度图像数据、第一投影数据以及第二投影数据输入VGG神经网络模型,从而完成对待识别人脸的识别。
由此可见,在该人脸识别方法中,是将待识别人脸的深度图像数据,以及点云数据在不同投影方向的投影数据,共有三个通道的数据输入训练后的到VGG神经网络模型,由于VGG神经网络模型适用于三维人脸的识别,且由于点云数据对应的投影方向保留有三维人脸的三维特性,因此可有效地提取对待识别三维人脸进行识别,能有效地对该三维人脸进行特征提取。
应理解,所述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在一实施例中,提供一种神经网络模型训练装置,神经网络模型训练装置与实施例中模型训练方法一一对应。如图4所示,该神经网络模型训练装置40包括第一获取模块401、第二获取模块402、确定模块403和训练模块404。各功能模块详细说明如下:
第一获取模块401,用于获取人脸对应的点云数据,以及人脸对应的深度图像数据;
第二获取模块402,用于获取第一获取模块401获取的点云数据在第一预设方向上的第一投影数据,并获取第一获取模块401在点云数据在第二预设方向上的第二投影数据,第一预设方向和第二预设方向为不同的投影方向;
确定模块403,用于将第一获取模块402获取的深度图像数据、第二获取模块获取的第一投影数据以及第二投影数据,作为VGG神经网络模型的训练数据;
训练模块404,用于通过由N个人脸对应的确定模块403确定的训练数据所构成的训练集对VGG神经网络模型进行训练以得到收敛的所述VGG神经网络模型,N大于或等于2。
在一些实施例中,第二获取模块402具体用于:
将点云数据在目标坐标系的方位角方向作为第一预设方向;
对点云数据在第一预设方向上进行投影以生成第一投影数据。
在一些实施例中,第二获取模块402具体用于:
将点云数据在目标坐标系的倾斜角方向作为第二预设方向;
对点云数据在第二预设方向上进行投影以生成第二投影数据。
在一实施例中,VGG神经网络模型的卷积核大小为7x7。
在一实施例中,第一获取模块401具体用于:
获取人脸在不同姿态下的每一帧点云数据;
将每一帧点云数据进行融合匹配,以统一到同一坐标系中的融合点云数据作为人脸的点云数据。
关于神经网络模型训练装置的具体限定可以参见上文中对于模型训练方法的限定,在此不再赘述。模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一实施例中,提供一种人脸识别装置,人脸识别装置与实施例中人脸识别方法一一对应。如图5所示,人脸识别装置50包括第一获取模块501、第二获取模块502、确定模块503和识别模块504。各功能模块详细说明如下:
第一获取模块501,用于获取待识别人脸的点云数据以及深度图像数据;
第二获取模块502,用于获取第一获取模块501获取的点云数据在第一预设方向上的第一投影数据,并获取第一获取模块501获取的点云数据在第二预设方向上的第二投影数据,第一预设方向和第二预设方向为不同的投影方向;
确定模块503,用于将第一获取模块501获取的深度图像数据、第二获取模块502获取的第一投影数据以及第二投影数据,作为VGG神经网络识别模型的输入数据;
识别模块504,用于将确定模块503确定的输入数据输入VGG神经网络识别模型以对待识别人脸进行识别。
关于人脸识别装置的具体限定可以参见上文中对于人脸识别方法的限定,在此不再赘述。人脸识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,其内部结构图可以如图6所示。所述计算机设备包括通过系统总线连接的处理器、存储器和数据库。其中,所述计算机设备的处理器用于提供计算和控制能力。所述计算机设备的存储器包括非易失性存储介质、内存储器。所述非易失性存储介质存储有操作系统、计算机程序和数据库。所述内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。所述计算机设备的数据库用于存储所获取的图像数据。所述计算机设备的网络接口用于与外部的终端通过网络连接通信。所述计算机程序被处理器执行时以实现一种模型训练方法或人脸识别方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取人脸对应的点云数据,以及人脸对应的深度图像数据;
获取点云数据在第一预设方向上的第一投影数据,并获取点云数据在第二预设方向上的第二投影数据,第一预设方向和第二预设方向为不同的投影方向;
将深度图像数据、第一投影数据以及第二投影数据,作为VGG神经网络模型的训练数据;
通过由N个人脸对应的训练数据所构成的训练集对VGG神经网络模型进行训练以得到收敛的所述VGG神经网络模型,N大于或等于2。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取待识别人脸的点云数据以及深度图像数据;
获取点云数据在第一预设方向上的第一投影数据,并获取点云数据在第二预设方向上的第二投影数据,第一预设方向和第二预设方向为不同的投影方向;
将深度图像数据、第一投影数据以及第二投影数据,作为VGG神经网络识别模型的输入数据;
将输入数据输入VGG神经网络识别模型以对待识别人脸进行识别。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取人脸对应的点云数据,以及人脸对应的深度图像数据;
获取点云数据在第一预设方向上的第一投影数据,并获取点云数据在第二预设方向上的第二投影数据,第一预设方向和第二预设方向为不同的投影方向;
将深度图像数据、第一投影数据以及第二投影数据,作为VGG神经网络模型的训练数据;
通过由N个人脸对应的训练数据所构成的训练集对VGG神经网络模型进行训练,N大于或等于2。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待识别人脸的点云数据以及深度图像数据;
获取点云数据在第一预设方向上的第一投影数据,并获取点云数据在第二预设方向上的第二投影数据,第一预设方向和第二预设方向为不同的投影方向;
将深度图像数据、第一投影数据以及第二投影数据,作为VGG神经网络识别模型的输入数据;
将输入数据输入VGG神经网络识别模型以对待识别人脸进行识别。
本领域普通技术人员可以理解实现所述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,所述计算机程序在执行时,可包括如所述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以所述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将所述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (7)
1.一种神经网络模型训练方法,其特征在于,包括:
获取人脸对应的点云数据,以及所述人脸对应的深度图像数据;
获取所述点云数据在第一预设方向上的第一投影数据,并获取所述点云数据在第二预设方向上的第二投影数据,所述第一预设方向和所述第二预设方向为不同的投影方向;
将所述深度图像数据、第一投影数据以及第二投影数据,作为VGG神经网络模型的训练数据;
通过由N个所述人脸对应的所述训练数据所构成的训练集对所述VGG神经网络模型进行训练以得到收敛的所述VGG神经网络模型,所述N大于或等于2;
其中,所述获取所述点云数据在第一预设方向上的第一投影数据,包括:
将所述点云数据在目标坐标系的方位角方向作为第一预设方向;
对所述点云数据在所述第一预设方向上进行投影以生成所述第一投影数据;
所述获取所述点云数据在第二预设方向上的第二投影数据,包括:
将所述点云数据在目标坐标系的倾斜角方向作为所述第二预设方向;
对所述点云数据在所述第二预设方向上进行投影以生成第二投影数据;
所述获取人脸的点云数据,包括:
获取所述人脸在不同姿态下的每一帧点云数据;
将所述每一帧点云数据进行融合匹配,以统一到同一坐标系中的融合点云数据作为所述人脸的点云数据。
2.如权利要求1所述的神经网络模型训练方法,其特征在于,所述VGG神经网络模型的卷积核大小为7x7。
3.一种人脸识别方法,其特征在于,包括:
获取待识别人脸的点云数据以及深度图像数据;
获取所述点云数据在第一预设方向上的第一投影数据,并获取所述点云数据在第二预设方向上的第二投影数据,所述第一预设方向和所述第二预设方向为不同的投影方向;
将所述深度图像数据、所述第一投影数据以及所述第二投影数据作为输入数据;
将所述输入数据输入如权利要求1-2任一项所述的收敛的所述VGG神经网络模型以对所述待识别人脸进行识别。
4.一种神经网络模型训练装置,其特征在于,包括:
第一获取模块,用于获取人脸对应的点云数据,以及所述人脸对应的深度图像数据;
第二获取模块,用于获取所述第一获取模块获取的所述点云数据在第一预设方向上的第一投影数据,并获取所述第一获取模块在所述点云数据在第二预设方向上的第二投影数据,所述第一预设方向和所述第二预设方向为不同的投影方向;
确定模块,用于将所述第一获取模块获取的所述深度图像数据、所述第二获取模块获取的所述第一投影数据以及第二投影数据,作为VGG神经网络模型的训练数据;
训练模块,用于通过由N个所述人脸对应的所述确定模块确定的所述训练数据所构成的训练集对所述VGG神经网络模型进行训练以得到收敛的所述VGG神经网络模型,所述N大于或等于2;
其中,所述获取所述点云数据在第一预设方向上的第一投影数据,包括:
将所述点云数据在目标坐标系的方位角方向作为第一预设方向;
对所述点云数据在所述第一预设方向上进行投影以生成所述第一投影数据;
所述获取所述点云数据在第二预设方向上的第二投影数据,包括:
将所述点云数据在目标坐标系的倾斜角方向作为所述第二预设方向;
对所述点云数据在所述第二预设方向上进行投影以生成第二投影数据;
所述获取人脸的点云数据,包括:
获取所述人脸在不同姿态下的每一帧点云数据;
将所述每一帧点云数据进行融合匹配,以统一到同一坐标系中的融合点云数据作为所述人脸的点云数据。
5.一种人脸识别装置,其特征在于,包括:
第一获取模块,用于获取待识别人脸的点云数据以及深度图像数据;
第二获取模块,用于获取所述第一获取模块获取的所述点云数据在第一预设方向上的第一投影数据,并获取所述点云数据在第二预设方向上的第二投影数据,所述第一预设方向和所述第二预设方向为不同的投影方向;
确定模块,用于将所述第一获取模块获取的所述深度图像数据、所述第二获取模块获取的所述第一投影数据以及所述第二投影数据,作为VGG神经网络模型的输入数据;
识别模块,用于将所述确定模块确定的所述输入数据输入如权利要求1-2任一项所述的收敛的所述VGG神经网络模型以对所述待识别人脸进行识别。
6.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述方法所实现的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述方法所实现的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810939556.5A CN110197109B (zh) | 2018-08-17 | 2018-08-17 | 神经网络模型训练、人脸识别方法、装置、设备及介质 |
PCT/CN2018/123884 WO2020034542A1 (zh) | 2018-08-17 | 2018-12-26 | 神经网络模型训练、人脸识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810939556.5A CN110197109B (zh) | 2018-08-17 | 2018-08-17 | 神经网络模型训练、人脸识别方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110197109A CN110197109A (zh) | 2019-09-03 |
CN110197109B true CN110197109B (zh) | 2023-11-24 |
Family
ID=67751408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810939556.5A Active CN110197109B (zh) | 2018-08-17 | 2018-08-17 | 神经网络模型训练、人脸识别方法、装置、设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110197109B (zh) |
WO (1) | WO2020034542A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079700B (zh) * | 2019-12-30 | 2023-04-07 | 陕西西图数联科技有限公司 | 一种基于多种数据类型融合的三维人脸识别方法 |
CN111462108B (zh) * | 2020-04-13 | 2023-05-02 | 山西新华防化装备研究院有限公司 | 一种基于机器学习的头面部产品设计工效学评估操作方法 |
CN111695497B (zh) * | 2020-06-10 | 2024-04-09 | 上海有个机器人有限公司 | 基于运动信息的行人识别方法、介质、终端和装置 |
CN112149635A (zh) * | 2020-10-23 | 2020-12-29 | 北京百度网讯科技有限公司 | 跨模态人脸识别模型训练方法、装置、设备以及存储介质 |
CN112435331A (zh) * | 2020-12-07 | 2021-03-02 | 上海眼控科技股份有限公司 | 模型训练方法、点云生成方法、装置、设备及存储介质 |
CN112560669B (zh) * | 2020-12-14 | 2024-07-26 | 杭州趣链科技有限公司 | 人脸姿态估计方法、装置及电子设备 |
WO2022266916A1 (zh) * | 2021-06-24 | 2022-12-29 | 周宇 | 瞬时可调电磁悬挂装置 |
CN113793295A (zh) * | 2021-08-05 | 2021-12-14 | 西人马帝言(北京)科技有限公司 | 一种数据处理方法、装置、设备及可读存储介质 |
CN113610172B (zh) * | 2021-08-13 | 2023-08-18 | 北京地平线信息技术有限公司 | 神经网络模型训练方法和装置、传感数据融合方法和装置 |
CN113902786B (zh) * | 2021-09-23 | 2022-05-27 | 珠海视熙科技有限公司 | 一种深度图像的预处理方法、系统及相关装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392944A (zh) * | 2017-08-07 | 2017-11-24 | 广东电网有限责任公司机巡作业中心 | 全景影像与点云的配准方法及装置 |
US9846232B1 (en) * | 2012-01-05 | 2017-12-19 | Teledyne Reson A/S | Use of multi-beam sonar systems to generate point cloud data and models; data registration in underwater metrology applications |
CN107944435A (zh) * | 2017-12-27 | 2018-04-20 | 广州图语信息科技有限公司 | 一种三维人脸识别方法、装置及处理终端 |
CN108038474A (zh) * | 2017-12-28 | 2018-05-15 | 深圳云天励飞技术有限公司 | 人脸检测方法、卷积神经网络参数的训练方法、装置及介质 |
WO2018102717A1 (en) * | 2016-12-02 | 2018-06-07 | Google Llc | Determining structure and motion in images using neural networks |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104091162B (zh) * | 2014-07-17 | 2017-06-23 | 东南大学 | 基于特征点的三维人脸识别方法 |
CN107423678A (zh) * | 2017-05-27 | 2017-12-01 | 电子科技大学 | 一种提取特征的卷积神经网络的训练方法及人脸识别方法 |
CN107844760A (zh) * | 2017-10-24 | 2018-03-27 | 西安交通大学 | 基于曲面法向分量图神经网络表示的三维人脸识别方法 |
CN107944367B (zh) * | 2017-11-16 | 2021-06-01 | 北京小米移动软件有限公司 | 人脸关键点检测方法及装置 |
-
2018
- 2018-08-17 CN CN201810939556.5A patent/CN110197109B/zh active Active
- 2018-12-26 WO PCT/CN2018/123884 patent/WO2020034542A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9846232B1 (en) * | 2012-01-05 | 2017-12-19 | Teledyne Reson A/S | Use of multi-beam sonar systems to generate point cloud data and models; data registration in underwater metrology applications |
WO2018102717A1 (en) * | 2016-12-02 | 2018-06-07 | Google Llc | Determining structure and motion in images using neural networks |
CN107392944A (zh) * | 2017-08-07 | 2017-11-24 | 广东电网有限责任公司机巡作业中心 | 全景影像与点云的配准方法及装置 |
CN107944435A (zh) * | 2017-12-27 | 2018-04-20 | 广州图语信息科技有限公司 | 一种三维人脸识别方法、装置及处理终端 |
CN108038474A (zh) * | 2017-12-28 | 2018-05-15 | 深圳云天励飞技术有限公司 | 人脸检测方法、卷积神经网络参数的训练方法、装置及介质 |
Non-Patent Citations (1)
Title |
---|
基于深度卷积神经网络的物体识别算法;黄斌 等;计算机应用;第36卷(第12期);第3333-3346页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2020034542A1 (zh) | 2020-02-20 |
CN110197109A (zh) | 2019-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110197109B (zh) | 神经网络模型训练、人脸识别方法、装置、设备及介质 | |
CN111797650B (zh) | 障碍物的识别方法、装置、计算机设备和存储介质 | |
CN109683699B (zh) | 基于深度学习实现增强现实的方法、装置及移动终端 | |
CN113643378B (zh) | 多相机环境中主动式刚体的位姿定位方法及相关设备 | |
CN109816730B (zh) | 工件抓取方法、装置、计算机设备和存储介质 | |
CN110458112B (zh) | 车辆检测方法、装置、计算机设备和可读存储介质 | |
CN111476709B (zh) | 人脸图像处理方法、装置及电子设备 | |
CN108986161A (zh) | 一种三维空间坐标估计方法、装置、终端和存储介质 | |
US20150009214A1 (en) | Real-time 3d computer vision processing engine for object recognition, reconstruction, and analysis | |
CN111091075B (zh) | 人脸识别方法、装置、电子设备及存储介质 | |
WO2021134285A1 (zh) | 图像跟踪处理方法、装置、计算机设备和存储介质 | |
CN113392584B (zh) | 基于深度强化学习和方向估计的视觉导航方法 | |
CN110728215A (zh) | 基于红外图像的人脸活体检测方法、装置 | |
CN110738730B (zh) | 点云匹配方法、装置、计算机设备和存储介质 | |
CN112414403A (zh) | 一种机器人的定位定姿方法、设备及存储介质 | |
JP2021174554A (ja) | 画像深度確定方法及び生き物認識方法、回路、装置、記憶媒体 | |
Raza et al. | Artificial intelligence based camera calibration | |
CN114677588A (zh) | 障碍物检测的方法、装置、机器人和存储介质 | |
Li et al. | FC-SLAM: Federated learning enhanced distributed visual-LiDAR SLAM in cloud robotic system | |
KR20170100718A (ko) | 점군 정합 장치 및 방법 | |
Ginzburg et al. | Deep weighted consensus dense correspondence confidence maps for 3D shape registration | |
CN112634152B (zh) | 基于图像深度信息的人脸样本数据增强方法及系统 | |
CN111915676B (zh) | 图像生成方法、装置、计算机设备和存储介质 | |
Nguyen et al. | Focustune: Tuning visual localization through focus-guided sampling | |
CN112991429B (zh) | 箱体体积测量方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |