CN110069985A

CN110069985A - 基于图像的目标点位置检测方法、装置、电子设备

Info

Publication number: CN110069985A
Application number: CN201910185907.2A
Authority: CN
Inventors: 柴振华; 赖申其
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2019-07-30
Anticipated expiration: 2039-03-12
Also published as: CN110069985B

Abstract

本申请公开了一种基于图像的目标点位置检测方法，属于计算机技术领域，用于目标点位置检测性能低下的问题。本申请实施例中公开的点位置检测方法包括：获取标注有真实目标点位置的若干图像样本；通过所述神经网络模型的损失函数根据变量计算所述神经网络模型的损失值，并以所述损失值最小为目标调整所述神经网络模型的参数，训练所述神经网络模型；其中，所述损失函数被配置为相对于变量的绝对值单调递增，所述损失函数对应的梯度函数为单调递减函数且所述梯度函数的值大于1并在所述变量趋近于无穷大时逐渐趋近于1；所述变量用于表示真实值和预测值之间的差值，所述真实值基于样本标签确定，所述预测值通过所述神经网络模型预测得到。

Description

基于图像的目标点位置检测方法、装置、电子设备

技术领域

本申请涉及图像识别和检测技术领域，特别是涉及一种基于图像的目标点位置检测方法、装置、电子设备及存储介质。

背景技术

基于图像的目标点位置检测具有广泛的应用，如基于人脸图像的人脸关键点检测，基于视频图像的行人检测。以人脸检测为例，人脸检测是人脸识别、人脸美妆、人脸贴图等产品的核心技术。基于人脸图像中检测到的人脸关键点，可以开发出很多应用。随着人们对深度学习研究的不断深入，通过深度学习方法进行基于图像的目标点位置检测的研究不断展开，并取得了一定效果。通常的目标点位置检测任务是回归任务，由神经网络模型的损失函数基于欧式距离进行误差的前向和后向传播。然而，基于欧式距离的损失函数，有一个众所周知的缺点，那就是对“离群点”敏感，即当某个点的预测值与真实值误差较大时，整个loss(损失值)将由这个点所“主导”。为了避免预测值与真实值误差较大时，网络模型的损失函数的函数值过大，现有技术中出现了一种人脸关键点检测方法，通过采用Wing loss损失函数，在进行网络模型优化过程中，针对误差更小处给予更大梯度，而误差较大处梯度为适中，取得了更好的结果。

然而，由于Wing loss的目标函数是分段函数，在代码实现的时候对forward(前向传播)和backward(后向传播)两个过程需要分别进行处理，实现比较复杂。并且，有两个超参数需要调节，且不同场景下两个超参数的最优值差异很大，导致模型的训练过程复杂，训练效率低下，并且模型的准确度较低。

可见，现有技术中的目标点位置检测方法至少存在性能低下的缺陷。

发明内容

本申请实施例提供一种基于图像的目标点位置检测方法，有助于改善目标点位置检测性能低下的问题。

为了解决上述问题，第一方面，本申请实施例提供了一种基于图像目标点位置检测方法，包括：

获取标注有真实目标点位置的若干图像样本；

通过所述神经网络模型的损失函数根据变量计算所述神经网络模型的损失值，并以所述损失值最小为目标调整所述神经网络模型的参数，训练所述神经网络模型；其中，所述损失函数被配置为相对于变量的绝对值单调递增，所述损失函数对应的梯度函数为单调递减函数且所述梯度函数的值大于1并在所述变量趋近于无穷大时逐渐趋近于1；所述变量用于表示真实值和预测值之间的差值，所述真实值基于标注的所述真实目标点位置确定，所述预测值通过所述神经网络模型对所述各所述图像样本进行预测得到；

通过训练得到的所述神经网络模型，对输入的图像进行目标点位置检测。

第二方面，本申请实施例提供了一种基于图像的目标点位置检测装置，包括：

图像样本获取模块，用于获取标注有真实目标点位置的若干图像样本；

模型训练模块，用于通过所述神经网络模型的损失函数根据变量计算所述神经网络模型的损失值，并以所述损失值最小为目标调整所述神经网络模型的参数，训练所述神经网络模型；其中，所述损失函数为相对于变量的绝对值单调递增，所述损失函数对应的梯度函数被配置为单调递减函数且所述梯度函数的值大于1并在所述变量趋近于无穷大时逐渐趋近于1；所述变量用于表示真实值和预测值之间的差值，所述真实值基于标注的所述真实目标点位置确定，所述预测值通过所述神经网络模型对所述各所述图像样本进行预测得到；

目标点位置检测模块，用于通过训练得到的所述神经网络模型，对输入的图像进行目标点位置检测。

第三方面，本申请实施例还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例所述的基于图像的目标点位置检测方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时本申请实施例公开的基于图像的目标点位置检测方法的步骤。

本申请实施例公开的基于图像的目标点位置检测方法，通过获取标注有真实目标点位置的若干图像样本；并通过所述神经网络模型的损失函数根据变量计算所述神经网络模型的损失值，并以所述损失值最小为目标调整所述神经网络模型的参数，训练所述神经网络模型；其中，所述损失函数被配置为相对于变量的绝对值单调递增，所述损失函数对应的梯度函数为单调递减函数且所述梯度函数的值大于1并在所述变量趋近于无穷大时逐渐趋近于1；所述变量用于表示真实值和预测值之间的差值，所述真实值基于标注的所述真实目标点位置确定，所述预测值通过所述神经网络模型对所述各所述图像样本进行预测得到；之后，通过训练得到的所述神经网络模型，对输入的图像进行目标点位置检测，有助于提升目标位置点检测的性能。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一的基于图像的目标点位置检测方法流程图；

图2是本申请实施例中采用的损失函数和现有技术中Wi ng l oss损失函数的分布曲线对比示意图；

图3是本申请实施例中一阶段训练得到的神经网络模型的目标点位置检测结果示意图；

图4是目标点分组示意图；

图5是本申请实施例二的基于图像的目标点位置检测装置的结构示意图之一；

图6是本申请实施例二的基于图像的目标点位置检测装置的结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开的基于图像的目标点检测方法是基于现有技术中基于WingLoss损失函数的深度神经网络模型进行人脸关键点检测的方法的改进，本申请实施例中改进后的关键点检测方法不仅适用于基于静态图像的人脸关键点检测应用场景，还适用于动态图像(如视频图像)中的行人跟踪应用场景。在行人跟踪应用场景中，可以通过检测和定位人头部区域或人体其他区域的关键点实现行人跟踪。本申请实施例中公开的目标点位置检测方法不仅适用于检测人脸关键点、人体区域关键点，还适用于其他目标物的目标点检测的应用场景。为了便于读者理解本申请的技术方案，本申请以下实施例中，结合人脸关键点检测的具体应用场景对本申请的技术方案进行详细说明。

实施例一

本实施例公开的一种基于图像的目标点位置检测方法，如图1所示，该方法包括：步骤110至步骤130。

步骤110，获取标注有真实目标点位置的若干图像样本。

在通过神经网络模型进行目标点位置检测之前，首先需要构建训练样本，以训练神经网络模型。本申请实施例中以人脸关键点检测为例说明基于图像的目标点位置检测方法的具体实施方案，因此，需要基于人脸图像构建神经网络模型的训练样本。即所述获取标注有真实目标点位置的若干图像样本的步骤，包括：获取标注有真实人脸关键点位置的若干图像样本。

在本申请的一些实施例中，可以选择归一化后的人脸图像，并手动标注每幅人脸图像中人脸关键点位置，然后，以标注有人脸关键点位置的人脸图像作为神经网络模型的训练样本。

在本申请的另一些实施例中，还可以选择公开人脸数据集构建训练样本。如选择数据集CelebA或数据集AFLW中的人脸图像和人脸关键点标准信息构建训练样本，即公开数据集中的每幅人脸图像和该幅人脸图像的人脸关键点标准信息组成一条图像样本。

本申请实施例中的种类根据实际需要确定该，例如可以为68个点、83个点或者更多。本申请实施例中目标点位置分布在具有区分性的不同位置，以目标点位置为人脸关键点位置举例，目标点位置可以分布在面部轮廓、眉毛、眼睛、鼻子和嘴巴等人脸部位。

步骤120，通过所述神经网络模型的损失函数根据变量计算所述神经网络模型的损失值，并以所述损失值最小为目标调整所述神经网络模型的参数，训练所述神经网络模型。

其中，所述损失函数被配置为相对于变量的绝对值单调递增，所述损失函数对应的梯度函数为单调递减函数且所述梯度函数的值大于1并在所述变量趋近于无穷大时逐渐趋近于1；所述变量用于表示真实值和预测值之间的差值，所述真实值基于标注的所述真实目标点位置确定，所述预测值通过所述神经网络模型对所述各所述图像样本进行预测得到。

本申请实施例中的神经网络模型可以为残差网络或者卷积神经网络。优选的，本申请实施例中的神经网络模型采用瘦残差网络，所述神经网络模型的卷积层采用N×N的滤波器，其中，N为大于2且小于6的整数。在本申请的一些实施例中，可以对现有技术中的残差网络每层的通道个数进行删减，如将第一层的7x7的卷积用三个3x3的卷积进行替换，所有的下采样均采用Max pooling且网络的深度要深于现有技术中的残差网络，减少模型参数的数量，适当增加网络结构的深度，在保证网络的运算准确度同时减少网络体积和训练的复杂度。所述神经网络模型由主干网络和以主干网络的输出作为输入的并行连接的第一分支网络和第二分支网络，其中，主干网络包括依次连接的：3个卷积层，每个卷积层由32个3×3的滤波器组成；1个最大池化层，由32个2×2步长为2的滤波器组成；1个残差结构，该残差结构包括2个由48个3×3的滤波器组成的卷积层和1个输出为32×32的残差层；1个最大池化层，由48个2×2步长为2的滤波器组成，输出为16×16的特征向量；1个残差结构，该残差结构包括2个由64个3×3的滤波器组成的卷积层和1个输出为16×16的残差层；1个最大池化层，由64个2×2步长为2的滤波器组成，输出为8×8的特征向量；1个残差结构，该残差结构包括2个由80个3×3的滤波器组成的卷积层和1个输出为8×8的残差层；1个最大池化层，由80个2×2步长为2的滤波器组成，输出为4×4的特征向量；1个残差结构，该残差结构包括2个由96个3×3的滤波器组成的卷积层和1个输出为4×4的残差层；一个平均池化层，输出为1×1的特征向量；1个全连接层，输出为96维的特征向量。第一分支网络和第二分支网络为全连接层，用于根据训练得到的回归系数对主干网络的输出进行计算，最后输出预测结果。

本申请实施例中所述神经网络模型采用的瘦残差网络的大小4MB，相比现有技术中采用Wing loss损失函数的神经网络模型占用的空间减少了很多。现有技术中采用Wingloss损失函数的神经网络模型如果采用单模型，其占用的空间比本申请大14MB；若现有技术中采用Wing loss损失函数的神经网络模型采用级联网络，其占用的空间比本申请大40MB。

本申请实施例中所述神经网络模型采用的瘦残差网络在保持性能不变的前提下，有效减少了模型体积，更适用于在移动终端等设备上应用，并且适用于人脸关键点检测应用。在本申请的其他实施例中，所述神经网络模型还可以采用其他网络机构，本实施例中仅以适用于移动终端的人脸关键点检测应用的网络结构举例说明采用的以下损失函数的模型训练过程和带来的有益效果，对于其他可用的网络结构，本申请实施例中不再一一例举。

在本申请的一些实施例中，所述损失函数为对称函数，且在单侧变量值大于0时，所述损失函数单调递增且所述损失函数对应的梯度函数为单调递减函数，且在变量值较小时输出的损失值为一个大于1的值，在变量值较大时损失值逐渐接近于1。例如，所述损失函数表示为：其中，α是超参数，用于控制损失函数的变化快慢；x是变量，表示预测值和真实值之间的差值。

其中，梯度函数的变量为损失函数的变量，梯度函数的函数值为损失函数的导数，当变量趋向于无穷大时，梯度函数的函数值趋近于1。梯度函数用于在模型训练的过程中，通过梯度下降算法更新模型的参数。

可见，本申请实施中所采用的损失函数只有一个超参数，且不需要分段，由图2中的函数曲线可以看出，通过调节超参数α的值，损失函数LE的分布曲线可以逼近Wing loss的形状。并且，经过在不同数据集上进行测试，损失函数中超参数α的最优值都在2.5左右，相比Wing loss也更为稳定。Wing loss则在不同数据集上的最优质差异很大，而本申请实施例中采用的损失函数是本方法唯一的超参数，这个超参数是在模型训练之前设置好的，最优参数值一致表示该检测方法在不同的数据集和测试场景下都具有良好的泛化能力。另外，神经网络模型的参数数量对模型训练的复杂度和占用的计算机资源影响非常大。如果神经网络模型只有1个超参数，设置的参数取值有5种，则需要训练5个模型来确定参数最优值。如果超参数的个数为2(例如Wing loss)，假设取值分别也有5种，则需要训练25个模型来确定参数最优值，可见采用本申请实施例中的损失函数的神经网络模型训练复杂度呈指数次下降，模型训练过程占用的计算机资源也呈指数次下降。

在本申请的另一些实施例中，所述损失函数还可以表示为：其中，x表示输入至所述神经网络模型的图像中目标点位置的预测值和真实值之间的差值。在本申请的其他实施例中，所述损失函数还可以被配置为相对于变量的绝对值单调递增的其他形式的函数，本申请实施例中不再一一例举，前述对数函数为本申请损失函数的一个优选实施例，不应作为对本申请的限定。

在本申请的一些实施例中，所述预测值为在输入至所述神经网络模型的图像中目标点位置的预测值，所述真实值为输入至所述神经网络模型的图像中标注的目标点位置，x表示输入至所述神经网络模型的图像中目标点位置的预测值和真实值之间的差值。具体实施时，以训练人脸关键点位置检测模型为例，所述真实值为图像样本中标注的人脸关键点位置，所述预测值为所述神经网络模型预测得到的输入至所述神经网络模型的图像中人脸关键点位置，x表示标注的人脸关键点位置与人脸关键点位置预测值之间的差值，即x表示所述图像样本的真实值和预测值的差值。

在本申请的一些优选实施例中，所述神经网络模型训练过程包括两个阶段：一阶段训练，为全部目标点的粗训练阶段；二阶段训练，为局部目标点的精细回归训练阶段。在所述神经网络模型训练的不同阶段，所述预测值和真实值表示不同的含义。下面结合所述神经网络模型训练过程，详细说明所述预测值和真实值表示的不同含义。基于全部目标点进行粗训练得到的神经网络模型可以直接用于对图像进行目标点位置检测，但是，对于一些目标点较多且分布位置关系复杂、要求识别精度较高的应用场景，如人脸关键点位置检测，需要进一步提升所述神经网络模型的检测准确度，因此，本申请的一些实施例中还公开了一种局部精细回归的网络优化方式。

所述神经网络模型的最后一层全连接层包括第一分支网络和第二分支网络，所述第一分支网络和第二分支网络共用主干网络。具体实施时，首先训练主干网络和第一分支网络，然后训练第二分支网络，在训练第二分支网络的过程中，将主干网络和第二分支网络作为一个模型整体进行训练，但是保持主干网络的参数不变，仅训练第二分支网络的参数。所述训练所述神经网络模型的步骤，包括：以所述图像样本的真实目标点位置作为真实值，通过由所述神经网络模型的损失函数根据变量计算所述神经网络模型的第一损失值，并以所述第一损失值最小为目标调整所述神经网络模型的参数，对所述神经网络模型的主干网络和第一分支网络的各层参数进行一阶段训练；对目标点位置进行分组；对于每组目标点位置，分别执行以下操作：以各所述图像样本的预测误差作为真实值对相应图像样本进行标注，通过由所述神经网络模型的损失函数根据变量计算所述神经网络模型的第二损失值，并以所述第二损失值最小为目标调整所述神经网络模型第二分支网络的参数，对所述神经网络模型的所述全连接层中第二分支网络的参数进行二阶段训练，其中，所述图像样本的预测误差为一阶段训练得到的所述神经网络模型对所述图像样本进行预测得到的预测值与相应图像样本的真实目标点位置之间的差值。

首先，基于图像样本的全部目标点训练神经网络模型。以每个图像样本标注了68个目标点位置(如图3所示)举例，一阶段训练过程大致如下：所述神经网络模型的每层网络结构通过对每个输入的图像样本进行卷积运算，抽取图像特征，并通过最大池化操作进行特征映射，经过多层卷积网络和残差结构的运算，由最后一个全连接层的第一分支网络输出预设维度的特征向量，该特征向量对应所有(如68个)目标点位置的预测值；然后，通过损失函数分别计算每个位置的预测值和标注的真实值之间差值，并根据每个位置的预测值和标注的真实值之间的差值确定所述训练神经网络模型的第一损失值；之后，通过反复调整所述神经网络模型的每层网络结构的参数，并分别计算所述神经网络模型的第一损失值，直至模型收敛，此时，所述神经网络模型的第一损失值最小，所述神经网络模型的各层网络结构的参数最优。

然后，对目标点位置进行分组。

在本申请的一些实施例中，所述对目标点位置进行分组的步骤，包括：根据所述真实目标点位置对应的归一化平均误差，对所述真实目标点位置进行分组。经过了一阶段训练之后，对于每个图像样本可以确定其中每个目标点位置的真实值和预测值之间的第一差值，通过记录并分析若干图像样本中各目标点位置的第一差值，可以确定图像样本标注的每个真实目标点位置的平均误差。进一步的，通过归一化算法，确定图像样本标注的每个真实目标点位置的归一化平均误差，所述归一化平均误差反映了相应真实目标点位置的检测难易程度，归一化平均误差越大，表示相应真实目标点位置的检测难度越大。

接下来，根据归一化平均误差的大小，对相应标注的目标点位置进行分组，即根据目标点位置的检测难易程度对相应目标点位置进行分组。仍以每个图像样本标注了68个目标点位置举例，可以按照归一化平均误差的大小将目标点位置分成3组。经过数据测试表明，归一化平均误差的大小与目标点位置紧密关联。以目标点为人脸关键点的测试结果举例，如图4所示，按照归一化平均误差的大小会将目标点位置分成3组(图4中用不同形状标识的目标点)，分别对应：眉毛特征点、眼睛和鼻子特征点、脸型轮廓特征点。

在本申请的另一些实施例中，所述对目标点位置进行分组的步骤，包括：根据所述真实目标点位置之间的相关性或空间距离，对所述真实目标点位置进行分组。仍以每个图像样本标注了68个目标点位置举例，根据图像样本中标注的目标点位置的真实值分别计算通过上述68个目标点位置之间位置相关性，将相关性满足一定体条件的目标点位置划分在一组。或者，根据图像样本中标注的目标点位置的真实值分别计算通过上述68个目标点位置之间的空间距离，将空间距离小于一定阈值的目标点位置划分在一组。

之后，对于每组目标点位置对应的最后一个全连接层的网络参数进行局部精细回归训练。

以图4中所示的目标点位置分组结果举例，对于3组目标点位置，分别进行最后一个全连接层中相应网络参数的训练。首先，以一阶段训练得到的神经网络模型对各图像样本的预测值与相应图像样本标注的目标点位置(即真实值)之间的第一差值(即预测误差)对相应图像样本进行标注，以所述预测误差作为相应图像样本的样本标签。然后，对于10个眉毛特征点位置，二阶段训练过程大致如下：以一阶段训练得到的所述神经网络模型的参数作为二阶段训练的神经网路模型的初始参数，以前述预测误差作为样本标签的图像样本作为训练样本，对所述神经网络模型进行训练。在训练过程中，通过损失函数计算与上述10个眉毛特征点位置对应的所述训练神经网络模型的第二损失值，其中，变量x表示与上述各所述眉毛特征点位置对应的预测值与相应眉毛特征点位置对应的真实值的之间的差值；此处的真实值为样本标签，对应该样本的预测误差，预测值为所述神经网络模型预测得到的误差值。之后，通过反复调整所述神经网络模型的最后一层全连接层的参数而保持其他层的网络参数不变，并分别所述计算神经网络模型的第二损失值，直至模型收敛，此时，所述神经网络模型的第二损失值最小，所述神经网络模型的最后一层全连接层的参数最优。

在上述二阶段训练过程中，神经网络模型的输出的预测值为误差值，图像样本的标签为一阶段训练得到的模型对各训练样本的预测结果的偏差，即预测误差。具体实施时，以训练人脸关键点位置检测模型为例，在二阶段训练过程中，所述真实值为图像样本中标注的人脸关键点位置与一阶段训练得到的神经网络模型对各训练样本中人脸关键点位置进行预测得到的预测值之间的偏差，所述预测值为所述神经网络模型进行二阶段训练时预测得到的输入至所述神经网络模型的图像中相应人脸关键点位置预测误差。二阶段训练的目标为是预测得到的偏差与一阶段训练的得到的神经网络模型的预测误差无限接近。

使用同一个训练框架来处理难检测样本和易检测样本时，模型不易收敛。因此，本申请实施例中通过将不同检测难易程度的点进行分组优化，使得模型收敛后的参数值更优，进一步提升训练得到的模型的预测准确度。

二阶段训练过程中，一阶段训练得到的所述神经网络模型的主干网络参数之后，复用主干网络(如最后一个全连接层之前的网络)的所有参数，通过对目标点进行分组，再对分组后目标点进行分组训练，以局部微调全连接层的第二分支网络的参数，进而提升所述神经网络模型的检测准确率。并且，由于所述神经网络模型只有一个主干网络，相比现有技术中通过级联网络结构提升模型检测准确率的手段相比，有效减少了模型的空间。通过复用主干网络的参数，减少了参数训练的次数，节约了模型训练时使用的计算机资源，提升了模型训练效率，同时提升了目标点位置检测的准确性。

步骤130，通过训练得到的所述神经网络模型，对输入的图像进行目标点位置检测。

具体应用过程中，将待检测的图像输入至训练好的所述神经网络模型，所述神经网络模型将输出所述待检测的图像中的目标点位置坐标和相应目标点位置坐标的检测误差，根据目标点位置坐标和相应目标点位置坐标的检测误差确定该待检测图像中前述目标点位置。如果所述目标点位置为人脸关键点位置，则所述通过训练得到的所述神经网络模型，对输入的图像进行目标点位置检测的步骤，进一步包括：所述通过训练得到的所述神经网络模型，对输入的图像进行人脸关键点位置检测。即将待检测人脸图像输入至训练得到的所述神经网络模型中，所述神经网络模型将输出所述待检测人脸图像中的人脸关键点位置以及各人脸关键点位置的检测误差；进一步的，根据人脸关键点位置以及各人脸关键点位置的检测误差(例如将各人脸关键点位置和相应的检测误差相加)即可得到所述待检测人脸图像中的人脸关键点位置的最终检测结果。

本申请实施例中公开的基于图像的目标点位置检测方法，通过获取标注有真实目标点位置的若干图像样本；并通过所述神经网络模型的损失函数根据变量计算所述神经网络模型的损失值，并以所述损失值最小为目标调整所述神经网络模型的参数，训练所述神经网络模型；其中，所述损失函数被配置为相对于变量的绝对值单调递增，所述损失函数对应的梯度函数为单调递减函数且所述梯度函数的值大于1并在所述变量趋近于无穷大时逐渐趋近于1；所述变量用于表示真实值和预测值之间的差值，所述真实值基于标注的所述真实目标点位置确定，所述预测值通过所述神经网络模型对所述各所述图像样本进行预测得到；之后，通过训练得到的所述神经网络模型，对输入的图像进行目标点位置检测，有助于提升所述神经网络模型的训练效率。本申请实施例中通过改进模型的损失函数，将现有技术中在目标点位置检测应用中表现优异的神经网络模型的分段损失函数改进为不分段的损失函数，并减少超参数的数量，有效减少了模型训练的变化条件，有效提升了模型训练的效率。同时，经过公共人脸数据库的测试，目标点检测的性能得到了提升。

实施例二

本申请实施例公开的一种基于图像的目标点位置检测装置，如图5所示，所述装置包括：

图像样本获取模块510，用于获取标注有真实目标点位置的若干图像样本；

模型训练模块520，用于通过所述神经网络模型的损失函数根据变量计算所述神经网络模型的损失值，并以所述损失值最小为目标调整所述神经网络模型的参数，训练所述神经网络模型；其中，所述损失函数被配置为相对于变量的绝对值单调递增，所述损失函数对应的梯度函数为单调递减函数且所述梯度函数的值大于1并在所述变量趋近于无穷大时逐渐趋近于1；所述变量用于表示真实值和预测值之间的差值，所述真实值基于标注的所述真实目标点位置确定，所述预测值通过所述神经网络模型对所述各所述图像样本进行预测得到；

目标点位置检测模块530，用于通过训练得到的所述神经网络模型，对输入的图像进行目标点位置检测。

在本申请的一些实施例中，所述损失函数表示为：

其中，α是超参数，用于控制损失函数的变化快慢；x是变量，表示所述预测值和所述真实值之间的差值。

在本申请的一些实施例中，如图6所示，所述神经网络模型的最后一层全连接层包括第一分支网络和第二分支网络，所述模型训练模块520进一步，包括：

粗训练子模块5201，用于以所述图像样本的真实目标点位置作为真实值，通过由所述神经网络模型的损失函数根据变量计算所述神经网络模型的第一损失值，并以所述第一损失值最小为目标调整所述神经网络模型的参数，对所述神经网络模型的主干网络和第一分支网络的各层参数进行一阶段训练；

目标点分组子模块5202，用于对目标点位置进行分组；

局部精细训练子模块5203，用于对于每组目标点位置，分别执行以下操作：

以各所述图像样本的预测误差作为真实值对相应图像样本进行标注，通过由所述神经网络模型的损失函数根据变量计算所述神经网络模型的第二损失值，并以所述第二损失值最小为目标调整所述神经网络模型第二分支网络的参数，对所述神经网络模型的所述全连接层中第二分支网络的参数进行二阶段训练，其中，所述图像样本的预测误差为一阶段训练得到的所述神经网络模型对所述图像样本进行预测得到的预测值与相应图像样本的真实目标点位置之间的差值。

在本申请的一些实施例中，所述目标点分组子模块5202进一步用于：

根据所述真实目标点位置对应的归一化平均误差，对所述真实目标点位置进行分组。

在本申请的另一些实施例中，所述目标点分组子模块5202进一步用于：

根据所述真实目标点位置之间的相关性或空间距离，对所述真实目标点位置进行分组。

在本申请的一些实施例中，所述图像样本获取模块510进一步用于：

获取标注有真实人脸关键点位置的若干图像样本；

所述目标点位置检测模块530进一步用于：

所述通过训练得到的所述神经网络模型，对输入的图像进行人脸关键点位置检测。

在本申请的一些实施例中，所述神经网络模型为瘦残差网络，所述神经网络模型的卷积层采用N×N的滤波器，其中，N为大于2且小于6的整数。

本实施例公开的基于图像的目标点位置检测装置用于实现上述目标点位置检测方法，基于图像的目标点位置检测装置的各个模块用于实现上述基于图像的目标点位置检测方法的相应步骤，此处不再赘述。

本申请实施例公开的基于图像的目标点位置检测装置，通过获取标注有真实目标点位置的若干图像样本；并通过所述神经网络模型的损失函数根据变量计算所述神经网络模型的损失值，并以所述损失值最小为目标调整所述神经网络模型的参数，训练所述神经网络模型；其中，所述损失函数被配置为相对于变量的绝对值单调递增，所述损失函数对应的梯度函数为单调递减函数且所述梯度函数的值大于1并在所述变量趋近于无穷大时逐渐趋近于1；所述变量用于表示真实值和预测值之间的差值，所述真实值基于标注的所述真实目标点位置确定，所述预测值通过所述神经网络模型对所述各所述图像样本进行预测得到；之后，通过训练得到的所述神经网络模型，对输入的图像进行目标点位置检测，有助于提升所述神经网络模型的训练效率。本申请实施例中通过改进模型的损失函数，将现有技术中在目标点位置检测应用中表现优异的神经网络模型的分段损失函数改进为不分段的损失函数，并减少超参数的数量，有效减少了模型训练的变化条件，有效提升了模型训练的效率。同时，经过公共人脸数据库的测试，目标点检测的性能得到了提升。

相应的，本申请还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例一所述的基于图像的目标点位置检测方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。

本申请还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例一所述的基于图像的目标点位置检测方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本申请提供的一种基于图像的目标点位置检测方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims

1.一种基于图像的目标点位置检测方法，其特征在于，包括：

获取标注有真实目标点位置的若干图像样本；

2.根据权利要求1所述的方法，其特征在于，所述损失函数表示为：

3.根据权利要求1或2所述的方法，其特征在于，所述神经网络模型的最后一层全连接层包括第一分支网络和第二分支网络，所述训练所述神经网络模型的步骤，包括：

以所述图像样本的真实目标点位置作为真实值，通过由所述神经网络模型的损失函数根据变量计算所述神经网络模型的第一损失值，并以所述第一损失值最小为目标调整所述神经网络模型的参数，对所述神经网络模型的主干网络和第一分支网络的各层参数进行一阶段训练；

对目标点位置进行分组；

对于每组目标点位置，分别执行以下操作：

4.根据权利要求3所述的方法，其特征在于，所述对目标点位置进行分组的步骤，包括：

5.根据权利要求3所述的方法，其特征在于，所述对目标点位置进行分组的步骤，包括：

6.根据权利要求1所述的方法，其特征在于，所述神经网络模型为瘦残差网络，所述神经网络模型的卷积层采用N×N的滤波器，其中，N为大于2且小于6的整数。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述获取标注有真实目标点位置的若干图像样本的步骤，包括：

获取标注有真实人脸关键点位置的若干图像样本；

所述通过训练得到的所述神经网络模型，对输入的图像进行目标点位置检测的步骤，进一步包括：

8.一种基于图像的目标点位置检测装置，其特征在于，包括：

模型训练模块，用于通过所述神经网络模型的损失函数根据变量计算所述神经网络模型的损失值，并以所述损失值最小为目标调整所述神经网络模型的参数，训练所述神经网络模型；其中，所述损失函数被配置为相对于变量的绝对值单调递增，所述损失函数对应的梯度函数为单调递减函数且所述梯度函数的值大于1并在所述变量趋近于无穷大时逐渐趋近于1；所述变量用于表示真实值和预测值之间的差值，所述真实值基于标注的所述真实目标点位置确定，所述预测值通过所述神经网络模型对所述各所述图像样本进行预测得到；

9.根据权利要求8所述的装置，其特征在于，所述损失函数表示为：

10.根据权利要求8或9所述的装置，其特征在于，所述神经网络模型的最后一层全连接层包括第一分支网络和第二分支网络，所述模型训练模块进一步，包括：

粗训练子模块，用于以所述图像样本的真实目标点位置作为真实值，通过由所述神经网络模型的损失函数根据变量计算所述神经网络模型的第一损失值，并以所述第一损失值最小为目标调整所述神经网络模型的参数，对所述神经网络模型的主干网络和第一分支网络的各层参数进行一阶段训练；

目标点分组子模块，用于对目标点位置进行分组；

局部精细训练子模块，用于对于每组目标点位置，分别执行以下操作：

11.根据权利要求10所述的装置，其特征在于，所述目标点分组子模块进一步用于：

12.根据权利要求10所述的装置，其特征在于，所述目标点分组子模块进一步用于：

13.根据权利要求8至12任一项所述的装置，其特征在于，所述图像样本获取模块进一步用于：

获取标注有真实人脸关键点位置的若干图像样本；

所述目标点位置检测模块进一步用于：

14.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任意一项所述的基于图像的目标点位置检测方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7任意一项所述的基于图像的目标点位置检测方法的步骤。