CN107464261A

CN107464261A - 一种图像数据标定训练方法及其设备、存储介质、服务器

Info

Publication number: CN107464261A
Application number: CN201710550646.0A
Authority: CN
Inventors: 刘运; 马跃
Original assignee: All Kinds Of Fruits Garden Guangzhou Network Technology Co Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2017-07-07
Filing date: 2017-07-07
Publication date: 2017-12-12
Anticipated expiration: 2037-07-07
Also published as: CN107464261B

Abstract

本发明实施例公开一种图像数据标定训练方法及其设备、存储介质、服务器，其中方法包括如下步骤：获取图像数据经扰动处理后对应的扰动图像数据集合，及该集合对应的参考标定坐标；基于CNN获取扰动图像数据集合的目标标定坐标；将参考标定坐标和目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数；获取正向传播函数的梯度信息，根据梯度信息和CNN的学习率获取正向传播函数的输出变化量；根据输出变化量获取训练过程中反向传播函数内目标标定坐标的坐标变化量；基于坐标变化量调整CNN中各层网络参数，使调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。采用本发明，可以提高训练后的模型对图片中人脸进行标定的准确性。

Description

一种图像数据标定训练方法及其设备、存储介质、服务器

技术领域

本发明涉及计算机技术领域，尤其涉及一种图像数据标定训练方法及其设备、存储介质、服务器。

背景技术

在互联网技术快速发展以及人工智能技术越来越成熟的网络互联网时代，人脸定位这一图像处理技术成为了当下研究的热点技术之一。其中，人脸定位是通过图像处理算法计算出图片上人脸的各个特征点位置的技术，特征点可以是人脸上比价显著的点，例如眼角、眉角、嘴角、鼻尖以及下巴等。现有技术中，深度学习算法(例如，卷积神经网络CNN)是当前最常用的人脸定位算法，具体通过对图像库中图像的训练得到的训练模型，从而对人脸上各个特征点的位置的图片进行定位，然而，由于深度学习训练用的图像库中有些图像的标定点的存在误差或者错误，影响了训练后的模型对图像中人脸特征点进行标定的准确性。

发明内容

本发明实施例提供一种图像数据标定训练方法及其设备、存储介质、服务器，通过对已准确添加标定点的图像进行扰动处理，并分析扰动处理后的图像集合的训练过程，可以提高训练后的模型对图像中人脸特征点进行标定的准确性。

本发明实施例第一方面提供了一种图像数据标定训练方法，可包括：

获取图像数据经扰动处理后所对应的扰动图像数据集合，并获取所述扰动图像数据集合对应的参考标定坐标；

基于卷积神经网络CNN获取所述扰动图像数据集合对应的目标标定坐标；

将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数；

基于所述输入参数获取所述正向传播函数的梯度信息，并根据所述梯度信息和所述CNN的学习率获取所述正向传播函数的输出变化量；

根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量；

基于所述坐标变化量调整所述CNN中各网络层的网络参数，使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。

本发明实施例第二方面提供了一种图像数据标定训练设备，可包括：

参考坐标获取单元，用于获取图像数据经扰动处理后所对应的扰动图像数据集合，并获取所述扰动图像数据集合对应的参考标定坐标；

目标坐标获取单元，用于基于卷积神经网络CNN获取所述扰动图像数据集合对应的目标标定坐标；

参数确定单元，用于将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数；

输出变化获取单元，用于基于所述输入参数获取所述正向传播函数的梯度信息，并根据所述梯度信息和所述CNN的学习率获取所述正向传播函数的输出变化量；

坐标变化获取单元，用于根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量；

参数调整单元，用于基于所述坐标变化量调整所述CNN中各网络层的网络参数，使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。

本发明实施例第三方面提供了一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行以下步骤：

本发明实施例第四方面提供了一种服务器，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行以下步骤：

在本发明实施例中，通过获取图像数据经扰动处理后所对应的扰动图像数据集合，以及扰动图像数据集合对应的参考标定坐标，基于卷积神经网络CNN获取扰动图像数据集合对应的目标标定坐标，再将参考标定坐标和目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数，然后基于输入参数获取正向传播函数的梯度信息，并根据梯度信息和CNN的学习率获取正向传播函数的输出变化量，最后根据输出变化量获取图像数据标定训练过程中反向传播函数所指示的目标标定坐标的坐标变化量，基于坐标变化量调整CNN中各网络层的网络参数，使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。通过将图像数据经扰动处理后得到的扰动图像数据集合作为训练用的一批图像，再分析扰动图像数据集合作为训练用图像的训练过程，提高了训练后的模型对图像中人脸特征点进行标定的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种图像数据标定训练方法的流程示意图；

图2是本发明实施例提供的一种人脸识别过程示意图；

图3是本发明实施例提供的一种扰动图像数据集合显示示意图；

图4是本发明实施例提供的另一种图像数据标定训练方法的流程示意图；

图5是本发明实施例提供的一种图像数据标定训练设备的结构示意图；

图6是本发明实施例提供的另一种图像数据标定训练设备的结构示意图；

图7是本发明实施例提供的参考坐标获取单元的结构示意图；

图8是本发明实施例提供的参数调整单元的结构示意图；

图9是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的图像数据标定训练方法可以应用于基于CNN对人脸图像进行训练的场景中，例如：图像数据标定训练设备获取图像数据经扰动处理后所对应的扰动图像数据集合，以及所述扰动图像数据集合对应的参考标定坐标，基于卷积神经网络CNN获取所述扰动图像数据集合对应的目标标定坐标，再将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数，基于所述输入参数获取所述正向传播函数的梯度信息，并根据所述梯度信息和所述CNN的学习率获取所述正向传播函数的输出变化量，最后根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量，基于所述坐标变化量调整所述CNN中各网络层的网络参数，使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。通过将图像数据经扰动处理后得到的扰动图像数据集合作为训练用的一批图像，再分析扰动图像数据集合作为训练用图像的训练过程，提高了训练后的模型对图像中人脸特征点进行标定的准确性。

本发明实施例涉及的图像数据标定训练设备可以是具备管理资源并为用户提供服务的计算机设备，例如，可以是具有较强的数据承载能力和处理能力的服务器。

下面将结合附图1-附图4，对本发明实施例提供的图像数据标定训练方法进行详细介绍。

请参见图1，为本发明实施例提供了一种图像数据标定训练方法的流程示意图。如图1所示，本发明实施例的所述方法可以包括以下步骤S101-步骤S106。

S101，获取图像数据经扰动处理后所对应的扰动图像数据集合，并获取所述扰动图像数据集合对应的参考标定坐标；

具体的，图像数据标定训练设备可以获取图像数据经扰动处理后所对应的扰动图像数据，可以理解的是，所述图像数据可以是已添加标定点的人脸图像(可以采用现有的图像标定算法标定人脸图像中的特征点)，该人脸图像可以是所选取的标定点对应的标点坐标准确性较高的图像。可选的，可以对已添加标定点的图像数据(原彩色图像)进行灰度处理后采用人脸检测算法检测出其中的人脸，如图2所示。所述扰动处理可以是对所述图像数据进行平移、镜像旋转、轻微缩放(20％以内)、轻微旋转(±10度以内)、加轻微随机噪声以及做运动模糊处理等等，所述扰动图像数据集合可以为所述图像数据经过上述扰动处理后得到的一批图像数据如图3所示，其中，所述模糊运动处理是针对视频图像数据特有的图像处理方法。

进一步的，所述图像数据标定训练设备可以获取所述扰动图像数据集合对应的参考标定坐标，可以理解的是，所述图像数据在进行扰动处理前已携带原标定点，对所述图像数据进行扰动处理后，所述原标定点对应的标定点坐标也需要进行相应的变换。例如，对图像数据进行平移后，所述原标定点对应的标定点坐标也进行了相应的平移得到扰动标定点坐标。可以理解的是，所述参考标定点坐标可以为所述扰动图像数据集合中各扰动图像数据对应扰动标定点坐标的集合，可以用张量Y表示。

S102，基于卷积神经网络CNN获取所述扰动图像数据集合对应的目标标定坐标；

具体的，所述图像数据标定训练设备可以基于卷积神经网络(ConstitutionalNeural Networks,CNN)获取所述扰动图像数据集合对应的目标标定坐标，可以理解的是，所述CNN是在多层神经网络的基础上发展起来的针对图像分类和识别而特别设计的一种深度学习方法。所述目标标定坐标可以是所述扰动图像数据集合中经所述CNN处理后计算得到的对所述扰动图像数据集合中各扰动图像数据的标定坐标的集合，可以用张量表示。

S103，将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数；

具体的，所述图像数据标定训练设备可以将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数，可以理解的是，所述正向传播函数可以是联合损失函数(Loss function)，所述联合损失函数的计算公式例如可以是：

其中，参考标定坐标Y和所述目标标定坐标为Loss函数的输出参数，是所述扰动图像数据集合中定位出的目标标定坐标和参考标定坐标的差向量的均值。α是一个介于0到1之间的值，随训练的周期(epoch)增长而递减，可以理解的是，基于对α所设置的初始值和参数调整速率可以控制CNN在训练的初期主要针对定位准确性进行优化，而后期当CNN的学习率下降时，优化目标转移到方差上，对定位的方差进行微调。

需要说明的是，通过在Loss函数中引入方差，并将其作为优化目标，使得CNN在模型训练过程中可以通过对所述目标标定坐标和所述参考标定坐标间方差的优化，减少视频图像数据标定点定位抖动情况的发生。

S104，基于所述输入参数获取所述正向传播函数的梯度信息，并根据所述梯度信息和所述CNN的学习率获取所述正向传播函数的输出变化量；

具体的，所述图像数据标定训练设备可以基于所述输入参数获取所述正向传播函数的梯度信息，可以理解的是，所述图像数据标定训练设备可以求取上述Loss函数的梯度，所述梯度所包含的梯度信息可以有梯度值和梯度方向。

可以理解的是，所述图像数据标定训练设备可以根据所述梯度方向确定所述CNN的训练方向，需要说明的是，所述训练方向为与所述梯度方向相反的方向，进一步的，所述图像数据标定训练设备可以在所述训练方向上基于CNN的循环迭代过程获取CNN的学习率，并可以基于所述学习率和所述梯度值计算上述Loss函数的输出变化量，所述输出变化量可以设为ΔL。

S105，根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量；

具体的，所述图像数据标定训练设备可以根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量，可以理解的是，所述反向传播函数可以用于计算所述目标标定坐标的坐标变化量例如计算公式如下：

S106，基于所述坐标变化量调整所述CNN中各网络层的网络参数，使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小；

具体的，所述图像数据标定训练设备可以基于所述坐标变化量调整所述CNN中各网络层的网络参数，可以理解的是，所述CNN是一个多层神经网络，该网络的训练过程可以是根据反向传播函数的输出即所述坐标变化量对网络中各层的参数进行调整。

可以理解的是，调整所述CNN中各网络层的网络参数的目的是使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。当所述输出变化量最小时，可以认为基于所述CNN的图像数据标定训练过程已经完成。可以理解的是，由于在所述CNN循环迭代的训练过程中，可以得到最小学习率，所述图像数据标定训练设备基于所述最小学习率获取到的所述输出变化量最小。

请参见图4，为本发明实施例提供了另一种图像数据标定训练方法的流程示意图。如图4所示，本发明实施例的所述方法可以包括以下步骤S201-步骤S212。

S201，获取所输入的图像数据，并获取所述图像数据携带的原标定点；

具体的，图像数据标定训练设备可以获取所输入的图像数据，可以理解的是，所述图像数据可以是已添加标定点的人脸图像(可以采用现有的图像标定算法标定人脸图像中的特征点)，该人脸图像可以是所选取的标定点对应的标点坐标准确性较高的图像。

进一步的，所述图像数据标定训练设备可以获取所述图像数据携带的原标定点，可以理解的是，所述原标定点可以是所述图像数据中添加的标定点，可选的，所述原标定点可以是对所述图像数据进行标定时所选择的标定坐标准确率较高的点。

S202，对所述图像数据进行扰动处理，获取经所述扰动处理后所述图像数据对应的扰动图像数据集合；

可以理解的是，在对所述图像数据进行扰动处理之前，所述图像数据标定训练设备可以对已添加标定点的图像数据(原彩色图像)进行灰度处理后采用人脸检测算法检测出其中的人脸，如图2所示。

进一步的，所述图像数据标定训练设备可以对所述图像数据进行扰动处理，获取经所述扰动处理后所述图像数据对应的扰动图像数据集合，可以理解的是，所述扰动处理可以是对所述图像数据进行平移、镜像旋转、轻微缩放(20％以内)、轻微旋转(±10度以内)、加轻微随机噪声以及做运动模糊处理等等，所述扰动图像数据集合可以为所述图像数据经过上述扰动处理后得到的一批图像数据如图3所示，其中，所述模糊运动处理是针对视频图像数据特有的图像处理方法。

S203，获取所述扰动图像数据集合中各扰动图像数据携带的扰动标定点，将所述扰动标定点对应的标定坐标确定为参考标定坐标；

可以理解的是，所述图像数据在进行扰动处理前已携带原标定点，对所述图像数据进行扰动处理后，所述原标定点对应的标定点坐标也需要进行相应的变换。例如，对图像数据进行平移后，所述原标定点对应的标定点坐标也进行了相应的平移得到扰动标定点坐标。

具体的，所述图像数据标定训练设备可以获取所述扰动图像数据集合中各扰动图像数据携带的扰动标定点，并可以将所述各扰动图像数据携带的扰动标定点的集合确定为参考标定坐标，可以用张量Y表示所述参考标定坐标。

S204，基于卷积神经网络CNN获取所述扰动图像数据集合对应的目标标定坐标；

具体的，所述图像数据标定训练设备可以基于CNN获取所述扰动图像数据集合对应的目标标定坐标，可以理解的是，所述CNN是在多层神经网络的基础上发展起来的针对图像分类和识别而特别设计的一种深度学习方法。所述目标标定坐标可以是所述扰动图像数据集合中经所述CNN处理后计算得到的对所述扰动图像数据集合中各扰动图像数据的标定坐标的集合，可以用张量表示。

S205，将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数；

其中，参考标定坐标Y和所述目标标定坐标为Loss函数的输出参数，是所述扰动图像数据集合中定位出的目标标定坐标和参考标定坐标的差向量的均值。α是一个介于0到1之间的值，随训练的周期增长而递减。

可以理解的是，所述正向传播函数Loss包括由所述参考标定点和所述目标标定点确定的距离函数和方差函数，以及分别与所述距离函数和所述方差函数对应的权值。

S206，在以所述参考标定坐标和所述目标标定坐标作为输入参数获取所述正向传播函数的梯度信息时，基于预设的参数调整速率调整所述分别与所述距离函数和所述方差函数对应的权值；

具体的，在以所述参考标定坐标和所述目标标定坐标作为输入参数获取所述正向传播函数的梯度信息时，所述图像数据标定训练设备可以基于预设的参数调整速率调整所述分别与所述距离函数和所述方差函数对应的权值。例如，当α的初始值为1，所述数调整速率为0.99时，在CNN首次训练时正向传播过程中所述距离函数和所述方差函数的权值分别为1/2N和0、第二次训练时二者的权值分别为0.99/2N和0.01/2N以及第三次训练时二者的权值分别为0.99²/2N和(1-0.99²)/2N。

可以理解的是，基于对α所设置的初始值和参数调整速率可以控制CNN在训练的初期(即距离函数对应的权值较大时)主要针对定位准确性进行优化，而后期(即方差函数对应的权值较大时)随所述CNN在训练过程中不断的循环迭代，所述CNN的逐渐学习率下降，训练时的优化目标转移到方差上，对定位的方差进行微调。

在本发明实施例中，所述图像数据标定训练设备通过在所述CNN图像训练过程中基于对所述目标标定坐标和所述参考标定坐标间方差的优化，减少了视频图像数据标定点定位抖动情况的发生。

S207，基于所述输入参数获取所述正向传播函数的梯度信息，并根据所述梯度信息和所述CNN的学习率获取所述正向传播函数的输出变化量；

S208，根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量；

S209，基于所述坐标变化量调整所述CNN中各网络层的网络参数，并基于调整网络参数后的CNN重新获取所述扰动图像数据对应的目标标定坐标；

进一步的，所述图像数据标定训练设备可以基于调整网络参数后的CNN重新获取所述扰动图像数据对应的目标标定坐标，可以理解的是，调整网络参数后的CNN中的各层网络参数相对于调整前的参数计算得到的目标标定坐标更接近于所述参考标定坐标。

S210，以所述参考标定坐标和重新获取到的所述目标标定坐标作为输入参数重新获取所述正向传播函数的梯度信息；

具体的，所述图像数据标定训练设备可以以所述参考标定坐标和重新获取到的所述目标标定坐标作为输入参数重新获取所述正向传播函数的梯度信息，可以理解的是，重新获取到的梯度信息可以包括梯度值和梯度方向。

S211，根据重新获取到的梯度信息中的梯度方向确定所述CNN的训练方向，并在所述训练方向上确定所述CNN的学习率，判断所述学习率是否达到最小值；

具体的，所述图像数据标定训练设备可以根据重新获取到的梯度信息中的梯度方向确定所述CNN的训练方向，并在所述训练方向上确定所述CNN的学习率，可以理解的是，所述图像数据标定训练设备可以在所述训练方向上基于CNN的循环迭代过程获取CNN的学习率，在循环迭代的过程中，所述学习率会越来越小，所述图像数据标定训练设备可以判断所述学习率是否达到最小值。

S212，若所述学习率已达到最小值，则确定基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小，否则重新基于所述坐标变化量调整所述CNN中各网络层的网络参数；

具体的，若所述学习率已达到最小值，所述图像数据标定训练设备可以确定基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小，可以理解的是，所述输出变化量最小时可以是根据所述最小学习率和所述梯度值计算得到的。若所述学习率未达到最小值，所述图像数据标定训练设备可以重新基于所述坐标变化量调整所述CNN中各网络层的网络参数。

在本发明实施例中，通过获取图像数据经扰动处理后所对应的扰动图像数据集合，以及扰动图像数据集合对应的参考标定坐标，基于卷积神经网络CNN获取扰动图像数据集合对应的目标标定坐标，再将参考标定坐标和目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数，然后基于输入参数获取正向传播函数的梯度信息，并根据梯度信息和CNN的学习率获取正向传播函数的输出变化量，最后根据输出变化量获取图像数据标定训练过程中反向传播函数所指示的目标标定坐标的坐标变化量，基于坐标变化量调整CNN中各网络层的网络参数，使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。通过将图像数据经扰动处理后得到的扰动图像数据集合作为训练用的一批图像，再分析扰动图像数据集合作为训练用图像的训练过程，提高了训练后的模型对图像中人脸特征点进行标定的准确性；通过在CNN图像训练过程中基于对目标标定坐标和参考标定坐标间方差的优化，减少了视频图像数据标定点定位抖动情况的发生。

下面将结合附图5-附图8，对本发明实施例提供的图像数据标定训练设备进行详细介绍。需要说明的是，附图5-附图8所示的设备，用于执行本发明图1-图4所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明图1-图4所示的实施例。

请参见图5，为本发明实施例提供了一种图像数据标定训练设备的结构示意图。如图5所示，本发明实施例的所述图像数据标定训练设备1可以包括：参考坐标获取单元11、目标坐标获取单元12、参数确定单元13、输出变化获取单元14、坐标变化获取单元15和参数调整单元16。

参考坐标获取单元11，用于获取图像数据经扰动处理后所对应的扰动图像数据集合，并获取所述扰动图像数据集合对应的参考标定坐标；

具体实现中，参考坐标获取单元11可以获取图像数据经扰动处理后所对应的扰动图像数据，可以理解的是，所述图像数据可以是已添加标定点的人脸图像(可以采用现有的图像标定算法标定人脸图像中的特征点)，该人脸图像可以是所选取的标定点对应的标点坐标准确性较高的图像。可选的，可以对已添加标定点的图像数据(原彩色图像)进行灰度处理后采用人脸检测算法检测出其中的人脸，如图2所示。所述扰动处理可以是对所述图像数据进行平移、镜像旋转、轻微缩放(20％以内)、轻微旋转(±10度以内)、加轻微随机噪声以及做运动模糊处理等等，所述扰动图像数据集合可以为所述图像数据经过上述扰动处理后得到的一批图像数据如图3所示，其中，所述模糊运动处理是针对视频图像数据特有的图像处理方法。

进一步的，所述参考坐标获取单元11可以获取所述扰动图像数据集合对应的参考标定坐标，可以理解的是，所述图像数据在进行扰动处理前已携带原标定点，对所述图像数据进行扰动处理后，所述原标定点对应的标定点坐标也需要进行相应的变换。例如，对图像数据进行平移后，所述原标定点对应的标定点坐标也进行了相应的平移得到扰动标定点坐标。可以理解的是，所述参考标定点坐标可以为所述扰动图像数据集合中各扰动图像数据对应扰动标定点坐标的集合，可以用张量Y表示。

目标坐标获取单元12，用于基于卷积神经网络CNN获取所述扰动图像数据集合对应的目标标定坐标；

具体实现中，目标坐标获取单元12可以基于CNN获取所述扰动图像数据集合对应的目标标定坐标，可以理解的是，所述CNN是在多层神经网络的基础上发展起来的针对图像分类和识别而特别设计的一种深度学习方法。所述目标标定坐标可以是所述扰动图像数据集合中经所述CNN处理后计算得到的对所述扰动图像数据集合中各扰动图像数据的标定坐标的集合，可以用张量表示。

参数确定单元13，用于将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数；

具体实现中，参数确定单元13可以将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数，可以理解的是，所述正向传播函数可以是联合损失函数(Loss function)，所述联合损失函数的计算公式例如可以是：

其中，参考标定坐标Y和所述目标标定坐标为Loss函数的输出参数，是所述扰动图像数据集合中定位出的目标标定坐标和参考标定坐标的差向量的均值。α是一个介于0到1之间的值，随训练的周期增长而递减，可以理解的是，基于对α所设置的初始值和参数调整速率可以控制CNN在训练的初期主要针对定位准确性进行优化，而后期当CNN的学习率下降时，优化目标转移到方差上，对定位的方差进行微调。

输出变化获取单元14，用于基于所述输入参数获取所述正向传播函数的梯度信息，并根据所述梯度信息和所述CNN的学习率获取所述正向传播函数的输出变化量；

具体实现中，输出变化获取单元14可以基于所述输入参数获取所述正向传播函数的梯度信息，可以理解的是，所述图像数据标定训练设备1可以求取上述Loss函数的梯度，所述梯度所包含的梯度信息可以有梯度值和梯度方向。

可以理解的是，所述输出变化获取单元14可以根据所述梯度方向确定所述CNN的训练方向，需要说明的是，所述训练方向为与所述梯度方向相反的方向，进一步的，所述输出变化获取单元14可以在所述训练方向上基于CNN的循环迭代过程获取CNN的学习率，并可以基于所述学习率和所述梯度值计算上述Loss函数的输出变化量，所述输出变化量可以设为ΔL。

坐标变化获取单元15，用于根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量；

具体实现中，坐标变化获取单元15可以根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量，可以理解的是，所述反向传播函数可以用于计算所述目标标定坐标的坐标变化量例如计算公式如下：

参数调整单元16，用于基于所述坐标变化量调整所述CNN中各网络层的网络参数，使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小；

具体实现中，参数调整单元16可以基于所述坐标变化量调整所述CNN中各网络层的网络参数，可以理解的是，所述CNN是一个多层神经网络，该网络的训练过程可以是根据反向传播函数的输出即所述坐标变化量对网络中各层的参数进行调整。

可以理解的是，调整所述CNN中各网络层的网络参数的目的是使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。当所述输出变化量最小时，可以认为基于所述CNN的图像数据标定训练过程已经完成。可以理解的是，由于在所述CNN循环迭代的训练过程中，可以得到最小学习率，所述参数调整单元16基于所述最小学习率获取到的所述输出变化量最小。

请参见图6，为本发明实施例提供了一种图像数据标定训练设备的结构示意图。如图6所示，本发明实施例的所述图像数据标定训练设备1可以包括：参考坐标获取单元11、目标坐标获取单元12、参数确定单元13、输出变化获取单元14、坐标变化获取单元15、参数调整单元16和权值调整单元17。

具体实现中，参考坐标获取单元11可以获取图像数据经扰动处理后所对应的扰动图像数据，并获取所述扰动图像数据集合对应的参考标定坐标。

请一并参考图7，为本发明实施例提供了参考坐标获取单元的结构示意图。如图7所示，所述参考坐标获取单元11可以包括：

标定点获取子单元111，用于获取所输入的图像数据，并获取所述图像数据携带的原标定点；

具体实现中，标定点获取子单元111可以获取所输入的图像数据，可以理解的是，所述图像数据可以是已添加标定点的人脸图像(可以采用现有的图像标定算法标定人脸图像中的特征点)，该人脸图像可以是所选取的标定点对应的标点坐标准确性较高的图像。

进一步的，所述标定点获取子单元111可以获取所述图像数据携带的原标定点，可以理解的是，所述原标定点可以是所述图像数据中添加的标定点，可选的，所述原标定点可以是对所述图像数据进行标定时所选择的标定坐标准确率较高的点。

扰动数据获取子单元112，用于对所述图像数据进行扰动处理，获取经所述扰动处理后所述图像数据对应的扰动图像数据集合；

可以理解的是，在对所述图像数据进行扰动处理之前，所述图像数据标定训练设备1可以对已添加标定点的图像数据(原彩色图像)进行灰度处理后采用人脸检测算法检测出其中的人脸，如图2所示。

进一步的，扰动数据获取子单元112可以对所述图像数据进行扰动处理，获取经所述扰动处理后所述图像数据对应的扰动图像数据集合，可以理解的是，所述扰动处理可以是对所述图像数据进行平移、镜像旋转、轻微缩放(20％以内)、轻微旋转(±10度以内)、加轻微随机噪声以及做运动模糊处理等等，所述扰动图像数据集合可以为所述图像数据经过上述扰动处理后得到的一批图像数据如图3所示，其中，所述模糊运动处理是针对视频图像数据特有的图像处理方法。

参考坐标获取子单元113，用于获取所述扰动图像数据集合中各扰动图像数据携带的扰动标定点，将所述扰动标定点对应的标定坐标确定为参考标定坐标；

具体实现中，参考坐标获取子单元113可以获取所述扰动图像数据集合中各扰动图像数据携带的扰动标定点，并可以将所述各扰动图像数据携带的扰动标定点的集合确定为参考标定坐标，可以用张量Y表示所述参考标定坐标。

权值调整单元17，用于在以所述参考标定坐标和所述目标标定坐标作为输入参数获取所述正向传播函数的梯度信息时，基于预设的参数调整速率调整所述分别与所述距离函数和所述方差函数对应的权值；

具体实现中，在以所述参考标定坐标和所述目标标定坐标作为输入参数获取所述正向传播函数的梯度信息时，权值调整单元17可以基于预设的参数调整速率调整所述分别与所述距离函数和所述方差函数对应的权值。例如，当α的初始值为1，所述数调整速率为0.99时，在CNN首次训练时正向传播过程中所述距离函数和所述方差函数的权值分别为1/2N和0、第二次训练时二者的权值分别为0.99/2N和0.01/2N以及第三次训练时二者的权值分别为0.99²/2N和(1-0.99²)/2N。

具体实现中，输出变化获取单元14可以基于所述输入参数获取所述正向传播函数的梯度信息，可以理解的是，所述图像数据标定训练设备可以求取上述Loss函数的梯度，所述梯度所包含的梯度信息可以有梯度值和梯度方向。

具体实现中，参数调整单元16可以基于所述坐标变化量调整所述CNN中各网络层的网络参数，使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。

请一并参考图8，为本发明实施例提供了参数调整单元的结构示意图。如图8所示，所述参数调整单元16可以包括：

坐标重新获取子单元161，用于基于所述坐标变化量调整所述CNN中各网络层的网络参数，并基于调整网络参数后的CNN重新获取所述扰动图像数据对应的目标标定坐标；

具体实现中，坐标重新获取子单元161可以基于所述坐标变化量调整所述CNN中各网络层的网络参数，可以理解的是，所述CNN是一个多层神经网络，该网络的训练过程可以是根据反向传播函数的输出即所述坐标变化量对网络中各层的参数进行调整。

进一步的，所述坐标重新获取子单元161可以基于调整网络参数后的CNN重新获取所述扰动图像数据对应的目标标定坐标，可以理解的是，调整网络参数后的CNN中的各层网络参数相对于调整前的参数计算得到的目标标定坐标更接近于所述参考标定坐标。

梯度信息获取子单元162，用于以所述参考标定坐标和重新获取到的所述目标标定坐标作为输入参数重新获取所述正向传播函数的梯度信息；

具体实现中，梯度信息获取子单元162可以以所述参考标定坐标和重新获取到的所述目标标定坐标作为输入参数重新获取所述正向传播函数的梯度信息，可以理解的是，重新获取到的梯度信息可以包括梯度值和梯度方向。

学习率获取子单元163，用于根据重新获取到的梯度信息中的梯度方向确定所述CNN的训练方向，并在所述训练方向上确定所述CNN的学习率，判断所述学习率是否达到最小值；

具体实现中，学习率获取子单元163可以根据重新获取到的梯度信息中的梯度方向确定所述CNN的训练方向，并在所述训练方向上确定所述CNN的学习率，可以理解的是，所述学习率获取子单元163可以在所述训练方向上基于CNN的循环迭代过程获取CNN的学习率，在循环迭代的过程中，所述学习率会越来越小，所述学习率获取子单元163可以判断所述学习率是否达到最小值。

输出变化确定子单元164，用于若所述学习率已达到最小值，则确定基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小，否则重新基于所述坐标变化量调整所述CNN中各网络层的网络参数

具体实现中，若所述学习率已达到最小值，输出变化确定子单元164可以确定基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小，可以理解的是，所述输出变化量最小时可以是根据所述最小学习率和所述梯度值计算得到的。若所述学习率未达到最小值，所述输出变化确定子单元164可以重新基于所述坐标变化量调整所述CNN中各网络层的网络参数。

本发明实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1-图4所示实施例的方法步骤，具体执行过程可以参见图1-图4所示实施例的具体说明，在此不进行赘述。

请参见图9，为本发明实施例提供了一种服务器的结构示意图。如图9所示，所述服务器1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及图像数据标定训练应用程序。

在图9所示的服务器1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；网络接口1004用于与用户终端进行数据通信；而处理器1001可以用于调用存储器1005中存储的图像数据标定训练应用程序，并具体执行以下操作：

基于所述输入参数获取所述正向传播函数的梯度信息，并根据所述梯度信息和所述CNN的当前学习率获取所述正向传播函数的输出变化量；

在一个实施例中，所述处理器1001在执行获取图像数据经扰动处理后所对应的扰动图像数据集合，并获取所述扰动图像数据集合对应的参考标定坐标时，具体执行以下操作：

获取所输入的图像数据，并获取所述图像数据携带的原标定点；

对所述图像数据进行扰动处理，获取经所述扰动处理后所述图像数据对应的扰动图像数据集合；

获取所述扰动图像数据集合中各扰动图像数据携带的扰动标定点，将所述扰动标定点对应的标定坐标确定为参考标定坐标，所述扰动标定点为所述原标定点经所述扰动处理后所得的标定点。

在一个实施例中，所述扰动处理包括运动模糊处理。

在一个实施例中，所述处理器1001在执行基于所述坐标变化量调整所述CNN中各网络层的网络参数，使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小时，具体执行以下操作：

基于所述坐标变化量调整所述CNN中各网络层的网络参数，并基于调整网络参数后的CNN重新获取所述扰动图像数据对应的目标标定坐标；

以所述参考标定坐标和重新获取到的所述目标标定坐标作为输入参数重新获取所述正向传播函数的梯度信息；

根据重新获取到的梯度信息中的梯度方向确定所述CNN的训练方向，并在所述训练方向上确定所述CNN的学习率，判断所述学习率是否达到最小值；

若所述学习率已达到最小值，则确定基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小，否则重新基于所述坐标变化量调整所述CNN中各网络层的网络参数。

在一个实施例中，所述正向传播函数包括由所述参考标定点和所述目标标定点确定的距离函数和方差函数，以及分别与所述距离函数和所述方差函数对应的权值。

在一个实施例中，所述处理器1001还用于执行以下操作：

在以所述参考标定坐标和所述目标标定坐标作为输入参数获取所述正向传播函数的梯度信息时，基于预设的参数调整速率调整所述分别与所述距离函数和所述方差函数对应的权值。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种图像数据标定训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述获取图像数据经扰动处理后所对应的扰动图像数据集合，并获取所述扰动图像数据集合对应的参考标定坐标，包括：

3.如权利要求1所述的方法，其特征在于，所述扰动处理包括运动模糊处理。

4.如权利要求1所述的方法，其特征在于，所述基于所述坐标变化量调整所述CNN中各网络层的网络参数，使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小，包括：

5.如权利要求1所述的方法，其特征在于，还包括：

所述正向传播函数包括由所述参考标定点和所述目标标定点确定的距离函数和方差函数，以及分别与所述距离函数和所述方差函数对应的权值。

6.如权利要求5所述的方法，还包括：

7.一种图像数据标定训练设备，其特征在于，包括：

8.如权利要求7所述的设备，其特征在于，所述参考坐标获取单元包括：

标定点获取子单元，用于获取所输入的图像数据，并获取所述图像数据携带的原标定点；

扰动数据获取子单元，用于对所述图像数据进行扰动处理，获取经所述扰动处理后所述图像数据对应的扰动图像数据集合；

参考坐标获取子单元，用于获取所述扰动图像数据集合中各扰动图像数据携带的扰动标定点，将所述扰动标定点对应的标定坐标确定为参考标定坐标，所述扰动标定点为所述原标定点经所述扰动处理后所得的标定点。

9.如权利要求7所述的设备，其特征在于，所述扰动处理包括运动模糊处理。

10.如权利要求7所述的设备，其特征在于，所述参数调整单元包括：

坐标重新获取子单元，用于基于所述坐标变化量调整所述CNN中各网络层的网络参数，并基于调整网络参数后的CNN重新获取所述扰动图像数据对应的目标标定坐标；

梯度信息获取子单元，用于以所述参考标定坐标和重新获取到的所述目标标定坐标作为输入参数重新获取所述正向传播函数的梯度信息；

学习率获取子单元，用于根据重新获取到的梯度信息中的梯度方向确定所述CNN的训练方向，并在所述训练方向上确定所述CNN的学习率，判断所述学习率是否达到最小值；

输出变化确定子单元，用于若所述学习率已达到最小值，则确定基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小，否则重新基于所述坐标变化量调整所述CNN中各网络层的网络参数。

11.如权利要求7所述的设备，其特征在于，还包括：

12.如权利要求11所述的设备，还包括：

权值调整单元，用于在以所述参考标定坐标和所述目标标定坐标作为输入参数获取所述正向传播函数的梯度信息时，基于预设的参数调整速率调整所述分别与所述距离函数和所述方差函数对应的权值。

13.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行以下步骤：

14.一种服务器，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行以下步骤：