CN107464261A - 一种图像数据标定训练方法及其设备、存储介质、服务器 - Google Patents

一种图像数据标定训练方法及其设备、存储介质、服务器 Download PDF

Info

Publication number
CN107464261A
CN107464261A CN201710550646.0A CN201710550646A CN107464261A CN 107464261 A CN107464261 A CN 107464261A CN 201710550646 A CN201710550646 A CN 201710550646A CN 107464261 A CN107464261 A CN 107464261A
Authority
CN
China
Prior art keywords
disturbance
cnn
coordinate
image data
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710550646.0A
Other languages
English (en)
Other versions
CN107464261B (zh
Inventor
刘运
马跃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bigo Technology Pte Ltd
Original Assignee
All Kinds Of Fruits Garden Guangzhou Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by All Kinds Of Fruits Garden Guangzhou Network Technology Co Ltd filed Critical All Kinds Of Fruits Garden Guangzhou Network Technology Co Ltd
Priority to CN201710550646.0A priority Critical patent/CN107464261B/zh
Publication of CN107464261A publication Critical patent/CN107464261A/zh
Application granted granted Critical
Publication of CN107464261B publication Critical patent/CN107464261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开一种图像数据标定训练方法及其设备、存储介质、服务器,其中方法包括如下步骤:获取图像数据经扰动处理后对应的扰动图像数据集合,及该集合对应的参考标定坐标;基于CNN获取扰动图像数据集合的目标标定坐标;将参考标定坐标和目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数;获取正向传播函数的梯度信息,根据梯度信息和CNN的学习率获取正向传播函数的输出变化量;根据输出变化量获取训练过程中反向传播函数内目标标定坐标的坐标变化量;基于坐标变化量调整CNN中各层网络参数,使调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。采用本发明,可以提高训练后的模型对图片中人脸进行标定的准确性。

Description

一种图像数据标定训练方法及其设备、存储介质、服务器
技术领域
本发明涉及计算机技术领域,尤其涉及一种图像数据标定训练方法及其设备、存储介质、服务器。
背景技术
在互联网技术快速发展以及人工智能技术越来越成熟的网络互联网时代,人脸定位这一图像处理技术成为了当下研究的热点技术之一。其中,人脸定位是通过图像处理算法计算出图片上人脸的各个特征点位置的技术,特征点可以是人脸上比价显著的点,例如眼角、眉角、嘴角、鼻尖以及下巴等。现有技术中,深度学习算法(例如,卷积神经网络CNN)是当前最常用的人脸定位算法,具体通过对图像库中图像的训练得到的训练模型,从而对人脸上各个特征点的位置的图片进行定位,然而,由于深度学习训练用的图像库中有些图像的标定点的存在误差或者错误,影响了训练后的模型对图像中人脸特征点进行标定的准确性。
发明内容
本发明实施例提供一种图像数据标定训练方法及其设备、存储介质、服务器,通过对已准确添加标定点的图像进行扰动处理,并分析扰动处理后的图像集合的训练过程,可以提高训练后的模型对图像中人脸特征点进行标定的准确性。
本发明实施例第一方面提供了一种图像数据标定训练方法,可包括:
获取图像数据经扰动处理后所对应的扰动图像数据集合,并获取所述扰动图像数据集合对应的参考标定坐标;
基于卷积神经网络CNN获取所述扰动图像数据集合对应的目标标定坐标;
将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数;
基于所述输入参数获取所述正向传播函数的梯度信息,并根据所述梯度信息和所述CNN的学习率获取所述正向传播函数的输出变化量;
根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量;
基于所述坐标变化量调整所述CNN中各网络层的网络参数,使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。
本发明实施例第二方面提供了一种图像数据标定训练设备,可包括:
参考坐标获取单元,用于获取图像数据经扰动处理后所对应的扰动图像数据集合,并获取所述扰动图像数据集合对应的参考标定坐标;
目标坐标获取单元,用于基于卷积神经网络CNN获取所述扰动图像数据集合对应的目标标定坐标;
参数确定单元,用于将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数;
输出变化获取单元,用于基于所述输入参数获取所述正向传播函数的梯度信息,并根据所述梯度信息和所述CNN的学习率获取所述正向传播函数的输出变化量;
坐标变化获取单元,用于根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量;
参数调整单元,用于基于所述坐标变化量调整所述CNN中各网络层的网络参数,使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。
本发明实施例第三方面提供了一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行以下步骤:
获取图像数据经扰动处理后所对应的扰动图像数据集合,并获取所述扰动图像数据集合对应的参考标定坐标;
基于卷积神经网络CNN获取所述扰动图像数据集合对应的目标标定坐标;
将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数;
基于所述输入参数获取所述正向传播函数的梯度信息,并根据所述梯度信息和所述CNN的学习率获取所述正向传播函数的输出变化量;
根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量;
基于所述坐标变化量调整所述CNN中各网络层的网络参数,使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。
本发明实施例第四方面提供了一种服务器,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行以下步骤:
获取图像数据经扰动处理后所对应的扰动图像数据集合,并获取所述扰动图像数据集合对应的参考标定坐标;
基于卷积神经网络CNN获取所述扰动图像数据集合对应的目标标定坐标;
将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数;
基于所述输入参数获取所述正向传播函数的梯度信息,并根据所述梯度信息和所述CNN的学习率获取所述正向传播函数的输出变化量;
根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量;
基于所述坐标变化量调整所述CNN中各网络层的网络参数,使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。
在本发明实施例中,通过获取图像数据经扰动处理后所对应的扰动图像数据集合,以及扰动图像数据集合对应的参考标定坐标,基于卷积神经网络CNN获取扰动图像数据集合对应的目标标定坐标,再将参考标定坐标和目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数,然后基于输入参数获取正向传播函数的梯度信息,并根据梯度信息和CNN的学习率获取正向传播函数的输出变化量,最后根据输出变化量获取图像数据标定训练过程中反向传播函数所指示的目标标定坐标的坐标变化量,基于坐标变化量调整CNN中各网络层的网络参数,使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。通过将图像数据经扰动处理后得到的扰动图像数据集合作为训练用的一批图像,再分析扰动图像数据集合作为训练用图像的训练过程,提高了训练后的模型对图像中人脸特征点进行标定的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种图像数据标定训练方法的流程示意图;
图2是本发明实施例提供的一种人脸识别过程示意图;
图3是本发明实施例提供的一种扰动图像数据集合显示示意图;
图4是本发明实施例提供的另一种图像数据标定训练方法的流程示意图;
图5是本发明实施例提供的一种图像数据标定训练设备的结构示意图;
图6是本发明实施例提供的另一种图像数据标定训练设备的结构示意图;
图7是本发明实施例提供的参考坐标获取单元的结构示意图;
图8是本发明实施例提供的参数调整单元的结构示意图;
图9是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的图像数据标定训练方法可以应用于基于CNN对人脸图像进行训练的场景中,例如:图像数据标定训练设备获取图像数据经扰动处理后所对应的扰动图像数据集合,以及所述扰动图像数据集合对应的参考标定坐标,基于卷积神经网络CNN获取所述扰动图像数据集合对应的目标标定坐标,再将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数,基于所述输入参数获取所述正向传播函数的梯度信息,并根据所述梯度信息和所述CNN的学习率获取所述正向传播函数的输出变化量,最后根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量,基于所述坐标变化量调整所述CNN中各网络层的网络参数,使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。通过将图像数据经扰动处理后得到的扰动图像数据集合作为训练用的一批图像,再分析扰动图像数据集合作为训练用图像的训练过程,提高了训练后的模型对图像中人脸特征点进行标定的准确性。
本发明实施例涉及的图像数据标定训练设备可以是具备管理资源并为用户提供服务的计算机设备,例如,可以是具有较强的数据承载能力和处理能力的服务器。
下面将结合附图1-附图4,对本发明实施例提供的图像数据标定训练方法进行详细介绍。
请参见图1,为本发明实施例提供了一种图像数据标定训练方法的流程示意图。如图1所示,本发明实施例的所述方法可以包括以下步骤S101-步骤S106。
S101,获取图像数据经扰动处理后所对应的扰动图像数据集合,并获取所述扰动图像数据集合对应的参考标定坐标;
具体的,图像数据标定训练设备可以获取图像数据经扰动处理后所对应的扰动图像数据,可以理解的是,所述图像数据可以是已添加标定点的人脸图像(可以采用现有的图像标定算法标定人脸图像中的特征点),该人脸图像可以是所选取的标定点对应的标点坐标准确性较高的图像。可选的,可以对已添加标定点的图像数据(原彩色图像)进行灰度处理后采用人脸检测算法检测出其中的人脸,如图2所示。所述扰动处理可以是对所述图像数据进行平移、镜像旋转、轻微缩放(20%以内)、轻微旋转(±10度以内)、加轻微随机噪声以及做运动模糊处理等等,所述扰动图像数据集合可以为所述图像数据经过上述扰动处理后得到的一批图像数据如图3所示,其中,所述模糊运动处理是针对视频图像数据特有的图像处理方法。
进一步的,所述图像数据标定训练设备可以获取所述扰动图像数据集合对应的参考标定坐标,可以理解的是,所述图像数据在进行扰动处理前已携带原标定点,对所述图像数据进行扰动处理后,所述原标定点对应的标定点坐标也需要进行相应的变换。例如,对图像数据进行平移后,所述原标定点对应的标定点坐标也进行了相应的平移得到扰动标定点坐标。可以理解的是,所述参考标定点坐标可以为所述扰动图像数据集合中各扰动图像数据对应扰动标定点坐标的集合,可以用张量Y表示。
S102,基于卷积神经网络CNN获取所述扰动图像数据集合对应的目标标定坐标;
具体的,所述图像数据标定训练设备可以基于卷积神经网络(ConstitutionalNeural Networks,CNN)获取所述扰动图像数据集合对应的目标标定坐标,可以理解的是,所述CNN是在多层神经网络的基础上发展起来的针对图像分类和识别而特别设计的一种深度学习方法。所述目标标定坐标可以是所述扰动图像数据集合中经所述CNN处理后计算得到的对所述扰动图像数据集合中各扰动图像数据的标定坐标的集合,可以用张量表示。
S103,将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数;
具体的,所述图像数据标定训练设备可以将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数,可以理解的是,所述正向传播函数可以是联合损失函数(Loss function),所述联合损失函数的计算公式例如可以是:
其中,参考标定坐标Y和所述目标标定坐标为Loss函数的输出参数,是所述扰动图像数据集合中定位出的目标标定坐标和参考标定坐标的差向量的均值。α是一个介于0到1之间的值,随训练的周期(epoch)增长而递减,可以理解的是,基于对α所设置的初始值和参数调整速率可以控制CNN在训练的初期主要针对定位准确性进行优化,而后期当CNN的学习率下降时,优化目标转移到方差上,对定位的方差进行微调。
需要说明的是,通过在Loss函数中引入方差,并将其作为优化目标,使得CNN在模型训练过程中可以通过对所述目标标定坐标和所述参考标定坐标间方差的优化,减少视频图像数据标定点定位抖动情况的发生。
S104,基于所述输入参数获取所述正向传播函数的梯度信息,并根据所述梯度信息和所述CNN的学习率获取所述正向传播函数的输出变化量;
具体的,所述图像数据标定训练设备可以基于所述输入参数获取所述正向传播函数的梯度信息,可以理解的是,所述图像数据标定训练设备可以求取上述Loss函数的梯度,所述梯度所包含的梯度信息可以有梯度值和梯度方向。
可以理解的是,所述图像数据标定训练设备可以根据所述梯度方向确定所述CNN的训练方向,需要说明的是,所述训练方向为与所述梯度方向相反的方向,进一步的,所述图像数据标定训练设备可以在所述训练方向上基于CNN的循环迭代过程获取CNN的学习率,并可以基于所述学习率和所述梯度值计算上述Loss函数的输出变化量,所述输出变化量可以设为ΔL。
S105,根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量;
具体的,所述图像数据标定训练设备可以根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量,可以理解的是,所述反向传播函数可以用于计算所述目标标定坐标的坐标变化量例如计算公式如下:
S106,基于所述坐标变化量调整所述CNN中各网络层的网络参数,使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小;
具体的,所述图像数据标定训练设备可以基于所述坐标变化量调整所述CNN中各网络层的网络参数,可以理解的是,所述CNN是一个多层神经网络,该网络的训练过程可以是根据反向传播函数的输出即所述坐标变化量对网络中各层的参数进行调整。
可以理解的是,调整所述CNN中各网络层的网络参数的目的是使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。当所述输出变化量最小时,可以认为基于所述CNN的图像数据标定训练过程已经完成。可以理解的是,由于在所述CNN循环迭代的训练过程中,可以得到最小学习率,所述图像数据标定训练设备基于所述最小学习率获取到的所述输出变化量最小。
在本发明实施例中,通过获取图像数据经扰动处理后所对应的扰动图像数据集合,以及扰动图像数据集合对应的参考标定坐标,基于卷积神经网络CNN获取扰动图像数据集合对应的目标标定坐标,再将参考标定坐标和目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数,然后基于输入参数获取正向传播函数的梯度信息,并根据梯度信息和CNN的学习率获取正向传播函数的输出变化量,最后根据输出变化量获取图像数据标定训练过程中反向传播函数所指示的目标标定坐标的坐标变化量,基于坐标变化量调整CNN中各网络层的网络参数,使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。通过将图像数据经扰动处理后得到的扰动图像数据集合作为训练用的一批图像,再分析扰动图像数据集合作为训练用图像的训练过程,提高了训练后的模型对图像中人脸特征点进行标定的准确性。
请参见图4,为本发明实施例提供了另一种图像数据标定训练方法的流程示意图。如图4所示,本发明实施例的所述方法可以包括以下步骤S201-步骤S212。
S201,获取所输入的图像数据,并获取所述图像数据携带的原标定点;
具体的,图像数据标定训练设备可以获取所输入的图像数据,可以理解的是,所述图像数据可以是已添加标定点的人脸图像(可以采用现有的图像标定算法标定人脸图像中的特征点),该人脸图像可以是所选取的标定点对应的标点坐标准确性较高的图像。
进一步的,所述图像数据标定训练设备可以获取所述图像数据携带的原标定点,可以理解的是,所述原标定点可以是所述图像数据中添加的标定点,可选的,所述原标定点可以是对所述图像数据进行标定时所选择的标定坐标准确率较高的点。
S202,对所述图像数据进行扰动处理,获取经所述扰动处理后所述图像数据对应的扰动图像数据集合;
可以理解的是,在对所述图像数据进行扰动处理之前,所述图像数据标定训练设备可以对已添加标定点的图像数据(原彩色图像)进行灰度处理后采用人脸检测算法检测出其中的人脸,如图2所示。
进一步的,所述图像数据标定训练设备可以对所述图像数据进行扰动处理,获取经所述扰动处理后所述图像数据对应的扰动图像数据集合,可以理解的是,所述扰动处理可以是对所述图像数据进行平移、镜像旋转、轻微缩放(20%以内)、轻微旋转(±10度以内)、加轻微随机噪声以及做运动模糊处理等等,所述扰动图像数据集合可以为所述图像数据经过上述扰动处理后得到的一批图像数据如图3所示,其中,所述模糊运动处理是针对视频图像数据特有的图像处理方法。
S203,获取所述扰动图像数据集合中各扰动图像数据携带的扰动标定点,将所述扰动标定点对应的标定坐标确定为参考标定坐标;
可以理解的是,所述图像数据在进行扰动处理前已携带原标定点,对所述图像数据进行扰动处理后,所述原标定点对应的标定点坐标也需要进行相应的变换。例如,对图像数据进行平移后,所述原标定点对应的标定点坐标也进行了相应的平移得到扰动标定点坐标。
具体的,所述图像数据标定训练设备可以获取所述扰动图像数据集合中各扰动图像数据携带的扰动标定点,并可以将所述各扰动图像数据携带的扰动标定点的集合确定为参考标定坐标,可以用张量Y表示所述参考标定坐标。
S204,基于卷积神经网络CNN获取所述扰动图像数据集合对应的目标标定坐标;
具体的,所述图像数据标定训练设备可以基于CNN获取所述扰动图像数据集合对应的目标标定坐标,可以理解的是,所述CNN是在多层神经网络的基础上发展起来的针对图像分类和识别而特别设计的一种深度学习方法。所述目标标定坐标可以是所述扰动图像数据集合中经所述CNN处理后计算得到的对所述扰动图像数据集合中各扰动图像数据的标定坐标的集合,可以用张量表示。
S205,将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数;
具体的,所述图像数据标定训练设备可以将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数,可以理解的是,所述正向传播函数可以是联合损失函数(Loss function),所述联合损失函数的计算公式例如可以是:
其中,参考标定坐标Y和所述目标标定坐标为Loss函数的输出参数,是所述扰动图像数据集合中定位出的目标标定坐标和参考标定坐标的差向量的均值。α是一个介于0到1之间的值,随训练的周期增长而递减。
可以理解的是,所述正向传播函数Loss包括由所述参考标定点和所述目标标定点确定的距离函数和方差函数,以及分别与所述距离函数和所述方差函数对应的权值。
S206,在以所述参考标定坐标和所述目标标定坐标作为输入参数获取所述正向传播函数的梯度信息时,基于预设的参数调整速率调整所述分别与所述距离函数和所述方差函数对应的权值;
具体的,在以所述参考标定坐标和所述目标标定坐标作为输入参数获取所述正向传播函数的梯度信息时,所述图像数据标定训练设备可以基于预设的参数调整速率调整所述分别与所述距离函数和所述方差函数对应的权值。例如,当α的初始值为1,所述数调整速率为0.99时,在CNN首次训练时正向传播过程中所述距离函数和所述方差函数的权值分别为1/2N和0、第二次训练时二者的权值分别为0.99/2N和0.01/2N以及第三次训练时二者的权值分别为0.992/2N和(1-0.992)/2N。
可以理解的是,基于对α所设置的初始值和参数调整速率可以控制CNN在训练的初期(即距离函数对应的权值较大时)主要针对定位准确性进行优化,而后期(即方差函数对应的权值较大时)随所述CNN在训练过程中不断的循环迭代,所述CNN的逐渐学习率下降,训练时的优化目标转移到方差上,对定位的方差进行微调。
在本发明实施例中,所述图像数据标定训练设备通过在所述CNN图像训练过程中基于对所述目标标定坐标和所述参考标定坐标间方差的优化,减少了视频图像数据标定点定位抖动情况的发生。
S207,基于所述输入参数获取所述正向传播函数的梯度信息,并根据所述梯度信息和所述CNN的学习率获取所述正向传播函数的输出变化量;
具体的,所述图像数据标定训练设备可以基于所述输入参数获取所述正向传播函数的梯度信息,可以理解的是,所述图像数据标定训练设备可以求取上述Loss函数的梯度,所述梯度所包含的梯度信息可以有梯度值和梯度方向。
可以理解的是,所述图像数据标定训练设备可以根据所述梯度方向确定所述CNN的训练方向,需要说明的是,所述训练方向为与所述梯度方向相反的方向,进一步的,所述图像数据标定训练设备可以在所述训练方向上基于CNN的循环迭代过程获取CNN的学习率,并可以基于所述学习率和所述梯度值计算上述Loss函数的输出变化量,所述输出变化量可以设为ΔL。
S208,根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量;
具体的,所述图像数据标定训练设备可以根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量,可以理解的是,所述反向传播函数可以用于计算所述目标标定坐标的坐标变化量例如计算公式如下:
S209,基于所述坐标变化量调整所述CNN中各网络层的网络参数,并基于调整网络参数后的CNN重新获取所述扰动图像数据对应的目标标定坐标;
具体的,所述图像数据标定训练设备可以基于所述坐标变化量调整所述CNN中各网络层的网络参数,可以理解的是,所述CNN是一个多层神经网络,该网络的训练过程可以是根据反向传播函数的输出即所述坐标变化量对网络中各层的参数进行调整。
进一步的,所述图像数据标定训练设备可以基于调整网络参数后的CNN重新获取所述扰动图像数据对应的目标标定坐标,可以理解的是,调整网络参数后的CNN中的各层网络参数相对于调整前的参数计算得到的目标标定坐标更接近于所述参考标定坐标。
S210,以所述参考标定坐标和重新获取到的所述目标标定坐标作为输入参数重新获取所述正向传播函数的梯度信息;
具体的,所述图像数据标定训练设备可以以所述参考标定坐标和重新获取到的所述目标标定坐标作为输入参数重新获取所述正向传播函数的梯度信息,可以理解的是,重新获取到的梯度信息可以包括梯度值和梯度方向。
S211,根据重新获取到的梯度信息中的梯度方向确定所述CNN的训练方向,并在所述训练方向上确定所述CNN的学习率,判断所述学习率是否达到最小值;
具体的,所述图像数据标定训练设备可以根据重新获取到的梯度信息中的梯度方向确定所述CNN的训练方向,并在所述训练方向上确定所述CNN的学习率,可以理解的是,所述图像数据标定训练设备可以在所述训练方向上基于CNN的循环迭代过程获取CNN的学习率,在循环迭代的过程中,所述学习率会越来越小,所述图像数据标定训练设备可以判断所述学习率是否达到最小值。
S212,若所述学习率已达到最小值,则确定基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小,否则重新基于所述坐标变化量调整所述CNN中各网络层的网络参数;
可以理解的是,调整所述CNN中各网络层的网络参数的目的是使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。当所述输出变化量最小时,可以认为基于所述CNN的图像数据标定训练过程已经完成。可以理解的是,由于在所述CNN循环迭代的训练过程中,可以得到最小学习率,所述图像数据标定训练设备基于所述最小学习率获取到的所述输出变化量最小。
具体的,若所述学习率已达到最小值,所述图像数据标定训练设备可以确定基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小,可以理解的是,所述输出变化量最小时可以是根据所述最小学习率和所述梯度值计算得到的。若所述学习率未达到最小值,所述图像数据标定训练设备可以重新基于所述坐标变化量调整所述CNN中各网络层的网络参数。
在本发明实施例中,通过获取图像数据经扰动处理后所对应的扰动图像数据集合,以及扰动图像数据集合对应的参考标定坐标,基于卷积神经网络CNN获取扰动图像数据集合对应的目标标定坐标,再将参考标定坐标和目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数,然后基于输入参数获取正向传播函数的梯度信息,并根据梯度信息和CNN的学习率获取正向传播函数的输出变化量,最后根据输出变化量获取图像数据标定训练过程中反向传播函数所指示的目标标定坐标的坐标变化量,基于坐标变化量调整CNN中各网络层的网络参数,使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。通过将图像数据经扰动处理后得到的扰动图像数据集合作为训练用的一批图像,再分析扰动图像数据集合作为训练用图像的训练过程,提高了训练后的模型对图像中人脸特征点进行标定的准确性;通过在CNN图像训练过程中基于对目标标定坐标和参考标定坐标间方差的优化,减少了视频图像数据标定点定位抖动情况的发生。
下面将结合附图5-附图8,对本发明实施例提供的图像数据标定训练设备进行详细介绍。需要说明的是,附图5-附图8所示的设备,用于执行本发明图1-图4所示实施例的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明图1-图4所示的实施例。
请参见图5,为本发明实施例提供了一种图像数据标定训练设备的结构示意图。如图5所示,本发明实施例的所述图像数据标定训练设备1可以包括:参考坐标获取单元11、目标坐标获取单元12、参数确定单元13、输出变化获取单元14、坐标变化获取单元15和参数调整单元16。
参考坐标获取单元11,用于获取图像数据经扰动处理后所对应的扰动图像数据集合,并获取所述扰动图像数据集合对应的参考标定坐标;
具体实现中,参考坐标获取单元11可以获取图像数据经扰动处理后所对应的扰动图像数据,可以理解的是,所述图像数据可以是已添加标定点的人脸图像(可以采用现有的图像标定算法标定人脸图像中的特征点),该人脸图像可以是所选取的标定点对应的标点坐标准确性较高的图像。可选的,可以对已添加标定点的图像数据(原彩色图像)进行灰度处理后采用人脸检测算法检测出其中的人脸,如图2所示。所述扰动处理可以是对所述图像数据进行平移、镜像旋转、轻微缩放(20%以内)、轻微旋转(±10度以内)、加轻微随机噪声以及做运动模糊处理等等,所述扰动图像数据集合可以为所述图像数据经过上述扰动处理后得到的一批图像数据如图3所示,其中,所述模糊运动处理是针对视频图像数据特有的图像处理方法。
进一步的,所述参考坐标获取单元11可以获取所述扰动图像数据集合对应的参考标定坐标,可以理解的是,所述图像数据在进行扰动处理前已携带原标定点,对所述图像数据进行扰动处理后,所述原标定点对应的标定点坐标也需要进行相应的变换。例如,对图像数据进行平移后,所述原标定点对应的标定点坐标也进行了相应的平移得到扰动标定点坐标。可以理解的是,所述参考标定点坐标可以为所述扰动图像数据集合中各扰动图像数据对应扰动标定点坐标的集合,可以用张量Y表示。
目标坐标获取单元12,用于基于卷积神经网络CNN获取所述扰动图像数据集合对应的目标标定坐标;
具体实现中,目标坐标获取单元12可以基于CNN获取所述扰动图像数据集合对应的目标标定坐标,可以理解的是,所述CNN是在多层神经网络的基础上发展起来的针对图像分类和识别而特别设计的一种深度学习方法。所述目标标定坐标可以是所述扰动图像数据集合中经所述CNN处理后计算得到的对所述扰动图像数据集合中各扰动图像数据的标定坐标的集合,可以用张量表示。
参数确定单元13,用于将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数;
具体实现中,参数确定单元13可以将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数,可以理解的是,所述正向传播函数可以是联合损失函数(Loss function),所述联合损失函数的计算公式例如可以是:
其中,参考标定坐标Y和所述目标标定坐标为Loss函数的输出参数,是所述扰动图像数据集合中定位出的目标标定坐标和参考标定坐标的差向量的均值。α是一个介于0到1之间的值,随训练的周期增长而递减,可以理解的是,基于对α所设置的初始值和参数调整速率可以控制CNN在训练的初期主要针对定位准确性进行优化,而后期当CNN的学习率下降时,优化目标转移到方差上,对定位的方差进行微调。
需要说明的是,通过在Loss函数中引入方差,并将其作为优化目标,使得CNN在模型训练过程中可以通过对所述目标标定坐标和所述参考标定坐标间方差的优化,减少视频图像数据标定点定位抖动情况的发生。
输出变化获取单元14,用于基于所述输入参数获取所述正向传播函数的梯度信息,并根据所述梯度信息和所述CNN的学习率获取所述正向传播函数的输出变化量;
具体实现中,输出变化获取单元14可以基于所述输入参数获取所述正向传播函数的梯度信息,可以理解的是,所述图像数据标定训练设备1可以求取上述Loss函数的梯度,所述梯度所包含的梯度信息可以有梯度值和梯度方向。
可以理解的是,所述输出变化获取单元14可以根据所述梯度方向确定所述CNN的训练方向,需要说明的是,所述训练方向为与所述梯度方向相反的方向,进一步的,所述输出变化获取单元14可以在所述训练方向上基于CNN的循环迭代过程获取CNN的学习率,并可以基于所述学习率和所述梯度值计算上述Loss函数的输出变化量,所述输出变化量可以设为ΔL。
坐标变化获取单元15,用于根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量;
具体实现中,坐标变化获取单元15可以根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量,可以理解的是,所述反向传播函数可以用于计算所述目标标定坐标的坐标变化量例如计算公式如下:
参数调整单元16,用于基于所述坐标变化量调整所述CNN中各网络层的网络参数,使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小;
具体实现中,参数调整单元16可以基于所述坐标变化量调整所述CNN中各网络层的网络参数,可以理解的是,所述CNN是一个多层神经网络,该网络的训练过程可以是根据反向传播函数的输出即所述坐标变化量对网络中各层的参数进行调整。
可以理解的是,调整所述CNN中各网络层的网络参数的目的是使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。当所述输出变化量最小时,可以认为基于所述CNN的图像数据标定训练过程已经完成。可以理解的是,由于在所述CNN循环迭代的训练过程中,可以得到最小学习率,所述参数调整单元16基于所述最小学习率获取到的所述输出变化量最小。
在本发明实施例中,通过获取图像数据经扰动处理后所对应的扰动图像数据集合,以及扰动图像数据集合对应的参考标定坐标,基于卷积神经网络CNN获取扰动图像数据集合对应的目标标定坐标,再将参考标定坐标和目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数,然后基于输入参数获取正向传播函数的梯度信息,并根据梯度信息和CNN的学习率获取正向传播函数的输出变化量,最后根据输出变化量获取图像数据标定训练过程中反向传播函数所指示的目标标定坐标的坐标变化量,基于坐标变化量调整CNN中各网络层的网络参数,使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。通过将图像数据经扰动处理后得到的扰动图像数据集合作为训练用的一批图像,再分析扰动图像数据集合作为训练用图像的训练过程,提高了训练后的模型对图像中人脸特征点进行标定的准确性。
请参见图6,为本发明实施例提供了一种图像数据标定训练设备的结构示意图。如图6所示,本发明实施例的所述图像数据标定训练设备1可以包括:参考坐标获取单元11、目标坐标获取单元12、参数确定单元13、输出变化获取单元14、坐标变化获取单元15、参数调整单元16和权值调整单元17。
参考坐标获取单元11,用于获取图像数据经扰动处理后所对应的扰动图像数据集合,并获取所述扰动图像数据集合对应的参考标定坐标;
具体实现中,参考坐标获取单元11可以获取图像数据经扰动处理后所对应的扰动图像数据,并获取所述扰动图像数据集合对应的参考标定坐标。
请一并参考图7,为本发明实施例提供了参考坐标获取单元的结构示意图。如图7所示,所述参考坐标获取单元11可以包括:
标定点获取子单元111,用于获取所输入的图像数据,并获取所述图像数据携带的原标定点;
具体实现中,标定点获取子单元111可以获取所输入的图像数据,可以理解的是,所述图像数据可以是已添加标定点的人脸图像(可以采用现有的图像标定算法标定人脸图像中的特征点),该人脸图像可以是所选取的标定点对应的标点坐标准确性较高的图像。
进一步的,所述标定点获取子单元111可以获取所述图像数据携带的原标定点,可以理解的是,所述原标定点可以是所述图像数据中添加的标定点,可选的,所述原标定点可以是对所述图像数据进行标定时所选择的标定坐标准确率较高的点。
扰动数据获取子单元112,用于对所述图像数据进行扰动处理,获取经所述扰动处理后所述图像数据对应的扰动图像数据集合;
可以理解的是,在对所述图像数据进行扰动处理之前,所述图像数据标定训练设备1可以对已添加标定点的图像数据(原彩色图像)进行灰度处理后采用人脸检测算法检测出其中的人脸,如图2所示。
进一步的,扰动数据获取子单元112可以对所述图像数据进行扰动处理,获取经所述扰动处理后所述图像数据对应的扰动图像数据集合,可以理解的是,所述扰动处理可以是对所述图像数据进行平移、镜像旋转、轻微缩放(20%以内)、轻微旋转(±10度以内)、加轻微随机噪声以及做运动模糊处理等等,所述扰动图像数据集合可以为所述图像数据经过上述扰动处理后得到的一批图像数据如图3所示,其中,所述模糊运动处理是针对视频图像数据特有的图像处理方法。
参考坐标获取子单元113,用于获取所述扰动图像数据集合中各扰动图像数据携带的扰动标定点,将所述扰动标定点对应的标定坐标确定为参考标定坐标;
可以理解的是,所述图像数据在进行扰动处理前已携带原标定点,对所述图像数据进行扰动处理后,所述原标定点对应的标定点坐标也需要进行相应的变换。例如,对图像数据进行平移后,所述原标定点对应的标定点坐标也进行了相应的平移得到扰动标定点坐标。
具体实现中,参考坐标获取子单元113可以获取所述扰动图像数据集合中各扰动图像数据携带的扰动标定点,并可以将所述各扰动图像数据携带的扰动标定点的集合确定为参考标定坐标,可以用张量Y表示所述参考标定坐标。
目标坐标获取单元12,用于基于卷积神经网络CNN获取所述扰动图像数据集合对应的目标标定坐标;
具体实现中,目标坐标获取单元12可以基于CNN获取所述扰动图像数据集合对应的目标标定坐标,可以理解的是,所述CNN是在多层神经网络的基础上发展起来的针对图像分类和识别而特别设计的一种深度学习方法。所述目标标定坐标可以是所述扰动图像数据集合中经所述CNN处理后计算得到的对所述扰动图像数据集合中各扰动图像数据的标定坐标的集合,可以用张量表示。
参数确定单元13,用于将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数;
具体实现中,参数确定单元13可以将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数,可以理解的是,所述正向传播函数可以是联合损失函数(Loss function),所述联合损失函数的计算公式例如可以是:
其中,参考标定坐标Y和所述目标标定坐标为Loss函数的输出参数,是所述扰动图像数据集合中定位出的目标标定坐标和参考标定坐标的差向量的均值。α是一个介于0到1之间的值,随训练的周期增长而递减。
可以理解的是,所述正向传播函数Loss包括由所述参考标定点和所述目标标定点确定的距离函数和方差函数,以及分别与所述距离函数和所述方差函数对应的权值。
权值调整单元17,用于在以所述参考标定坐标和所述目标标定坐标作为输入参数获取所述正向传播函数的梯度信息时,基于预设的参数调整速率调整所述分别与所述距离函数和所述方差函数对应的权值;
具体实现中,在以所述参考标定坐标和所述目标标定坐标作为输入参数获取所述正向传播函数的梯度信息时,权值调整单元17可以基于预设的参数调整速率调整所述分别与所述距离函数和所述方差函数对应的权值。例如,当α的初始值为1,所述数调整速率为0.99时,在CNN首次训练时正向传播过程中所述距离函数和所述方差函数的权值分别为1/2N和0、第二次训练时二者的权值分别为0.99/2N和0.01/2N以及第三次训练时二者的权值分别为0.992/2N和(1-0.992)/2N。
可以理解的是,基于对α所设置的初始值和参数调整速率可以控制CNN在训练的初期(即距离函数对应的权值较大时)主要针对定位准确性进行优化,而后期(即方差函数对应的权值较大时)随所述CNN在训练过程中不断的循环迭代,所述CNN的逐渐学习率下降,训练时的优化目标转移到方差上,对定位的方差进行微调。
在本发明实施例中,所述图像数据标定训练设备通过在所述CNN图像训练过程中基于对所述目标标定坐标和所述参考标定坐标间方差的优化,减少了视频图像数据标定点定位抖动情况的发生。
输出变化获取单元14,用于基于所述输入参数获取所述正向传播函数的梯度信息,并根据所述梯度信息和所述CNN的学习率获取所述正向传播函数的输出变化量;
具体实现中,输出变化获取单元14可以基于所述输入参数获取所述正向传播函数的梯度信息,可以理解的是,所述图像数据标定训练设备可以求取上述Loss函数的梯度,所述梯度所包含的梯度信息可以有梯度值和梯度方向。
可以理解的是,所述输出变化获取单元14可以根据所述梯度方向确定所述CNN的训练方向,需要说明的是,所述训练方向为与所述梯度方向相反的方向,进一步的,所述输出变化获取单元14可以在所述训练方向上基于CNN的循环迭代过程获取CNN的学习率,并可以基于所述学习率和所述梯度值计算上述Loss函数的输出变化量,所述输出变化量可以设为ΔL。
坐标变化获取单元15,用于根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量;
具体实现中,坐标变化获取单元15可以根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量,可以理解的是,所述反向传播函数可以用于计算所述目标标定坐标的坐标变化量例如计算公式如下:
参数调整单元16,用于基于所述坐标变化量调整所述CNN中各网络层的网络参数,使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小;
具体实现中,参数调整单元16可以基于所述坐标变化量调整所述CNN中各网络层的网络参数,使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。
请一并参考图8,为本发明实施例提供了参数调整单元的结构示意图。如图8所示,所述参数调整单元16可以包括:
坐标重新获取子单元161,用于基于所述坐标变化量调整所述CNN中各网络层的网络参数,并基于调整网络参数后的CNN重新获取所述扰动图像数据对应的目标标定坐标;
具体实现中,坐标重新获取子单元161可以基于所述坐标变化量调整所述CNN中各网络层的网络参数,可以理解的是,所述CNN是一个多层神经网络,该网络的训练过程可以是根据反向传播函数的输出即所述坐标变化量对网络中各层的参数进行调整。
进一步的,所述坐标重新获取子单元161可以基于调整网络参数后的CNN重新获取所述扰动图像数据对应的目标标定坐标,可以理解的是,调整网络参数后的CNN中的各层网络参数相对于调整前的参数计算得到的目标标定坐标更接近于所述参考标定坐标。
梯度信息获取子单元162,用于以所述参考标定坐标和重新获取到的所述目标标定坐标作为输入参数重新获取所述正向传播函数的梯度信息;
具体实现中,梯度信息获取子单元162可以以所述参考标定坐标和重新获取到的所述目标标定坐标作为输入参数重新获取所述正向传播函数的梯度信息,可以理解的是,重新获取到的梯度信息可以包括梯度值和梯度方向。
学习率获取子单元163,用于根据重新获取到的梯度信息中的梯度方向确定所述CNN的训练方向,并在所述训练方向上确定所述CNN的学习率,判断所述学习率是否达到最小值;
具体实现中,学习率获取子单元163可以根据重新获取到的梯度信息中的梯度方向确定所述CNN的训练方向,并在所述训练方向上确定所述CNN的学习率,可以理解的是,所述学习率获取子单元163可以在所述训练方向上基于CNN的循环迭代过程获取CNN的学习率,在循环迭代的过程中,所述学习率会越来越小,所述学习率获取子单元163可以判断所述学习率是否达到最小值。
输出变化确定子单元164,用于若所述学习率已达到最小值,则确定基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小,否则重新基于所述坐标变化量调整所述CNN中各网络层的网络参数
可以理解的是,调整所述CNN中各网络层的网络参数的目的是使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。当所述输出变化量最小时,可以认为基于所述CNN的图像数据标定训练过程已经完成。可以理解的是,由于在所述CNN循环迭代的训练过程中,可以得到最小学习率,所述图像数据标定训练设备基于所述最小学习率获取到的所述输出变化量最小。
具体实现中,若所述学习率已达到最小值,输出变化确定子单元164可以确定基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小,可以理解的是,所述输出变化量最小时可以是根据所述最小学习率和所述梯度值计算得到的。若所述学习率未达到最小值,所述输出变化确定子单元164可以重新基于所述坐标变化量调整所述CNN中各网络层的网络参数。
在本发明实施例中,通过获取图像数据经扰动处理后所对应的扰动图像数据集合,以及扰动图像数据集合对应的参考标定坐标,基于卷积神经网络CNN获取扰动图像数据集合对应的目标标定坐标,再将参考标定坐标和目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数,然后基于输入参数获取正向传播函数的梯度信息,并根据梯度信息和CNN的学习率获取正向传播函数的输出变化量,最后根据输出变化量获取图像数据标定训练过程中反向传播函数所指示的目标标定坐标的坐标变化量,基于坐标变化量调整CNN中各网络层的网络参数,使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。通过将图像数据经扰动处理后得到的扰动图像数据集合作为训练用的一批图像,再分析扰动图像数据集合作为训练用图像的训练过程,提高了训练后的模型对图像中人脸特征点进行标定的准确性;通过在CNN图像训练过程中基于对目标标定坐标和参考标定坐标间方差的优化,减少了视频图像数据标定点定位抖动情况的发生。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1-图4所示实施例的方法步骤,具体执行过程可以参见图1-图4所示实施例的具体说明,在此不进行赘述。
请参见图9,为本发明实施例提供了一种服务器的结构示意图。如图9所示,所述服务器1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及图像数据标定训练应用程序。
在图9所示的服务器1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;网络接口1004用于与用户终端进行数据通信;而处理器1001可以用于调用存储器1005中存储的图像数据标定训练应用程序,并具体执行以下操作:
获取图像数据经扰动处理后所对应的扰动图像数据集合,并获取所述扰动图像数据集合对应的参考标定坐标;
基于卷积神经网络CNN获取所述扰动图像数据集合对应的目标标定坐标;
将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数;
基于所述输入参数获取所述正向传播函数的梯度信息,并根据所述梯度信息和所述CNN的当前学习率获取所述正向传播函数的输出变化量;
根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量;
基于所述坐标变化量调整所述CNN中各网络层的网络参数,使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。
在一个实施例中,所述处理器1001在执行获取图像数据经扰动处理后所对应的扰动图像数据集合,并获取所述扰动图像数据集合对应的参考标定坐标时,具体执行以下操作:
获取所输入的图像数据,并获取所述图像数据携带的原标定点;
对所述图像数据进行扰动处理,获取经所述扰动处理后所述图像数据对应的扰动图像数据集合;
获取所述扰动图像数据集合中各扰动图像数据携带的扰动标定点,将所述扰动标定点对应的标定坐标确定为参考标定坐标,所述扰动标定点为所述原标定点经所述扰动处理后所得的标定点。
在一个实施例中,所述扰动处理包括运动模糊处理。
在一个实施例中,所述处理器1001在执行基于所述坐标变化量调整所述CNN中各网络层的网络参数,使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小时,具体执行以下操作:
基于所述坐标变化量调整所述CNN中各网络层的网络参数,并基于调整网络参数后的CNN重新获取所述扰动图像数据对应的目标标定坐标;
以所述参考标定坐标和重新获取到的所述目标标定坐标作为输入参数重新获取所述正向传播函数的梯度信息;
根据重新获取到的梯度信息中的梯度方向确定所述CNN的训练方向,并在所述训练方向上确定所述CNN的学习率,判断所述学习率是否达到最小值;
若所述学习率已达到最小值,则确定基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小,否则重新基于所述坐标变化量调整所述CNN中各网络层的网络参数。
在一个实施例中,所述正向传播函数包括由所述参考标定点和所述目标标定点确定的距离函数和方差函数,以及分别与所述距离函数和所述方差函数对应的权值。
在一个实施例中,所述处理器1001还用于执行以下操作:
在以所述参考标定坐标和所述目标标定坐标作为输入参数获取所述正向传播函数的梯度信息时,基于预设的参数调整速率调整所述分别与所述距离函数和所述方差函数对应的权值。
在本发明实施例中,通过获取图像数据经扰动处理后所对应的扰动图像数据集合,以及扰动图像数据集合对应的参考标定坐标,基于卷积神经网络CNN获取扰动图像数据集合对应的目标标定坐标,再将参考标定坐标和目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数,然后基于输入参数获取正向传播函数的梯度信息,并根据梯度信息和CNN的学习率获取正向传播函数的输出变化量,最后根据输出变化量获取图像数据标定训练过程中反向传播函数所指示的目标标定坐标的坐标变化量,基于坐标变化量调整CNN中各网络层的网络参数,使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。通过将图像数据经扰动处理后得到的扰动图像数据集合作为训练用的一批图像,再分析扰动图像数据集合作为训练用图像的训练过程,提高了训练后的模型对图像中人脸特征点进行标定的准确性;通过在CNN图像训练过程中基于对目标标定坐标和参考标定坐标间方差的优化,减少了视频图像数据标定点定位抖动情况的发生。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (14)

1.一种图像数据标定训练方法,其特征在于,包括:
获取图像数据经扰动处理后所对应的扰动图像数据集合,并获取所述扰动图像数据集合对应的参考标定坐标;
基于卷积神经网络CNN获取所述扰动图像数据集合对应的目标标定坐标;
将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数;
基于所述输入参数获取所述正向传播函数的梯度信息,并根据所述梯度信息和所述CNN的学习率获取所述正向传播函数的输出变化量;
根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量;
基于所述坐标变化量调整所述CNN中各网络层的网络参数,使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。
2.如权利要求1所述的方法,其特征在于,所述获取图像数据经扰动处理后所对应的扰动图像数据集合,并获取所述扰动图像数据集合对应的参考标定坐标,包括:
获取所输入的图像数据,并获取所述图像数据携带的原标定点;
对所述图像数据进行扰动处理,获取经所述扰动处理后所述图像数据对应的扰动图像数据集合;
获取所述扰动图像数据集合中各扰动图像数据携带的扰动标定点,将所述扰动标定点对应的标定坐标确定为参考标定坐标,所述扰动标定点为所述原标定点经所述扰动处理后所得的标定点。
3.如权利要求1所述的方法,其特征在于,所述扰动处理包括运动模糊处理。
4.如权利要求1所述的方法,其特征在于,所述基于所述坐标变化量调整所述CNN中各网络层的网络参数,使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小,包括:
基于所述坐标变化量调整所述CNN中各网络层的网络参数,并基于调整网络参数后的CNN重新获取所述扰动图像数据对应的目标标定坐标;
以所述参考标定坐标和重新获取到的所述目标标定坐标作为输入参数重新获取所述正向传播函数的梯度信息;
根据重新获取到的梯度信息中的梯度方向确定所述CNN的训练方向,并在所述训练方向上确定所述CNN的学习率,判断所述学习率是否达到最小值;
若所述学习率已达到最小值,则确定基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小,否则重新基于所述坐标变化量调整所述CNN中各网络层的网络参数。
5.如权利要求1所述的方法,其特征在于,还包括:
所述正向传播函数包括由所述参考标定点和所述目标标定点确定的距离函数和方差函数,以及分别与所述距离函数和所述方差函数对应的权值。
6.如权利要求5所述的方法,还包括:
在以所述参考标定坐标和所述目标标定坐标作为输入参数获取所述正向传播函数的梯度信息时,基于预设的参数调整速率调整所述分别与所述距离函数和所述方差函数对应的权值。
7.一种图像数据标定训练设备,其特征在于,包括:
参考坐标获取单元,用于获取图像数据经扰动处理后所对应的扰动图像数据集合,并获取所述扰动图像数据集合对应的参考标定坐标;
目标坐标获取单元,用于基于卷积神经网络CNN获取所述扰动图像数据集合对应的目标标定坐标;
参数确定单元,用于将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数;
输出变化获取单元,用于基于所述输入参数获取所述正向传播函数的梯度信息,并根据所述梯度信息和所述CNN的学习率获取所述正向传播函数的输出变化量;
坐标变化获取单元,用于根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量;
参数调整单元,用于基于所述坐标变化量调整所述CNN中各网络层的网络参数,使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。
8.如权利要求7所述的设备,其特征在于,所述参考坐标获取单元包括:
标定点获取子单元,用于获取所输入的图像数据,并获取所述图像数据携带的原标定点;
扰动数据获取子单元,用于对所述图像数据进行扰动处理,获取经所述扰动处理后所述图像数据对应的扰动图像数据集合;
参考坐标获取子单元,用于获取所述扰动图像数据集合中各扰动图像数据携带的扰动标定点,将所述扰动标定点对应的标定坐标确定为参考标定坐标,所述扰动标定点为所述原标定点经所述扰动处理后所得的标定点。
9.如权利要求7所述的设备,其特征在于,所述扰动处理包括运动模糊处理。
10.如权利要求7所述的设备,其特征在于,所述参数调整单元包括:
坐标重新获取子单元,用于基于所述坐标变化量调整所述CNN中各网络层的网络参数,并基于调整网络参数后的CNN重新获取所述扰动图像数据对应的目标标定坐标;
梯度信息获取子单元,用于以所述参考标定坐标和重新获取到的所述目标标定坐标作为输入参数重新获取所述正向传播函数的梯度信息;
学习率获取子单元,用于根据重新获取到的梯度信息中的梯度方向确定所述CNN的训练方向,并在所述训练方向上确定所述CNN的学习率,判断所述学习率是否达到最小值;
输出变化确定子单元,用于若所述学习率已达到最小值,则确定基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小,否则重新基于所述坐标变化量调整所述CNN中各网络层的网络参数。
11.如权利要求7所述的设备,其特征在于,还包括:
所述正向传播函数包括由所述参考标定点和所述目标标定点确定的距离函数和方差函数,以及分别与所述距离函数和所述方差函数对应的权值。
12.如权利要求11所述的设备,还包括:
权值调整单元,用于在以所述参考标定坐标和所述目标标定坐标作为输入参数获取所述正向传播函数的梯度信息时,基于预设的参数调整速率调整所述分别与所述距离函数和所述方差函数对应的权值。
13.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行以下步骤:
获取图像数据经扰动处理后所对应的扰动图像数据集合,并获取所述扰动图像数据集合对应的参考标定坐标;
基于卷积神经网络CNN获取所述扰动图像数据集合对应的目标标定坐标;
将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数;
基于所述输入参数获取所述正向传播函数的梯度信息,并根据所述梯度信息和所述CNN的学习率获取所述正向传播函数的输出变化量;
根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量;
基于所述坐标变化量调整所述CNN中各网络层的网络参数,使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。
14.一种服务器,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行以下步骤:
获取图像数据经扰动处理后所对应的扰动图像数据集合,并获取所述扰动图像数据集合对应的参考标定坐标;
基于卷积神经网络CNN获取所述扰动图像数据集合对应的目标标定坐标;
将所述参考标定坐标和所述目标标定坐标作为图像数据标定训练过程中正向传播函数的输入参数;
基于所述输入参数获取所述正向传播函数的梯度信息,并根据所述梯度信息和所述CNN的学习率获取所述正向传播函数的输出变化量;
根据所述输出变化量获取所述图像数据标定训练过程中反向传播函数所指示的所述目标标定坐标的坐标变化量;
基于所述坐标变化量调整所述CNN中各网络层的网络参数,使得基于调整网络参数后的CNN计算得到的正向传播函数的输出变化量最小。
CN201710550646.0A 2017-07-07 2017-07-07 一种图像数据标定训练方法及其设备、存储介质、服务器 Active CN107464261B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710550646.0A CN107464261B (zh) 2017-07-07 2017-07-07 一种图像数据标定训练方法及其设备、存储介质、服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710550646.0A CN107464261B (zh) 2017-07-07 2017-07-07 一种图像数据标定训练方法及其设备、存储介质、服务器

Publications (2)

Publication Number Publication Date
CN107464261A true CN107464261A (zh) 2017-12-12
CN107464261B CN107464261B (zh) 2020-10-23

Family

ID=60546579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710550646.0A Active CN107464261B (zh) 2017-07-07 2017-07-07 一种图像数据标定训练方法及其设备、存储介质、服务器

Country Status (1)

Country Link
CN (1) CN107464261B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109671061A (zh) * 2018-12-07 2019-04-23 深圳美图创新科技有限公司 一种图像分析方法、装置、计算设备及存储介质
CN110070505A (zh) * 2019-04-12 2019-07-30 北京迈格威科技有限公司 增强图像分类模型噪声鲁棒性的方法和装置
CN110969657A (zh) * 2018-09-29 2020-04-07 杭州海康威视数字技术股份有限公司 一种枪球坐标关联方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2346525A (en) * 1997-07-25 2000-08-09 Motorola Inc Neural network providing spatial parameters when stimulated by linguistic parameters of speech
CN103824049A (zh) * 2014-02-17 2014-05-28 北京旷视科技有限公司 一种基于级联神经网络的人脸关键点检测方法
CN106022215A (zh) * 2016-05-05 2016-10-12 北京海鑫科金高科技股份有限公司 人脸特征点定位方法及装置
CN106056562A (zh) * 2016-05-19 2016-10-26 京东方科技集团股份有限公司 一种人脸图像处理方法、装置及电子设备
CN106485230A (zh) * 2016-10-18 2017-03-08 中国科学院重庆绿色智能技术研究院 基于神经网络的人脸检测模型的训练、人脸检测方法及系统
CN106599830A (zh) * 2016-12-09 2017-04-26 中国科学院自动化研究所 人脸关键点定位方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2346525A (en) * 1997-07-25 2000-08-09 Motorola Inc Neural network providing spatial parameters when stimulated by linguistic parameters of speech
CN103824049A (zh) * 2014-02-17 2014-05-28 北京旷视科技有限公司 一种基于级联神经网络的人脸关键点检测方法
CN106022215A (zh) * 2016-05-05 2016-10-12 北京海鑫科金高科技股份有限公司 人脸特征点定位方法及装置
CN106056562A (zh) * 2016-05-19 2016-10-26 京东方科技集团股份有限公司 一种人脸图像处理方法、装置及电子设备
CN106485230A (zh) * 2016-10-18 2017-03-08 中国科学院重庆绿色智能技术研究院 基于神经网络的人脸检测模型的训练、人脸检测方法及系统
CN106599830A (zh) * 2016-12-09 2017-04-26 中国科学院自动化研究所 人脸关键点定位方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110969657A (zh) * 2018-09-29 2020-04-07 杭州海康威视数字技术股份有限公司 一种枪球坐标关联方法、装置、电子设备及存储介质
CN110969657B (zh) * 2018-09-29 2023-11-03 杭州海康威视数字技术股份有限公司 一种枪球坐标关联方法、装置、电子设备及存储介质
CN109671061A (zh) * 2018-12-07 2019-04-23 深圳美图创新科技有限公司 一种图像分析方法、装置、计算设备及存储介质
CN110070505A (zh) * 2019-04-12 2019-07-30 北京迈格威科技有限公司 增强图像分类模型噪声鲁棒性的方法和装置

Also Published As

Publication number Publication date
CN107464261B (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
WO2020103647A1 (zh) 物体关键点的定位方法、图像处理方法、装置及存储介质
CN103945118B (zh) 图像虚化方法、装置及电子设备
CN109657615B (zh) 一种目标检测的训练方法、装置及终端设备
US20190251337A1 (en) Facial tracking method and apparatus, storage medium, and electronic device
CN108229479A (zh) 语义分割模型的训练方法和装置、电子设备、存储介质
CN108171152A (zh) 深度学习人眼视线估计方法、设备、系统及可读存储介质
CN108229269A (zh) 人脸检测方法、装置和电子设备
CN108182384A (zh) 一种人脸特征点定位方法及装置
CN109063584B (zh) 基于级联回归的面部特征点定位方法、装置、设备及介质
CN109657583A (zh) 脸部关键点检测方法、装置、计算机设备和存储介质
CN110263768A (zh) 一种基于深度残差网络的人脸识别方法
CN107464261A (zh) 一种图像数据标定训练方法及其设备、存储介质、服务器
CN108269254A (zh) 图像质量评估方法和装置
CN109598234A (zh) 关键点检测方法和装置
WO2007091714A1 (en) Method, apparatus, and program for detecting facial characteristic points
CN107566688A (zh) 一种基于卷积神经网络的视频防抖方法及装置
CN111325657A (zh) 图像处理方法、装置、电子设备和计算机可读存储介质
CN111144215B (zh) 图像处理方法、装置、电子设备及存储介质
JP2020071875A (ja) 画像認識に用いる深層学習モデル及び該モデルの訓練装置と方法
CN108229432A (zh) 人脸标定方法及装置
CN112927279A (zh) 一种图像深度信息生成方法、设备及存储介质
CN107564063A (zh) 一种基于卷积神经网络的虚拟物显示方法及装置
CN111160229A (zh) 基于ssd网络的视频目标检测方法及装置
CN111862040B (zh) 人像图片质量评价方法、装置、设备及存储介质
CN109583367A (zh) 图像文本行检测方法及装置、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231008

Address after: 31a, 15 / F, building 30, maple mall, bangrang Road, Brazil, Singapore

Patentee after: Baiguoyuan Technology (Singapore) Co.,Ltd.

Address before: 511449, Building B-1, North District, Wanda Commercial Plaza, Wanbo Business District, No. 79 Wanbo Second Road, Nancun Town, Panyu District, Guangzhou City, Guangdong Province, China

Patentee before: GUANGZHOU BAIGUOYUAN NETWORK TECHNOLOGY Co.,Ltd.