CN112070227B

CN112070227B - 一种神经网络训练方法和装置以及设备

Info

Publication number: CN112070227B
Application number: CN202010935075.4A
Authority: CN
Inventors: 吴善思源; 龚秋棠; 林奇; 侯峰; 吴方灿
Original assignee: Xiamen Zhenjing Technology Co ltd
Current assignee: Xiamen Zhenjing Technology Co ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2023-08-18
Anticipated expiration: 2040-09-08
Also published as: CN112070227A

Abstract

本发明公开了一种神经网络训练方法，所述方法包括：创建第一神经网络；利用所述第一神经网络进行图像重建训练，所述第一神经网络训练后可输出与输入图像的尺寸相同、内容相近的图像，得到第一参数模型；基于所述第一参数模型创建第二神经网络；利用所述第二神经网络同时进行图像重建训练和对具有标签的人脸关键点检测训练，得到第二参数模型；通过所述第二参数模型进行对具有标签的人脸关键点检测训练，得到第三参数模型；基于所述第三参数模型进行创建第三神经网络。本发明提出的方案能够使得神经网络在使用过程中有更高的鲁棒性和精度。

Description

一种神经网络训练方法和装置以及设备

技术领域

本发明涉及人工智能技术领域，尤其涉及一种神经网络训练方法和装置以及设备。

背景技术

随着人工智能对图形分析处理的发展，市场对人像进行定位和分析需求越发强烈。由于现实中涉及的场景环境是非常复杂的，包括光照、距离、角度、脸型、表情、设备等因素变化，如何使得神经网络能在不同场景下保持稳定的检测精度是非常具有挑战性的，通过收集不同场景数据进行训练是非常有效的方式，但成本是非常巨大的。另外，不论如何努力收集数据，也难以覆盖生活中可能遇到的所有情况，由此导致神经网络在训练数据集合以及测试数据集合上的精度不高。

为此，提出本发明。

发明内容

有鉴于此，本发明的目的在于提出一种神经网络训练方法和装置以及设备，能够使得神经网络在使用过程中有更高的鲁棒性和精度。

为实现上述目的，本发明提供一种神经网络训练方法，所述方法包括：

创建第一神经网络；

利用所述第一神经网络进行图像重建训练，所述第一神经网络训练后可输出与输入图像的尺寸相同、内容相近的图像，得到第一参数模型；

基于所述第一参数模型创建第二神经网络；

利用所述第二神经网络同时进行图像重建训练和对具有标签的人脸关键点检测训练，得到第二参数模型；

通过所述第二参数模型进行对具有标签的人脸关键点检测训练，得到第三参数模型；

基于所述第三参数模型创建第三神经网络，其中，所述第三神经网络不具有用于图像重建的支路。

优选的，所述创建第一神经网络，包括：

通过Unet或Enet创建第一神经网络。

优选的，所述利用所述第一神经网络进行图像重建训练，所述第一神经网络训练后可输出与输入图像的尺寸相同、内容相近的图像，得到第一参数模型，包括：

通过MSE或L1或感知损失函数对图像重建训练进行损失函数的监督，得到第一参数模型。

优选的，所述基于所述第一参数模型创建第二神经网络，包括：

基于所述第一参数模型对图像中的人脸关键点进行定位，得到人脸关键点二维坐标。

优选的，所述通过所述第二神经网络同时进行图像重建训练和对具有标签的人脸关键点检测训练，得到第二参数模型，包括：

同时计算图像重建训练和对具有标签的人脸关键点检测训练的残差损失，将计算得到的数值求和后再通过链式法则对所述第二神经网络的权重进行更新。

为了实现上述目的，本发明还提出一种神经网络训练装置，所述装置包括：

第一创建单元，用于创建第一神经网络；

图像重建单元，用于利用所述第一神经网络进行图像重建训练，所述第一神经网络训练后可输出与输入图像的尺寸相同、内容相近的图像，得到第一参数模型；

第二创建单元，用于基于所述第一参数模型创建第二神经网络；

第一训练单元，用于利用所述第二神经网络同时进行图像重建训练和对具有标签的人脸关键点检测训练，得到第二参数模型；

第二训练单元，用于通过所述第二参数模型进行对具有标签的人脸关键点检测训练，得到第三参数模型；

第三创建单元，基于所述第三参数模型创建第三神经网络，其中，所述第三神经网络不具有用于图像重建的支路。

优选的，所述第一创建单元，还用于：

通过Unet或Enet创建第一神经网络。

优选的，所述图像重建单元，还用于：

优选的，所述第二创建单元，还用于：

优选的，所述第二训练单元，还用于：

为了实现上述目的，本发明又提出一种神经网络训练设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行时实现如上述实施例所述的一种神经网络训练方法。

为了实现上述目的，本发明再提出一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行时实现如上述实施例所述的一种神经网络训练方法。

有益效果：

以上方案，创建第一神经网络；利用所述第一神经网络进行图像重建训练，所述第一神经网络训练后可输出与输入图像的尺寸相同、内容相近的图像，得到第一参数模型；基于所述第一参数模型创建第二神经网络；利用所述第二神经网络同时进行图像重建训练和对具有标签的人脸关键点检测训练，得到第二参数模型；通过所述第二参数模型进行对具有标签的人脸关键点检测训练，得到第三参数模型；基于所述第三参数模型创建第三神经网络；能够使得神经网络在使用过程中有更高的鲁棒性和精度。

以上方案，所述利用所述第一神经网络进行图像重建训练，所述第一神经网络训练后可输出与输入图像的尺寸相同、内容相近的图像，得到第一参数模型，包括：通过MSE或L1或感知损失函数对图像重建训练进行损失函数的监督，得到第一参数模型；能够实现以输入图像作为输出图像的目标，在神经网络训练过程中会让输出图像越来越近似输入图像，方便训练。

以上方案，所述基于所述第一参数模型创建第二神经网络，包括：基于所述第一参数模型对图像中的人脸关键点进行定位，得到人脸关键点二维坐标；所述通过所述第二神经网络同时进行图像重建训练和对具有标签的人脸关键点检测训练，得到第二参数模型，包括：同时计算图像重建训练和对具有标签的人脸关键点检测训练的残差损失，将计算得到的数值求和后再通过链式法则对所述第二神经网络的权重进行更新；能够使得神经网络在使用过程中有更高的鲁棒性和精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种神经网络训练方法的流程示意图。

图2为本发明一实施例提供的一种神经网络训练装置的结构示意图。

发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面结合附图和实施例，对本发明作进一步的详细描述。特别指出的是，以下实施例仅用于说明本发明，但不对本发明的范围进行限定。同样的，以下实施例仅为本发明的部分实施例而非全部实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

以下结合实施例详细阐述本发明的内容。

本发明提供一种神经网络训练方法，能够使得神经网络在使用过程中有更高的鲁棒性和精度。

参照图1所示为本发明一实施例提供的一种神经网络训练方法的流程示意图。所述方法包括：

S1，创建第一神经网络。

其中，创建第一神经网络，包括：

通过Unet或Enet创建第一神经网络。

在本实施例中，第一神经网络为图像生成网络，图像生成网络是深度学习神经网络的一个分支领域。

S2，利用所述第一神经网络进行图像重建训练，所述第一神经网络训练后可输出与输入图像的尺寸相同、内容相近的图像，得到第一参数模型。

其中，利用所述第一神经网络进行图像重建训练，所述第一神经网络训练后可输出与输入图像的尺寸相同、内容相近的图像，得到第一参数模型，包括：

在本实施例中，图像重建是神经网络图像生成的一种特例，即神经网络输出结果与输入结果尽可能相似，这一过程会驱使神经网络提炼图像特征。创建的神经网络可确保输出的图像与输入的图像具有相同的尺寸，比如一张128x128x3尺寸的3通道图像输入后，可以生成输出一张128x128x3尺寸的图像。输入图像和输出图像的尺寸接近相同是图像生成网络所需满足的特性，是为了方便训练，且能产生一个可提炼图像特征的神经网络，作为后续使用的基础。在该阶段进行图像重建的训练，是以原始输入图像作为输出图像的目标，使得在训练过程中让神经网络生成结果输出的图像接近输入图像，另外，该阶段可以使用没有任何标注的人脸图像进行训练。

S3，基于所述第一参数模型创建第二神经网络。

其中，基于所述第一参数模型创建第二神经网络，包括：

在本实施例中，重新创建一个具有分支的神经网络，将原神经网络的参数模型拷贝进新创建的神经网络，分支通过全联接层等模块输出人脸关键点坐标。神经网络通常由多个层单元组合得到一个链式结构，即每个层的输出是且仅是另一个层的输入直至输出结果。部分神经网络是类似树型结构，即某个节点层的输出会作为多个层的输入，此时产生了分支。全联接层为神经网络的常用层模块，即fully connected layer，通常是由m*n个权重组成的矩阵用于连接m和n个神经元。

S4，利用所述第二神经网络同时进行图像重建训练和对具有标签的人脸关键点检测训练，得到第二参数模型。

其中，通过所述第二神经网络同时进行图像重建训练和对具有标签的人脸关键点检测训练，得到第二参数模型，包括：

在本实施例中，对图像重建和人脸关键点检测进行同时训练，在该阶段需使用具有标签的人脸关键点的数据进行训练。比如，输入128x128x3尺寸的图像，输出128x128x3尺寸的重建图像和220x2维点对的人脸关键点坐标，其中，有220个人脸关键点，每个人脸关键点为x、y二维坐标点对。在该阶段，神经网络权重收敛需要同时考虑两个分支损失函数回传来的更新梯度。其中，神经网络权重收敛通过神经网络梯度回传链式法则进行最优化迭代更新实现的。而，不同分支损失函数的残差损失可以通过各自独立求导梯度回传至各个节点，进行叠加，然后更新节点权重。

S5，通过所述第二参数模型进行对具有标签的人脸关键点检测训练，得到第三参数模型。

在本实施例中，不进行图像重建的训练，仅进行人脸关键点检测的训练，并且使用具有标签的人脸关键点进行训练。

S6，基于所述第三参数模型创建第三神经网络，其中，所述第三神经网络不具有用于图像重建的支路。

在本实施例中，创建一个没有图像重建分支的神经网络，将原神经网络的参数模型拷贝至新的神经网络，则获得一个剔除了无用分支的神经网络。

参照图2所示为本发明另一实施例提供的一种神经网络训练装置的结构示意图。所述装置20包括：

第一创建单元21，用于创建第一神经网络；

图像重建单元22，用于利用所述第一神经网络进行图像重建训练，所述第一神经网络训练后可输出与输入图像的尺寸相同、内容相近的图像，得到第一参数模型；

第二创建单元23，用于基于所述第一参数模型创建第二神经网络；

第一训练单元34，用于利用所述第二神经网络同时进行图像重建训练和对具有标签的人脸关键点检测训练，得到第二参数模型；

第二训练单元25，用于通过所述第二参数模型进行对具有标签的人脸关键点检测训练，得到第三参数模型；

第三创建单元26，基于所述第三参数模型创建第三神经网络，其中，所述第三神经网络不具有用于图像重建的支路。

可选的，所述第一创建单元，还用于：

通过Unet或Enet创建第一神经网络。

可选的，所述图像重建单元，还用于：

可选的，所述第二创建单元，还用于：

可选的，所述第二训练单元，还用于：

上述一种神经网络训练装置中的各个单元执行时所实现的功能或操作步骤与上述方法的实施例大体相同，在此不再赘述。

本发明实施例还提供一种神经网络训练设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现如上述实施例所述的神经网络训练方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述实施例所述的神经网络训练方法。

示例性的，所述计算机程序可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在神经网络训练设备中的执行过程。

所述神经网络训练设备可包括但不仅限于处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是神经网络训练设备的示例，并不构成对基于3D重建技术的视神经网络训练频编辑设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述神经网络训练设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述神经网络训练设备的控制中心，利用各种接口和线路连接整个神经网络训练设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述神经网络训练设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述神经网络训练设备集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述实施例中的实施方案可以进一步组合或者替换，且实施例仅仅是对本发明的优选实施例进行描述，并非对本发明的构思和范围进行限定，在不脱离本发明设计思想的前提下，本领域中专业技术人员对本发明的技术方案作出的各种变化和改进，均属于本发明的保护范围。

Claims

1.一种神经网络训练方法，其特征在于，所述方法包括：

创建第一神经网络；

基于所述第一参数模型创建第二神经网络；

基于所述第三参数模型创建第三神经网络，其中，所述第三神经网络不具有用于图像重建的支路；

所述利用所述第一神经网络进行图像重建训练，所述第一神经网络训练后可输出与输入图像的尺寸相同、内容相近的图像，得到第一参数模型，包括：

通过MSE或L1或感知损失函数对图像重建训练进行损失函数的监督，得到第一参数模型；

所述基于所述第一参数模型创建第二神经网络，包括：

基于所述第一参数模型对图像中的人脸关键点进行定位，得到人脸关键点二维坐标；

所述通过所述第二神经网络同时进行图像重建训练和对具有标签的人脸关键点检测训练，得到第二参数模型，包括：

2.根据权利要求1所述的一种神经网络训练方法，其特征在于，所述创建第一神经网络，包括：

通过Unet或Enet创建第一神经网络。

3.一种神经网络训练装置，其特征在于，所述装置包括：

第一创建单元，用于创建第一神经网络；

第三创建单元，基于所述第三参数模型创建第三神经网络，其中，所述第三神经网络不具有用于图像重建的支路；

所述基于所述第一参数模型创建第二神经网络，包括：

4.根据权利要求3所述的一种神经网络训练装置，其特征在于，所述第二创建单元，还用于：

5.根据权利要求3所述的一种神经网络训练装置，其特征在于，所述第二训练单元，还用于：

6.一种神经网络训练设备，其特征在于，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现如权利要求1至2任意一项所述的一种神经网络训练方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至2任意一项所述的一种神经网络训练方法。