CN111783949A

CN111783949A - 基于迁移学习的深度神经网络的训练方法和装置

Info

Publication number: CN111783949A
Application number: CN202010590593.7A
Authority: CN
Inventors: 李兴建; 熊昊一; 安昊哲; 窦德景
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-10-16

Abstract

本申请实施例公开了一种基于迁移学习的深度神经网络的训练方法和装置，涉及人工智能技术，尤其涉及迁移学习、深度学习和神经网络技术领域。具体实现方案为：获取待训练的深度神经网络，所述深度神经网络包括预训练的图像特征提取网络和未训练的图像处理网络；对所述图像特征提取网络和图像处理网络进行训练；在训练过程中，对所述图像处理网络的训练后参数进行重新调整。本申请实施例可以提高特征提取网络的特征提取能力。

Description

基于迁移学习的深度神经网络的训练方法和装置

技术领域

本申请涉及人工智能技术，尤其涉及迁移学习、深度学习和神经网络技术领域。

背景技术

近些年深度学习和迁移学习取得了巨大的技术突破和快速的应用普及，迁移学习能够借助大数据充分训练的源模型，提升业务中小规模样本集的训练效果。基于迁移学习的深度神经网络包括迁移而来的特征提取网络和适用于目标任务的处理网络。

在对基于迁移学习的深度神经网络进行训练时，在整个网络的范围内针对目标任务微调参数，由于预训练的特征提取网络本身有一定的迁移能力，在微调(fine-tuning)早期甚至之前就可以给目标任务提供相当有价值的深度特征，此时目标网络很容易快速拟合训练样本，导致用于更新参数的梯度从反向传播的源头减弱甚至消失，无法充分的更新特征提取网络，使之更适配分类任务。

简而言之，上述深度神经网络过快拟合的问题导致了特征提取网络的欠拟合。深度学习的主要优势就在于深层的特征提取网络有强大的特征学习能力，这种欠拟合则影响了迁移学习任务中特征提取网络对目标任务的特征学习。

发明内容

本申请实施例提供了一种基于迁移学习的深度神经网络的训练方法、装置、设备和可读存储介质，以训练深度神经网络。

第一方面，本申请实施例提供了一种基于迁移学习的深度神经网络的训练方法，包括：

获取待训练的深度神经网络，所述深度神经网络包括预训练的图像特征提取网络和未训练的图像处理网络；

对所述图像特征提取网络和图像处理网络进行训练；

在训练过程中，对所述图像处理网络的训练后参数进行重新调整。

第二方面，本申请实施例还提供了一种基于迁移学习的深度神经网络的训练装置，包括：

获取模块，用于获取待训练的深度神经网络，所述深度神经网络包括预训练的图像特征提取网络和未训练的图像处理网络；

训练模块，用于对所述图像特征提取网络和图像处理网络进行训练；

重新调整模块，用于在训练过程中，对所述图像处理网络的训练后参数进行重新调整。

第三方面，本申请实施例提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行任一实施例所提供的一种基于迁移学习的深度神经网络的训练方法。

第四方面，本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行任一实施例所提供的一种基于迁移学习的深度神经网络的训练方法。

根据本申请的技术可以提高特征提取网络的特征提取能力。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1a是本申请实施例中的第一种基于迁移学习的深度神经网络的训练方法的流程图；

图1b是本申请实施例提供的多轮训练的示意图；

图2a是本申请实施例中的第二种基于迁移学习的深度神经网络的训练方法的流程图；

图2b是本申请实施例提供的训练周期的示意图；

图3是本申请实施例中的第三种基于迁移学习的深度神经网络的训练方法的流程图；

图4是本申请实施例中的基于迁移学习的深度神经网络的训练装置的结构图；

图5是本申请实施例中的电子设备的结构图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

根据本申请的实施例，图1a是本申请实施例中的第一种基于迁移学习的深度神经网络的训练方法的流程图，本申请实施例适用于对基于迁移学习的深度神经网络进行训练的情况。该方法通过基于迁移学习的深度神经网络的训练装置执行，该装置采用软件和/或硬件实现，并具体配置于具备一定数据运算能力的电子设备中。

如图1a所示的基于迁移学习的深度神经网络的训练方法，包括：

S110、获取待训练的深度神经网络，深度神经网络包括预训练的图像特征提取网络和未训练的图像处理网络。

本实施例中，图像特征提取网络用于对输入图像进行深度特征提取得到深度特征，其通过迁移学习得到，包括图像特征提取网络的结构和参数。图像处理网络用于对深度特征进行处理得到处理结果。图像处理网络根据图像处理任务确定，图像处理任务包括但不限于图像检测任务、图像分割任务和图像分类任务。相应的，图像处理网络输出与图像处理任务对应的图像检测结果、图像分割结果和图像分类结果。

具体的，首先获得利用大数据集预训练的模型，如使用ImageNet数据集预训练的ResNet-50模型。其中，特征提取网络(feature extractor，FE)的功能通用，具备迁移价值；图像处理网络的结构和参数是适应于特定图像处理任务的，一般不具备迁移价值。如果预训练模型的图像处理网络为分类网络，则需要将预训练模型的分类网络，即FC层(Fullyconnected layer)替换为适应于本实施例的图像处理任务的结构，例如图像分割任务的结构，并随即初始化图像处理网络。

需要说明的是，为了适应更多场景，深度神经网络可以还包括输入层和输出层，输入层可以对图像进行颜色通道处理、降维处理、去噪处理等，并将处理后的图像输出至图像特征提取层。输出层对图像处理网络输出的结果进行归一化处理，以输出合适值域内的结果。

S120、对图像特征提取网络和图像处理网络进行训练。

首先构造与处理任务匹配的图像样本集，图像样本集包括多张带有与处理任务匹配的标注的图像样本。以图像分割任务为例，图像样本集包括多张带有分割标注的图像样本。

将每张图像样本输入至深度神经网络中，经由图像特征提取网络和图像处理网络输出处理结果，通过优化图像特征提取网络和图像处理网络的参数，使得处理结果与标注逼近。其中，图像特征提取网络的参数以预训练时得到的参数为起点进行优化，图像处理网络的参数以初始化的参数为起点进行优化。可选的，如果深度神经网络包括输入层和输出层，输入层和输出层的参数可以是预先设置好的，不参与训练；也可以初始化后参与训练。

在迁移学习领域，为了充分保留预训练网络的泛化能力，防止在少量样本的目标任务上过拟合，可以以深度神经网络为起点，针对图像处理任务继续微调参数，将特征提取网络的参数约束到预训练时的参数附近，这种方法称为SPAR(starting point asreference，起点作为参考)法。

S130、在训练过程中，对图像处理网络的训练后参数进行重新调整。

根据S120提供的训练方法，图像处理网络的参数会不断训练(或称为调整)，每次训练后的参数称为训练后参数。该训练后参数将会成为下次训练时的初始值。除了在训练过程中进行参数调整之外，对图像处理网络的训练后参数进行重新调整，调整的次数为至少一次。具体的，训练过程包括多轮训练，在多轮训练的相邻两轮训练之间对图像处理网络的训练后参数进行重新调整。

图1b是本申请实施例提供的多轮训练的示意图。图1b示出了100轮训练，可以在第20轮训练至21轮训练之间进行一次调整，在第50轮训练至51轮训练之间进行一次调整。可选的，在每次调整时，可以对图像处理网络的全部参数或部分参数进行调整。调整方式可以自主设定，能够改变图像处理网络的训练后参数即可。

本实施例中，通过在训练过程中对图像处理网络的训练后参数进行重新调整，从而在下次训练时，能够以重新调整后的参数为初始值进行训练，给特征提取网络增大梯度更新的幅度，从而充分拟合，深度挖掘特征提取网络的特征学习能力，更加适配目标任务；同时，由于图像处理网络容易拟合，重新调整参数并不会导致图像处理网络的训练不够充分，所以在相同数量的训练时间下，本实施例提出的方法能得到更高的迁移学习准确率。

在上述实施例和下述实施例中，在训练过程中，对图像处理网络的训练后参数进行重新调整，包括以下至少一种操作：1)对图像处理网络的训练后参数进行初始化；2)将图像处理网络的训练后参数调整为自定义值；3)将图像处理网络的训练后参数调整为图像处理网络在历史训练时刻的参数。需要说明的是，在进行多次重新调整时，每次调整可采用上述不同的操作，也可以采用相同的操作。

具体的，本实施例不限定初始化的方法，例如kaiming初始化法。图像处理网络在历史训练时刻的参数指的是，在历史某次训练后图像处理网络的参数。

本实施例通过对训练后参数进行初始化，将图像处理网络恢复到训练之初的状态，以最大程度增加梯度更新的幅度，从而更充分挖掘特征提取网络的特征学习能力；通过将训练后参数调整为自定义值，由于自定义值具有随机性，使得梯度更新的幅度具有随机性，使得特征提取网络具有更强的灵活性和泛化能力；通过将训练后参数调整为历史训练时刻的参数，相当于将图像处理网络恢复到历史训练时刻，在提高训练效率的同时，适度增加梯度更新的幅度，提高特征提取网络的特征学习能力。

根据本申请的实施例，图2a是本申请实施例中的第二种基于迁移学习的深度神经网络的训练方法的流程图，本申请实施例在上述各实施例的技术方案的基础上对参数调整的时机进行优化。

图2a所示的基于迁移学习的深度神经网络的训练方法，具体包括以下操作：

S210、获取待训练的深度神经网络，深度神经网络包括预训练的图像特征提取网络和未训练的图像处理网络。

S220、对图像特征提取网络和图像处理网络进行训练。

S230、将训练过程划分为至少两段训练周期。

S240、在相邻两段训练周期之间，对图像处理网络的训练后参数进行重新调整。

训练过程包括多轮训练，连续的至少一轮训练构成一段训练周期。至少两段训练周期包含的训练轮数可以相同也可以不同。训练周期的段数为重新调整次数加1。

可选的，图2b是本申请实施例提供的训练周期的示意图。图2b共包括100轮训练，平均划分为4个训练周期，分别为第一训练周期、第二训练周期、第三训练周期和第四训练周期。在第一训练周期和第二训练周期之间，对图像处理网络的、第一训练周期结束后得到的训练后参数进行重新调整，从而第二训练周期在重新调整后的参数基础上继续训练；同理，在第二训练周期和第三训练周期之间，第三训练周期和第四训练周期之间，对图像处理网络的训练后参数进行重新调整。

本实施例通过划分训练周期的方法确定参数重新调整的时机，使得新的训练周期到来时，能够以重新调整后的参数作为初始值继续训练；通过调整训练周期包含的训练轮数，可以方便调节参数重新调整的时机和次数；当将训练过程平均划分为至少两段训练周期时，可以实现参数的定期重新调整，进一步提高特征提取网络的特征学习能力。

根据本申请的实施例，图3是本申请实施例中的第三种基于迁移学习的深度神经网络的训练方法的流程图，本实施例在上述实施例的基础上，对训练过程进行优化。

如图3所示的基于迁移学习的深度神经网络的训练方法，包括：

S310、获取待训练的深度神经网络，深度神经网络包括预训练的图像特征提取网络和未训练的图像处理网络。

S320、采用反向传播算法对图像特征提取网络和图像处理网络进行训练。

S330、在训练过程中，对图像处理网络的训练后参数进行重新调整。

在一具体应用场景中，假设深度神经网络总共训练M轮，即图像样本被训练M轮，M是自然数。设定一个重新调整次数R，取值一般为2、3或4，则每个训练周期为T＝M/R。

网络训练的整体过程如下：每轮训练时，将图像样本输入到深度神经网络中，计算出每个图像样本的输出。根据输出与样本标签计算损失值，例如交叉熵损失。接着，根据损失值计算出各参数的梯度，反向传播进行参数更新，直到每个图像样本被训练过M轮。

在上述网络训练的整体过程之中，在每个训练周期结束后，即第1，2，…，M/R个训练周期结束后，将图像处理层的全部参数重新初始化，而特征提取层保持不变；从而在下一训练周期到来时，以初始化的图像处理层和上一训练周期得到的特征提取层为起点，继续训练。

本实施例通过对训练后的参数进行重新调整，以增大梯度更新的幅度；而反向传播算法本质是梯度下降法，可见本实施例能够增大梯度下降的空间，避免目标函数复杂时出现训练“停顿”的现象，充分发挥反向传播算法对复杂目标函数的优化能力。

根据本申请的实施例，图4是本申请实施例中的基于迁移学习的深度神经网络的训练装置的结构图，本申请实施例适用于对基于迁移学习的深度神经网络进行训练的情况，该装置采用软件和/或硬件实现，并具体配置于具备一定数据运算能力的电子设备中。

如图4所示的一种基于迁移学习的深度神经网络的训练装置400，包括：获取模块401、训练模块402和重新调整模块403；其中，

获取模块401，用于获取待训练的深度神经网络，深度神经网络包括预训练的图像特征提取网络和未训练的图像处理网络。

训练模块402，用于对图像特征提取网络和图像处理网络进行训练。

重新调整模块403，用于在训练过程中，对图像处理网络的训练后参数进行重新调整。

进一步的，重新调整模块403包括以下至少一种单元：初始化单元，用于对图像处理网络的训练后参数进行初始化；自定义单元，用于将图像处理网络的训练后参数调整为自定义值；历史时刻单元，用于将图像处理网络的训练后参数调整为图像处理网络在历史训练时刻的参数。

进一步的，重新调整模块403，包括：划分单元，用于将训练过程划分为至少两段训练周期；重新调整单元，用于在相邻两段训练周期之间，对图像处理网络的训练后参数进行重新调整。

进一步的，训练模块402，具体用于采用反向传播算法对图像特征提取网络和图像处理网络进行训练。

上述基于迁移学习的深度神经网络的训练装置可执行本申请任意实施例所提供的基于迁移学习的深度神经网络的训练方法，具备执行基于迁移学习的深度神经网络的训练方法相应的功能模块和有益效果。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，是实现本申请实施例的基于迁移学习的深度神经网络的训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个终端提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的基于迁移学习的深度神经网络的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的基于迁移学习的深度神经网络的训练方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的基于迁移学习的深度神经网络的训练方法对应的程序指令/模块(例如，附图4所示的包括获取模块401、训练模块402和重新调整模块403)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的基于迁移学习的深度神经网络的训练方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储实现基于迁移学习的深度神经网络的训练方法的电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至执行基于迁移学习的深度神经网络的训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

执行基于迁移学习的深度神经网络的训练方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与执行基于迁移学习的深度神经网络的训练方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种基于迁移学习的深度神经网络的训练方法，包括：

对所述图像特征提取网络和图像处理网络进行训练；

2.根据权利要求1所述的方法，其中，所述在训练过程中，对所述图像处理网络的训练后参数进行重新调整，包括以下至少一种操作：

对所述图像处理网络的训练后参数进行初始化；

将所述图像处理网络的训练后参数调整为自定义值；

将所述图像处理网络的训练后参数调整为所述图像处理网络在历史训练时刻的参数。

3.根据权利要求1所述的方法，其中，所述在训练过程中，对所述图像处理网络的训练后参数进行重新调整，包括：

将所述训练过程划分为至少两段训练周期；

在相邻两段所述训练周期之间，对所述图像处理网络的训练后参数进行重新调整。

4.根据权利要求1-3任一项所述的方法，其中，所述对所述图像特征提取网络和图像处理网络进行训练，包括：

采用反向传播算法对所述图像特征提取网络和图像处理网络进行训练。

5.一种基于迁移学习的深度神经网络的训练装置，包括：

6.根据权利要求5所述的装置，其中，所述重新调整模块包括以下至少一种单元：

初始化单元，用于对所述图像处理网络的训练后参数进行初始化；

自定义单元，用于将所述图像处理网络的训练后参数调整为自定义值；

历史时刻单元，用于将所述图像处理网络的训练后参数调整为所述图像处理网络在历史训练时刻的参数。

7.根据权利要求5所述的装置，其中，所述重新调整模块，包括：

划分单元，用于将所述训练过程划分为至少两段训练周期；

重新调整单元，用于在相邻两段所述训练周期之间，对所述图像处理网络的训练后参数进行重新调整。

8.根据权利要求5-7任一项所述的装置，其中，

所述训练模块，具体用于采用反向传播算法对所述图像特征提取网络和图像处理网络进行训练。

9.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述的一种基于迁移学习的深度神经网络的训练方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的一种基于迁移学习的深度神经网络的训练方法。