CN109978136A

CN109978136A - 一种训练目标网络的方法、计算设备及存储介质

Info

Publication number: CN109978136A
Application number: CN201910163175.7A
Authority: CN
Inventors: 齐子铭; 陈康; 周子健; 张伟; 李志阳
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2019-07-05
Anticipated expiration: 2039-03-05
Also published as: CN109978136B

Abstract

本发明公开了一种训练目标网络的方法，适于在计算设备中执行，方法包括：获取原网络的第一个卷积核参数，其中原网络为已训练好的卷积神经网络；基于原网络的第一个卷积核参数，初始化目标网络的第一个卷积核参数；以及基于初始化后的参数，训练目标网络，其中，原网络的输入通道数为3，目标网络的输入通道数为1。本方案解决了多通道输入网络与单通道输入网络参数不兼容的问题，加速了网络收敛。

Description

一种训练目标网络的方法、计算设备及存储介质

技术领域

本发明涉及深度学习技术领域，尤其涉及一种训练目标网络的方法、计算设备及存储介质。

背景技术

在卷积神经网络的训练过程中，经常会通过加载相关模型已训练好的参数来初始化现有网络。这种加载参数模型的方法相比随机参数初始化，加载的模型参数往往更有意义且更接近于目标参数值。可以在训练的开始，就得到一个较好的损失函数起始值，有利于网络的收敛，提高收敛速度。

但在实际应用中，这种直接加载已训练好的参数的方法存在缺陷。在实际场景中，往往原模型网络结构与被加载网络结构不相同。常见的区别为原网络的输入RGB三通道，而现网络为输入单通道灰度图。目前常见的解决方法是放弃加载原网络初始化第一层，直接用高斯噪声随机初始化。这种简单直接的方法可行但加载的参数并不一定接近目标参数值，从而使收敛时间延长，大大增加训练时间。

因此，需要一种初始化网络参数的网络训练方法，能够加速网络收敛。

发明内容

为此，本发明提供了一种训练目标网络的方法、计算设备及存储介质，以力图解决或者至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种训练目标网络的方法，适于在计算设备中执行，在该方法中，首先，获取原网络的第一个卷积核参数，原网络为已训练好的卷积神经网络。然后，基于原网络的第一个卷积核参数，初始化目标网络的第一个卷积核参数。最后，基于初始化后的参数，训练目标网络，其中，所述原网络的输入通道数为3，所述目标网络的输入通道数为1。

可选地，在上述方法中，卷积核参数为权重矩阵。

可选地，在上述方法中，权重矩阵表示为[输出通道数，输入通道数，卷积核的高度，卷积核的宽度]，且输入通道数等于输入图像的通道数。

可选地，在上述方法中，原网络的输入图像为RGB彩色图像，目标网络的输入图像为单通道灰度图。

可选地，在上述方法中，基于RGB图像转灰度图像的方式，将原网络的第一个权重矩阵转换为目标网络的第一个权重矩阵。

可选地，在上述方法中，目标网络的第一个权重矩阵为：

nowmodel[‘conv1.weight’]＝0.299*pretrained_dict[‘conv1.weight’][：，0，：，：]

+0.587*pretrained_dict[‘conv1.weight’][：，1，：，：]

+0.114*pretrained_dict[‘conv1.weight’][：，2，：，：]

其中，pretrained_dict[‘conv1.weight’]表示原网络的第一个权重矩阵，nowmodel[‘conv1.weight’]表示目标网络的第一个权重矩阵。

可选地，在上述方法中，原网络和目标网络为具有不同网络结构的卷积神经网络。

可选地，在上述方法中，基于初始化后的参数得到预训练的目标网络；将单通道的灰度图输入预训练的目标网络；计算目标网络损失函数的损失值；根据损失值调整目标网络的参数；重复迭代计算损失值和调整目标网络参数的步骤，直到满足预定条件时训练结束。

根据本发明的另一方面，提供了一种计算设备，包括：一个或多个处理器；和存储器；一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行如上所述方法的指令。

根据本发明的又一方面，提供了一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当计算设备执行时，使得计算设备执行如上所述的方法。

根据本发明方案，通过将原网络的多通道参数转换为现有网络的单通道参数，能够解决原网络与现有网络参数不兼容的问题，能够加速网络的收敛。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一个实施例的计算设备100的构造示意图；

图2示出了根据本发明的一个实施例的训练目标网络的方法200的示意性流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

深度学习中神经网络参数的初始化在加速网络收敛和实现更低的错误率方面起着重要作用。不好的初始化参数会导致梯度传播的问题，降低训练速度；而好的初始化参数能够加速收敛，更可能找到最优解。例如，不合适的权重初始化会使得隐藏层的输入的方差过大，从而在经过sigmoid这种非线性层时离中心较远(导数接近0)，因此过早地出现梯度消失。如使用均值0，标准差为1的正态分布初始化在隐藏层的方差仍会很大。若初始化为0，所有的神经元节点开始做的都是同样的计算，最终同层的每个神经元得到相同的参数。本方案提出一种较简单的参数初始化方法，利用已训练好的网络的参数初始化现有网络的参数，能够保证参数的一致性，减少训练时间。

图1是示例计算设备100的框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理器，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上利用程序数据124进行操作。在一些实施例中，计算设备100被配置为执行训练目标网络的方法200，程序数据124中就包含了用于执行方法200的指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、图像输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中以编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在一些实施例中，计算机可读介质中存储一个或多个程序，这一个或多个程序中包括执行某些方法的指令。

计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、数码照相机、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。当然，计算设备100也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机，或者是具有上述配置的服务器。本发明的实施方式对此均不作限制。

图2示出了根据本发明的一个实施例的训练目标网络的方法200的示意性流程图。如图2所示，方法200始于步骤S210，获取原网络的第一个卷积核参数，原网络为已训练好的卷积神经网络。

一般地，卷积神经网络的层级结构一般包括输入层、卷积层、激活层、池化层和全连接层。卷积神经网络的每一层由多个特征图组成，同一个特征图的所有神经元共用一个卷积核，即权重。组成卷积核的每个元素对应一个权重系数和偏差量。卷积核相当于图像处理中的滤波器，每个卷积核只关注一个图像特征，这些卷积核加起来就是整张图像的特征。卷积核具有局部性，局部的程度取决于卷积核的大小。参数初始化主要是初始化权重和偏置。在使用训练数据对网络进行反向传播算法训练时，权重和偏置的值都会向局部最优的方向更新，直至算法收敛。

需要说明的是，将已训练好的网络的参数作为目标网络(现有网络)的初始化参数，前提是已训练好的网络与预训练的网络应该是相似的或相关的，也就是对模型进行微调。卷积核的深度与输入卷积层的图像的通道数(即输入图像的深度)相同，通过卷积核与输入图像的卷积可以得到一个单通道的特征图。输出特征图的个数取决于卷积核的个数。卷积层输入的图片有可能是单通道或多通道，不管是单通道还是多通道，经过卷积层后，得到的输出的特征图都是单通道。假如输入图片的通道数为3，对应的卷积核的通道数也应该为3。如果要输出多张特征图，则需要更改卷积核的个数。因此卷积神经网络的参数初始化关键在于对第一个卷积核的初始化。

随后在步骤S220中，基于原网络的第一个卷积核参数，初始化目标网络的第一个卷积核参数

其中，卷积核参数包括输入通道数、输出通道数、卷积核的高度和卷积核的宽度。原网络和目标网络的第一个卷积核参数不一致，区别在于输入通道数。由于第一个卷积核的输入通道数等于输入图像的通道数。当输入图像为RGB彩色图像时，第一个卷积核的输入通道数为3，当输入图像为灰度图像时，第一个卷积核的输入通道数为1。

以8bit量化为例，由于图像中每个像素点对应一个像素值，在0-255之间，0是黑色，255是白色，中间值是一些不同等级的灰色，也有三通道的灰度图，三通道灰度图只有一个通道有值，其他通道值为0。三通道彩色图像每个像素点有三个值表示，例如RGB图片为三通道图片，是通过对R红色、G绿色、B蓝色三个颜色通道的变化和它们相互之间的叠加来得到。

根据本发明的一个实施例，可以基于RGB图像转灰度图像的方式，将原网络的第一个权重矩阵转换为目标网络的第一个权重矩阵。

由于RGB彩色图像转换为灰度图像是将RGB三个通道的分量按照一定的比例计算到灰度图像中，即Gray＝R*0.299+G*0.587+B*0.114。假设原网络的输入图像为RGB三通道图像，目标网络的输入图像为单通道灰度图像。计算目标网络的第一个卷积核参数为：

nowmodel[‘conv1.weight’]＝0.299*pretrained_dict[‘conv1.weight’][：，0，：，：]+0.587*pretrained_dict[‘conv1.weight’][：，1，：，：]+0.114*pretrained_dict[‘conv1.weight’][：，2，：，：]

其中，pretrained_dict[‘conv1.weight’]表示原网络的第一个卷积核的权重矩阵，nowmode1[‘conv1.weight’]表示目标网络的第一个卷积核的权重矩阵，pretrained_dict[‘conv1.weight’][：，0，：，：]即表示取权重矩阵中第一个输入通道的值，pretrained_dict[‘conv1.weight’][：，1，：，：]表示取权重矩阵中第二个输入通道的值，pretrained_dict[‘conv1.weight’][：，2，：，：]。

此处仅作为示例，示出了利用对RGB三通道图像进行处理的原网络、来训练对单通道的灰度图像进行处理的目标网络的思路。应当了解，原网络的输入图像并不局限于RGB三通道图，还可以是HSI、YUV三通道图等等，根据本发明的实施例，本领域技术人员应当可以基于对应颜色空间的像素转换公式，得到目标网络初始化后的参数。此处不再一一赘述。

经过上述参数变换，能够使已经训练好的原网络的参数和目标网络的参数一致，有利于目标网络的训练。最后在步骤S230中，基于初始化后的参数，训练目标网络。

关于训练目标网络的步骤可以描述为：基于初始化后的参数得到预训练的目标网络；将单通道的灰度图输入该预训练的目标网络，通过损失函数计算网络的输出所对应的损失值；根据损失值调整网络参数；重复迭代计算损失值和调整网络参数的步骤，直到满足预定条件(预定条件可以是损失值小于某个阈值，也可以是训练的次数达到某个值，不限于此)时训练结束。需要说明的是，本发明的实施例对损失函数的选取不做限制。

在根据本发明的一个实施例中，可以基于预设的学习率，使用梯度下降法使目标网络的损失函数最小，以得到训练后的目标网络。具体地，对于原网络和目标网络相同的层，可以对权重进行复用，适当调小目标网络的学习率；对于不同的层取随机权重初始值，适当调大目标网络的学习率。这样可以使目标网络较快地达到较理想的状态。

需要说明的是，以上对目标网络的训练过程仅作为示例，基于本发明实施例所提供的计算目标网络的初始化参数的方法，任何已知或未来可知的训练卷积神经网络的方法均可以与本发明的实施例相结合，来训练得到目标网络。

根据本发明的方案，通过加载已训练好的卷积神经网络，利用原网络中第一个卷积核参数初始化目标网络第一个卷积核参数，这样使得转换后的参数具有实际意义，能够解决网络参数不兼容的问题，加速网络的收敛。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明所述的方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种训练目标网络的方法，适于在计算设备中执行，所述方法包括：

获取原网络的第一个卷积核参数，所述原网络为已训练好的卷积神经网络：

基于原网络的第一个卷积核参数，初始化目标网络的第一个卷积核参数；以及

基于初始化后的参数，训练所述目标网络，

其中，所述原网络的输入通道数为3，所述目标网络的输入通道数为1。

2.如权利要求1所述的方法，其中，所述卷积核参数为权重矩阵。

3.如权利要求2所述的方法，其中，所述权重矩阵表示为[输出通道数，输入通道数，卷积核的高度，卷积核的宽度]，且输入通道数等于输入图像的通道数。

4.如权利要求3所述的方法，其中，所述原网络的输入图像为RGB彩色图像，所述目标网络的输入图像为单通道灰度图。

5.如权利要求4所述的方法，其中，所述基于原网络的第一个卷积核参数，初始化目标网络的第一个卷积核参数的步骤包括：

基于RGB图像转灰度图像的方式，将原网络的第一个卷积核参数转换为目标网络的第一个卷积核参数。

6.如权利要求5所述的方法，其中，所述目标网络的第一个卷积核参数为：

nowmodel[‘conv1.weight’]＝0.299*pretrained_dict[‘conv1.weight’][：，0，：，：]+0.587*pretrained_dict[‘convl.weight’][：，1，：，：]+0.114*pretrained_dict[‘convl.weight’][：，2，：，：]

其中，pretrained_dict[‘convl.weight’]表示原网络的第一个卷积核参数，nowmode1[‘conv1.weight’]表示目标网络的第一个卷积核参数。

7.如权利要求1所述的方法，其中，所述原网络和目标网络为具有不同网络结构的卷积神经网络。

8.如权利要求1所述的方法，其中，所述基于初始化后的参数，训练所述目标网络的步骤包括：

基于初始化后的参数得到预训练的目标网络；

将单通道的灰度图输入所述预训练的目标网络；

计算所述目标网络的损失函数的损失值；

根据损失值调整目标网络的参数；

重复迭代所述计算损失值和调整目标网络参数的步骤，直到满足预定条件时训练结束。

9.一种计算设备，包括：

一个或多个处理器；

存储器，适于预先存储模板图像并存储所述用户图像；

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-8所述方法中的任一方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行根据权利要求1-8所述的方法中的任一方法。