CN109558942B

CN109558942B - 一种基于浅度学习的神经网络迁移方法

Info

Publication number: CN109558942B
Application number: CN201811388026.2A
Authority: CN
Inventors: 牛新征; 刘鹏飞; 徐畅; 李柯江; 朱家辉; 陈加伟; 朱戈; 潘袁湘
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2021-11-26
Anticipated expiration: 2038-11-20
Also published as: CN109558942A

Abstract

本发明公开了一种基于浅度学习的神经网络迁移方法，方法步骤为：步骤1、分类划分目标任务数据集并进行标记，存储标记数据作为浅度神经网络的训练数据x₀；步骤2、输入x₀至浅度神经网络，逐层训练得到预训练的浅度神经网络模型，x₀经预训练神经网络模型后输出数据为x₂；步骤3、将得到的预训练浅度神经网络模型的输出数据x₂作为目标任务的深度神经网络模型的输入，以目标任务的带标记数据训练整个深度神经网络，对整个网络参数进行微调，完成神经网络迁移。本发明使用逐层训练的浅度神经网络学习模型作为任务迁移的基础模型，使迁移任务简单高效，扩展性强，解决了传统端到端深度神经网络迁移效果波动不定，甚至适得其反的问题。

Description

一种基于浅度学习的神经网络迁移方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于浅度学习的神经网络迁移方法。

背景技术

浅度学习：即采用低层次神经网络用于机器学习。是机器学习对数据进行表征学习的方法。构建含少数隐藏层的学习结构来学习属性类别或特征，以发现数据的分布式特征表示。浅度的监督式神经网络比深度神经网络更容易被解释、分析和优化，但表征能力却不及深度神经网络。

迁移学习:即把已学训练好的模型参数迁移到新的模型来帮助新模型训练。考虑到大部分数据或任务是存在相关性的，所以通过迁移学习我们可以将已经学到的模型参数(也可理解为模型学到的知识)通过某种方式来分享给新模型从而加快并优化模型的学习效率不用像大多数网络那样从零学习(starting from scratch，tabula rasa)。

目前的神经网络迁移方法步骤为：

1.寻找与目标任务相关的源任务，源任务要与目标任务差距不大。例如如果你要训练一个神经网络来识别肺部X光片中是否包含肿瘤，那么使用VGG16的网络就不如使用一个已训练好的判断脑部是否包含肿瘤的神经网络。后者与当前的任务有相似的场景，很多底层的神经员可以做相同的事，而用来识别日常生活中照片的网络，则难以从X光片中提取有效的特征。

2.使用大量标记数据和海量显卡资源预先训练好一个能够解决源任务的深度神经网络，通常称之为Base Network。

3.把Base Network的前n层中每个节点的权重迁移到目标任务的神经网络(Target Network)的前n层。

4.将Target Network的其它层的训练参数随机初始化。

5.开始训练目标任务神经网络。其中，在做反向传播的时候，有两种方法可以选择：(1)把迁移过来的这前n层冻结起来，即在训练目标任务神经网络的时候，不改变这n层的值；(2)不冻结这前n层，而是会不断调整全局神经网络的值(包括前n层)，称为微调。这个主要取决于目标任务数据集的大小和前n层的参数个数，如果目标任务数据集很小，而参数个数很多，为了防止过拟合，通常采用冻结的方法；反之，采用微调参数。

现有方法中的问题在于：1)采用预训练的源任务深度神经网络，则要保证源任务和当前的任务差距不大，不然迁徙学习的效果会很差，这增加了方法的复杂性且不易保证该效果。2)预训练的源任务深度神经网络需要使用大量标记数据和海量显卡资源，而迁移学习的目的即减少训练新目标任务深度神经网络时对海量带标记数据和显卡资源需求，如若事先没有开源的解决源任务的深度神经网络，同样需要这些资源用于预训练源任务深度神经网络，其实此方法没有从本质上解决使用深度学习完成目标任务对于资源的大量需求。3)采用预训练源任务深度神经网络的端到端迁移到另一个深度神经网络时，传统的迁移深度神经网络不明晰迁移层数，往往需要通过编程人员自身经验去试出更好的迁移效果，我们无从得知需迁移深度神经网络的前多少层才能使得最终目标任务网络训练效果最优，不易使该迁移方法变得高效,且训练好的端到端深度学习网络目标太过于“明确”，一定程度上影响目标任务预测结果。

发明内容

本发明的目的在于：目前神经网络迁移采用预训练的源任务的端到端深度神经网络迁移到另一个深度神经网络的方法，该方法不易保证迁徙学习的效果和目标任务预测结果，没有达到迁移学习减少训练新目标任务深度神经网络时对海量带标记数据和显卡资源需求的目的，且端到端深度神经网络迁移不易提高迁移效率，为了解决上述传统方法迁移效果波动不定，甚至适得其反的问题，提出了一种基于浅度学习的神经网络迁移方法。

本发明采用的技术方案如下：

一种基于浅度学习的图像识别任务迁移方法，方法步骤如下：

步骤1、预处理目标任务数据集：划分图像识别相关任务，形成任务字典，并对分类的目标任务进行标记，存储标记数据，作为浅度神经网络的训练数据x₀；

步骤2、预训练浅度神经网络：输入步骤1的训练数据至浅度神经网络，逐层训练得到预训练的浅度神经网络模型，预训练的浅度神经网络模型包括：第一卷积层，池化层，第二卷积层和分类器，训练数据x₀经预训练的神经网络模型输出数据为x₂；

步骤3、迁移网络：将步骤2得到的预训练的浅度神经网络模型输出数据x₂作为目标任务的深度神经网络模型的输入，以目标任务的带标记数据训练整个深度神经网络，对整个网络参数进行微调，带标记数据包括x₀和完成目标任务的公司或个人自身收集或标注的数据。

进一步，所述步骤1中可对目标任务数据集进行拓展，只需相应地对增加的目标任务数据增加标记数据即可。

进一步，所述步骤2预训练的浅度神经网络模型中两个卷积层都采用3×3卷积核操作。

进一步，所述步骤2的浅度神经网络模型中，预训练的浅度神经网络模型数据处理过程具体为：训练数据x₀经过第一卷积层的卷积，输出得到x₁，x₁经过池化层下采样，输出得到x₂，将x₁输入第二卷积层，再经过分类器，输出预测结果为z₀，预训练浅度神经网络模型构建的计算公式如下：

其中：c表示划分目标任务数据集的类别数量；P表示池化算子；Wθ表示一个带有参数θ的卷积算子；S表示分类器；ρ表示一个Relu激活函数；R^c表示识别任务集；C_y是一个CNN浅度神经网络层。

进一步，所述步骤2中池化层的数据处理方法选择的是可逆的下采样运算，其中包括将初始的空间通道重组成4个以空间方式抽取的副本，这些副本通过2×2的空间子采样获得，从而将分辨率降低2倍。

进一步，所述步骤2预训练浅度神经网络中用C_yx₀表示第一卷积层的逐层训练过程，C_yx₀用如下公式表示：

其中：W₀…W_k-2表示宽度恒定的卷积层；L表示一个输出维度为c的线性算子；当k＝1时，C_y是一个简单的线性模型，即仅训练带有一个隐藏层的CNN浅度神经网络层，当这层网络训练结束之后才开始训练一个有两个隐藏层的CNN浅度神经网络层，以此类推，在每一次训练中，把已经训练好的前k-1层固定，然后增加第k层，在训练好具有三层隐藏层之后结束。

进一步，当划分目标任务数据集的类别数量增加时，只需将所述步骤2中预训练的浅度神经网络模型对应增加相同数量的分类器。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明中，在传统迁移学习的基础上，使用逐层训练的浅度神经网络学习模型作为任务迁移的基础模型，结合浅度学习容易被解释、分析和优化的优点，将浅度学习引入迁移学习中，使得浅度学习原本表征能力弱的缺陷成为更易被迁移的优势，能够使迁移任务简单高效，扩展性强。方法中先得到预训练浅度神经网络模型，再将整个预训练浅度神经网络模型作为目标任务神经网络模型结构首层，即将预训练浅度神经网络模型的输出数据x₂作为目标任务的深度神经网络模型的输入，以目标任务的带标记数据训练整个深度神经网络，再对整个网络参数进行微调，解决了传统端到端深度神经网络迁移后迁移效果波动不定，甚至适得其反的问题。直接将预训练模型作为目标深度神经网络的首层，不必考虑将预训练模型的迁移层数，使得迁移学习简单高效。且本发明只需预训练一个浅度神经网络结构，对于前期准备的带标记数据和内存显卡资源需求较少，所构建的网络结构简单。

2、本发明中，可对目标任务数据集进行拓展，只需相应地对增加的目标任务数据增加标记数据即可，同时，预训练模型是针对整个目标任务数据集的，不需关心两个目标任务的相关性，若想新增一个目标任务分类，则在预训练浅度神经网络模型最后增加一个Softmax分类器即可，不必从原始重新训练一个深度神经网络，可扩展性强。

3、本发明中，对于池化算子P，选择的是可逆的下采样运算，其中包括将初始的空间通道重组成4个以空间方式抽取的副本，这些副本可通过2×2的空间子采样获得，从而将分辨率降低2倍，避免采用跨步池化、平均池化或者非线性最大池化这些池化方法造成的显著加剧信息损失的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明方法整体流程图；

图2为本发明方法中浅度神经网络模型图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

一种基于浅度学习的神经网络迁移方法，方法步骤如下：

步骤1、预处理目标任务数据集：分类划分目标任务数据集的相关任务并进行标记，并存储标记数据，作为浅度神经网络的训练数据x₀。

对目标任务分类后，可对所有类别进行编号，并分类将每一个类别对应整理到一个文件夹，对每个类别即每个文件夹下的每个目标任务进行标记命名。

步骤2、预训练浅度神经网络：输入步骤1的训练数据至浅度神经网络，逐层训练得到预训练的浅度神经网络模型，预训练的浅度神经网络模型结构如图2所示，只有1个模块，包括依次排列的：第一卷积层，池化层，第二卷积层和分类器，分类器可采用例如Softmax分类器或Logistic分类器，或其它能够实现计算分类输出基础功能的分类器即可，使用Logistic分类器需要加入和识别目标个数相同个数的此分类器，Softmax不需要，所以这里优选Softmax分类器，训练数据x₀经预训练的神经网络模型输出数据为x₁。

预训练的浅度神经网络模型数据处理过程具体为：训练数据x₀经过第一卷积层的卷积，输出得到x₁，x₁再经过池化层下采样，输出得到x₂，x₁输入第二卷积层，再到Softmax分类器，输出得到预测结果z₀，此为最终的分类输出。

预训练浅度神经网络模型构建的计算公式如下：

其中：c表示划分目标任务数据集的类别数量；P表示池化算子；W_θ表示一个带有参数θ的卷积算子；S表示分类器，这里为Softmax分类器；ρ表示一个Relu激活函数；R^c表示识别任务集；C_y是一个CNN浅度神经网络层。

进一步，所述步骤2中池化算子P选择的是可逆的下采样运算，例如Dinh et al.(2017)中描述的可逆的下采样运算，其中包括将初始的空间通道重组成4个以空间方式抽取的副本，这些副本通过2×2的空间子采样获得，从而将分辨率降低2倍。避免了采用跨步池化、平均池化或者非线性最大池化这些池化方法造成的显著加剧信息损失的问题。

进一步，步骤2预训练浅度神经网络中用C_yx₀表示第一卷积层的逐层训练过程，C_yx₀用如下公式表示：

其中：W₀…W_k-2表示宽度恒定的卷积层；L表示一个输出维度为c的线性算子；当k＝1时，C_y是一个简单的线性模型，即仅训练带有一个隐藏层的CNN浅度神经网络层，当这层网络训练结束之后才开始训练一个有两个隐藏层的CNN浅度神经网络层，以此类推，在每一次训练中，把已经训练好的前k-1层固定，然后增加第k层，在训练好具有三层隐藏层之后结束，即CNN浅度神经网络层是逐层训练的。

进一步，当划分目标任务数据集的类别数量增加时，只需将所述步骤2中预训练浅度神经网络模型对应增加相同数量的Softmax分类器。

步骤3、迁移网络：将步骤2得到的预训练浅度神经网络模型的输出数据x₂作为目标任务的深度神经网络模型的输入，以目标任务的带标记数据训练整个深度神经网络，对整个网络参数进行微调。这里目标任务的带标记数据除了步骤1中的带标记数据外，还包括需要完成目标任务的公司或个人自身收集或标注的数据。

本发明在传统迁移学习的基础上，使用逐层训练的浅度神经网络学习模型作为任务迁移的基础模型，结合浅度学习容易被解释、分析和优化的优点，将浅度学习引入迁移学习中，使得浅度学习原本表征能力弱的缺陷成为更易被迁移的优势，能够使迁移任务简单高效，扩展性强。方法中先得到预训练浅度神经网络模型，再将整个预训练浅度神经网络模型作为目标任务神经网络模型结构首层，即将预训练浅度神经网络模型的输出数据x₂作为目标任务的深度神经网络模型的输入，以对目标任务分类的带标记数据训练整个深度神经网络，再对整个网络参数进行微调，解决了迁移后迁移效果波动不定，甚至适得其反的问题。直接将预训练模型作为目标深度神经网络的首层，不必考虑将预训练模型的迁移层数，使得迁移学习简单高效。且本发明只需预训练一个浅度神经网络结构，对于前期准备的带标记数据和内存显卡资源需求较少，所构建的网络结构简单。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

实施例1

本发明较佳实施例提供的一种基于浅度学习的神经网络迁移方法，将其应用与图像识别任务，方法步骤如下：

步骤1、预处理目标任务数据集：划分图像识别相关任务，形成任务字典，并对分类的目标任务进行标记，存储标记数据，作为浅度神经网络的训练数据x₀。相同种类对象的属性特征基本相同，比如动物具有头部加上肢体，交通工具具有轮子和运载体等。此步骤具体为：

1)将开源数据集ImageNet上的图像，通过识别对象不同来将图像识别任务大致划分成：动物、植物、建筑、道路，风景，物品，交通工具、文字；并记这些类别为1到8号。按照这些类别将图像分类整理到八个文件夹，图像以类别号下划线加图像编号命名。

2)每个文件夹下对应一个.pkl文件存储每张图像的标记数据。标记包括：图片名和对应类别。永久存储标记数据，作为浅度网络训练数据，扩展图像库时只需增加一行标记数据即可。

步骤2、预训练浅度神经网络：输入步骤1的训练数据至浅度神经网络，逐层训练得到预训练的浅度神经网络模型。训练的浅度神经网络的模型结构如图2所示，只有1个模块，包括：第一卷积层，池化层，第二卷积层和Softmax分类器，其中两个卷积层都采用3×3卷积核操作，训练数据x₀经过第一卷积层的卷积，输出得到x₁，x₁再经过池化层下采样，输出得到x₂，x₁输入第二卷积层，再到Softmax分类器，输出得到预测结果z₀，此为最终的分类输出。

预训练浅度神经网络模型构建的计算公式如下：

其中：c表示划分目标任务数据集的类别数量8；P表示池化算子；W_θ表示一个带有参数θ的卷积算子；S表示Softmax分类器；ρ表示一个Relu激活函数；R^c表示识别任务集；C_y是一个CNN浅度神经网络层。

所述池化算子P选择的是Dinh et al.(2017)中描述的可逆的下采样运算，其中包括将初始的空间通道重组成4个以空间方式抽取的副本，这些副本通过2×2的空间子采样获得，从而将分辨率降低2倍。避免了采用跨步池化、平均池化或者非线性最大池化这些池化方法造成的显著加剧信息损失的问题。

步骤2预训练浅度神经网络中用C_yx₀表示第一卷积层的逐层训练过程，C_yx₀用如下公式表示：：

当划分目标任务数据集的类别数量增加时，只需将所述步骤2中训练的浅度神经网络的模型结构对应增加相同数量的Softmax分类器。

步骤3、迁移网络：将整个预训练浅度神经网络模型作为目标任务神经网络模型结构首层，即将步骤2得到的预训练浅度神经网络模型的输出数据x₂作为目标任务的深度神经网络模型的输入，以目标任务的带标记数据训练整个深度神经网络，对整个网络参数进行微调。这里目标任务的带标记数据除了步骤1中的带标记数据外，还包括需要完成目标任务的公司或个人自身收集或标注的数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于浅度学习的神经网络迁移方法，其特征在于：方法步骤如下：

所述步骤2的浅度神经网络模型中，预训练的浅度神经网络模型数据处理过程具体为：训练数据x₀经过第一卷积层的卷积，输出得到x₁，x₁经过池化层下采样，输出得到x₂，将x₁输入第二卷积层，再经过分类器，输出预测结果为z₀，预训练浅度神经网络模型构建的计算公式如下：

其中：c表示划分目标任务数据集的类别数量；P表示池化算子；W_θ表示一个带有参数θ的卷积算子；S表示分类器；ρ表示一个Relu激活函数；R^c表示识别任务集；C_y是一个CNN浅度神经网络层；

2.根据权利要求1所述的一种基于浅度学习的神经网络迁移方法，其特征在于：所述步骤1中可对目标任务数据集进行拓展，只需相应地对增加的目标任务数据增加标记数据即可。

3.根据权利要求1所述的一种基于浅度学习的神经网络迁移方法，其特征在于：所述步骤2预训练的浅度神经网络模型中两个卷积层都采用3×3卷积核操作。

4.根据权利要求1所述的一种基于浅度学习的神经网络迁移方法，其特征在于：所述步骤2中池化层的数据处理方法选择的是可逆的下采样运算，其中包括将初始的空间通道重组成4个以空间方式抽取的副本，这些副本通过2×2的空间子采样获得，从而将分辨率降低2倍。

5.根据权利要求1所述的一种基于浅度学习的神经网络迁移方法，其特征在于：所述步骤2预训练浅度神经网络中用C_yx₀表示第一卷积层的逐层训练过程，C_yx₀用如下公式表示：

6.根据权利要求1所述的一种基于浅度学习的神经网络迁移方法，其特征在于：当划分目标任务数据集的类别数量增加时，只需将所述步骤2中预训练的浅度神经网络模型对应增加相同数量的分类器。