CN111612146A

CN111612146A - 一种基于无监督学习的模型预训练方法

Info

Publication number: CN111612146A
Application number: CN202010475387.1A
Authority: CN
Inventors: 颜成钢; 郑锦凯; 陈利; 孙垚棋; 张继勇; 张勇东
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-04-16
Filing date: 2020-05-29
Publication date: 2020-09-01

Abstract

本发明提供一种基于无监督学习的模型预训练方法。本发明首先采用均匀分布的方式对神经网络模型的参数进行初始化，并设置循环轮数；利用数据本身具有高度相似性的特点，寻找锚数据；然后利用最近邻算法为每个锚数据寻找邻数据；再拉近锚数据和其对应的邻数据在特征空间之间的距离；采用循序渐进的方式，进行循环操作，获得最终的神经网络模型参数；最后将获得的最终的神经网络模型参数作为后续针对目标数据集进行监督学习的初始化参数；本发明解决了Kmeans和DBSCAN中难以设置的K值和密度值的问题，为后续在目标数据集上进行监督学习节省了训练时间、提升了模型准确率。

Description

一种基于无监督学习的模型预训练方法

技术领域

本发明涉及深度学习技术领域，尤其可以应用于深度学习模型训练方面，具体地说，提出了一种利用新型的无监督学习得到的先验知识作为深度学习模型的基础知识，方便后续模型强化的方法。

背景技术

随着深度神经网络的兴起，日常生活中，越来越多的地方用到了深度学习的方法，比如：人脸识别、自动驾驶、智能零售等。但是，就目前来看，深度学习的方法都无可避免的要使用大量有标签的数据进行训练，从而使模型达到优良的性能。并且，随着人们所面临的任务量的增加，导致网络越来越深，对有标签的数据量的需求也越来越大。

众所周知的是，对数据进行标记标签是一件非常枯燥、特别消耗成本、影响工程项目进度推进的事情。所以，当今比较普遍的一种做法是，给深度神经网络模型加载预训练参数，使其在目标数据集上进行训练之前，模型已经具备初步的能力，以达到减少对带标签数据量的需求，在实际应用中，这种做法还能使模型的性能得到较好的提升，还可以大大节省开发周期。

当前比较流行的模型的预训练方法主要有2种：

一种是加载已有训练好的模型参数，作为目标数据集的初始化。著名的有ImageNet训练好的ResNet34、ResNet50、ResNet101等，这种方法简单、高效。但同时缺点也很明显，非常受限于模型框架，倘若你要自己设计一个模型，那么现有的已经训练好的模型参数都无法派上用场。另外，还有一个特别突出的缺点就是，目前这种预训练方法都很依赖于ImageNet数据集，原因是ImageNet数据量庞大且较为丰富。可是，倘若我们想做一个车辆识别相关的工作，那么这种预训练方法也将不能起到很好的初始化作用。原因也很简单，因为ImageNet收集的信息中绝大部分信息均与车辆无关，因此以这种方式进行目标域为车辆的识别工作可能会起到反作用，影响模型学习的方向。

另一种预训练方法就可以比较好的避免上一种方法中遇到的问题，即采用无监督学习对模型在目标数据集进行有针对性的初始化。那么，自然而然的，就会想到如何利用好现有的无监督学习算法。目前在该领域比较具有代表性的方法有Kmeans和DBSCAN。然而，Kmeans和DBSCAN均需要人为设置K值和密度值，这些参数的设置将严重影响实验结果的好坏。

本文提出的是一种新型的基于数据本身相似度特性进行特征聚类的方法，该方法可以很好的进行无监督聚类，解决了Kmeans和DBSCAN中难以设置的K值和密度值的问题，并且可以达到和ImageNet作为初始化进行直接测试的效果。我们相信，我们所介绍的新型的无监督学习作为深度神经网络模型预训练是切实可行且具有非常明显的现实意义的。

发明内容

针对现有技术中存在的不足，本发明提供一种基于无监督学习的模型预训练方法。

本发明主要研究的是深度神经网络模型的参数初始化，需要解决的技术问题有：如何采用一种更加有效的着眼于目标数据集本身的无监督学习进行深度神经网络模型参数初始化。

本发明的灵感来自于，近期有研究表明，数据本身之间具有高度相似性，即相同类别的两副图像之间的相似度比不同类别的两幅图像的相似度要高。许多学者依据此发现进行了大量的相关研究。本发明依据最新的无监督学习作为深度神经网络模型的参数初始化(预训练)，为加速模型的训练，节省工程开发周期、提高深度学习算法准确率起到明显作用，具有十分重要的现实意义。

本发明方法步骤如下：

步骤1、采用均匀分布的方式对神经网络模型的参数进行初始化，并设置循环轮数；

步骤2、利用数据本身具有高度相似性的特点，寻找锚数据；

步骤3、利用最近邻算法为每个锚数据寻找邻数据；

步骤4：拉近锚数据和其对应的邻数据在特征空间之间的距离；

步骤5：采用循序渐进的方式，循环步骤2-步骤4，获得最终的神经网络模型参数；

步骤6：将获得的最终的神经网络模型参数作为后续针对目标数据集进行监督学习的初始化参数；

本发明方法具有的优点及有益结果为：

1、介绍了一种基于数据本身相似度特性的无监督学习方法，可以很好应用于各式各样的数据集，所提算法的适用性广泛。

2、采用循序渐进的方式，让算法能自身从简单到复杂进行学习，不断提升无监督学习效果。

3、本发明最终将新型的基于数据本身相似度特性的无监督学习应用于神经网络模型的预训练，作为网络的初始化参数，为后续在目标数据集上进行监督学习节省了训练时间、提升了模型准确率。

附图说明

图1是本发明在目标数据集中寻找锚数据的展示图；

图2是本发明利用最近邻算法为锚数据寻找邻数据的展示图；

图3是本发明中拉近锚数据和邻数据之间特征距离的展示图；

图4是本发明采用新型的无监督学习作为模型预训练的框架图；

具体实施方式

以下结合附图及实施例，对本发明进行进一步的详细说明。

本发明提出了一种新型的无监督学习作为预训练的方法。利用最新的相关研究，数据本身具有高度的相似性特点，引用了新型的基于数据本身的无监督学习，并且采用循序渐进的方式，让无监督算法自己从简单到复杂的进行学习。最终将该新型的无监督算法学习出来的神经网络模型参数，作为后续目标数据集进行监督学习的初始化参数。本发明介绍的方法在现实工程应用中，特别是神经网络模型层数很深，或者工程面临的数据量十分庞大的情况下，对加快网络训练、节省工程开发周期、提高模型准确率等方面具有重要意义。下面详细说明本发明的各个步骤：

步骤1、采用均匀分布的方式对神经网络模型进行参数初始化，并设置循环轮数；

首先，采用均匀分布的随机初始化方法，作为神经网络模型的初始参数。其次，设置随机初始化方法的循环轮数R，并计算出每轮中选取锚数据的样本个数，具体公式如下：

公式(1)中r指代当前轮次，R指代要循环的总轮数。S为每轮中选取锚数据的数量占训练集总数的百分比。

步骤2、利用数据本身具有高度相似性的特点，寻找锚数据；

寻找在特征空间中特征最为突兀的数据作为锚数据，为了寻找锚数据，定义如下公式：

公式(2)中，p_ij是无参数的类别指示器，x_i表示第i个样本对应的特征向量，x_j表示第j个样本对应的特征向量，N表示训练集的样本个数，u是决定特征空间稠密程度的超参数，是人为设定的，当u>1时，特征空间越稠密，0<u<1时，特征空间越稀疏。当u＝1时，公式(2)完全等价于传统的softmax函数，因此不会设定u＝1。

公式(3)中，H(x_i)表示样本在训练集中的得分值，H(x_i)的值越大，代表该样本在特征空间中处于周围较密集区域；H(x_i)的值越小，代表该样本在特征空间中处于较稀疏区域。考虑到实际应用场景，认为处在较稀疏区域的样本就是特征突兀的锚数据。在每轮循环中选取训练集中H(x_i)最小的前H*S个样本作为锚数据。

步骤3、利用最近邻算法为每个锚数据寻找邻数据；

采用k-最近邻算法为每个锚数据寻找最近的1个邻数据，即k取值为1；采用的度量方式为余弦距离。传统的k-最近邻算法数学定义如下：

N(x)＝{x_i|s(x_itx)istop_kinX}∪{x} (4)

其中X指整个训练集的特征空间，s(*)表示余弦距离。

步骤4、拉近每个锚数据和其对应邻数据之间的特征距离；

为了达到无监督聚类的效果，在特征空间中拉近每个锚数据和其对应的邻数据之间的距离，采用损失函数公式如下：

步骤5、采用循序渐进的方式，循环步骤2-步骤4，获得最终的神经网络模型参数；

通过循序渐进的方式，使让神经网络模型能够从易到难的学习训练集本身的特征分布，使得无监督模型可以从简单到复杂的进行聚类学习，循环的总轮数为R。

步骤6、将获得的最终的神经网络参数作为后续针对目标数据集进行监督学习的初始化参数，从而达到加快神经网络模型训练、节省项目开发周期、同时还能提高网络准确率的目的。

Claims

1.一种基于无监督学习的模型预训练方法，其特征在于，步骤如下：

步骤2、利用数据本身具有高度相似性的特点，寻找锚数据；

步骤3、利用最近邻算法为每个锚数据寻找邻数据；

2.根据权利要求1所述的一种基于无监督学习的模型预训练方法，其特征在于，步骤1采用均匀分布的方式对神经网络模型进行参数初始化，并设置循环轮数，具体步骤如下；

3.根据权利要求2所述的一种基于无监督学习的模型预训练方法，其特征在于，步骤2利用数据本身具有高度相似性的特点，寻找锚数据，具体步骤如下；

公式(2)中，p_ij是无参数的类别指示器，x_i表示第i个样本对应的特征向量，x_j表示第j个样本对应的特征向量，N表示训练集的样本个数，u是决定特征空间稠密程度的超参数，是人为设定的，当u＞1时，特征空间越稠密，0<u<1时，特征空间越稀疏。当u＝1时，公式(2)完全等价于传统的softmax函数，因此不会设定u＝1。

公式(3)中，H(x_i)表示样本在训练集中的得分值，H(x_i)的值越大，代表该样本在特征空间中处于周围较密集区域；H(x_i)的值越小，代表该样本在特征空间中处于较稀疏区域。在每轮循环中选取训练集中H(x_i)最小的前H*S个样本作为锚数据。

4.根据权利要求3所述的一种基于无监督学习的模型预训练方法，其特征在于，步骤3利用最近邻算法为每个锚数据寻找邻数据，具体步骤如下；

N(x)＝{x_i|s(x_i，x)is top_k inX}∪{x} (4)

其中X指整个训练集的特征空间，s(*)表示余弦距离。

5.根据权利要求4所述的一种基于无监督学习的模型预训练方法，其特征在于，步骤4拉近每个锚数据和其对应邻数据之间的特征距离，具体步骤如下；

6.根据权利要求5所述的一种基于无监督学习的模型预训练方法，其特征在于，步骤5采用循序渐进的方式，循环步骤2-步骤4，获得最终的神经网络模型参数，具体步骤如下；

通过循序渐进的方式，使神经网络模型能够从易到难的学习训练集本身的特征分布，使得无监督模型可以从简单到复杂的进行聚类学习，循环的总轮数为R。