CN111612146A - 一种基于无监督学习的模型预训练方法 - Google Patents
一种基于无监督学习的模型预训练方法 Download PDFInfo
- Publication number
- CN111612146A CN111612146A CN202010475387.1A CN202010475387A CN111612146A CN 111612146 A CN111612146 A CN 111612146A CN 202010475387 A CN202010475387 A CN 202010475387A CN 111612146 A CN111612146 A CN 111612146A
- Authority
- CN
- China
- Prior art keywords
- data
- neural network
- network model
- anchor
- anchor data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000003062 neural network model Methods 0.000 claims abstract description 26
- 230000000750 progressive effect Effects 0.000 claims abstract description 9
- 230000000694 effects Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000011423 initialization method Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于无监督学习的模型预训练方法。本发明首先采用均匀分布的方式对神经网络模型的参数进行初始化,并设置循环轮数;利用数据本身具有高度相似性的特点,寻找锚数据;然后利用最近邻算法为每个锚数据寻找邻数据;再拉近锚数据和其对应的邻数据在特征空间之间的距离;采用循序渐进的方式,进行循环操作,获得最终的神经网络模型参数;最后将获得的最终的神经网络模型参数作为后续针对目标数据集进行监督学习的初始化参数;本发明解决了Kmeans和DBSCAN中难以设置的K值和密度值的问题,为后续在目标数据集上进行监督学习节省了训练时间、提升了模型准确率。
Description
技术领域
本发明涉及深度学习技术领域,尤其可以应用于深度学习模型训练方面,具体地说,提出了一种利用新型的无监督学习得到的先验知识作为深度学习模型的基础知识,方便后续模型强化的方法。
背景技术
随着深度神经网络的兴起,日常生活中,越来越多的地方用到了深度学习的方法,比如:人脸识别、自动驾驶、智能零售等。但是,就目前来看,深度学习的方法都无可避免的要使用大量有标签的数据进行训练,从而使模型达到优良的性能。并且,随着人们所面临的任务量的增加,导致网络越来越深,对有标签的数据量的需求也越来越大。
众所周知的是,对数据进行标记标签是一件非常枯燥、特别消耗成本、影响工程项目进度推进的事情。所以,当今比较普遍的一种做法是,给深度神经网络模型加载预训练参数,使其在目标数据集上进行训练之前,模型已经具备初步的能力,以达到减少对带标签数据量的需求,在实际应用中,这种做法还能使模型的性能得到较好的提升,还可以大大节省开发周期。
当前比较流行的模型的预训练方法主要有2种:
一种是加载已有训练好的模型参数,作为目标数据集的初始化。著名的有ImageNet训练好的ResNet34、ResNet50、ResNet101等,这种方法简单、高效。但同时缺点也很明显,非常受限于模型框架,倘若你要自己设计一个模型,那么现有的已经训练好的模型参数都无法派上用场。另外,还有一个特别突出的缺点就是,目前这种预训练方法都很依赖于ImageNet数据集,原因是ImageNet数据量庞大且较为丰富。可是,倘若我们想做一个车辆识别相关的工作,那么这种预训练方法也将不能起到很好的初始化作用。原因也很简单,因为ImageNet收集的信息中绝大部分信息均与车辆无关,因此以这种方式进行目标域为车辆的识别工作可能会起到反作用,影响模型学习的方向。
另一种预训练方法就可以比较好的避免上一种方法中遇到的问题,即采用无监督学习对模型在目标数据集进行有针对性的初始化。那么,自然而然的,就会想到如何利用好现有的无监督学习算法。目前在该领域比较具有代表性的方法有Kmeans和DBSCAN。然而,Kmeans和DBSCAN均需要人为设置K值和密度值,这些参数的设置将严重影响实验结果的好坏。
本文提出的是一种新型的基于数据本身相似度特性进行特征聚类的方法,该方法可以很好的进行无监督聚类,解决了Kmeans和DBSCAN中难以设置的K值和密度值的问题,并且可以达到和ImageNet作为初始化进行直接测试的效果。我们相信,我们所介绍的新型的无监督学习作为深度神经网络模型预训练是切实可行且具有非常明显的现实意义的。
发明内容
针对现有技术中存在的不足,本发明提供一种基于无监督学习的模型预训练方法。
本发明主要研究的是深度神经网络模型的参数初始化,需要解决的技术问题有:如何采用一种更加有效的着眼于目标数据集本身的无监督学习进行深度神经网络模型参数初始化。
本发明的灵感来自于,近期有研究表明,数据本身之间具有高度相似性,即相同类别的两副图像之间的相似度比不同类别的两幅图像的相似度要高。许多学者依据此发现进行了大量的相关研究。本发明依据最新的无监督学习作为深度神经网络模型的参数初始化(预训练),为加速模型的训练,节省工程开发周期、提高深度学习算法准确率起到明显作用,具有十分重要的现实意义。
本发明方法步骤如下:
步骤1、采用均匀分布的方式对神经网络模型的参数进行初始化,并设置循环轮数;
步骤2、利用数据本身具有高度相似性的特点,寻找锚数据;
步骤3、利用最近邻算法为每个锚数据寻找邻数据;
步骤4:拉近锚数据和其对应的邻数据在特征空间之间的距离;
步骤5:采用循序渐进的方式,循环步骤2-步骤4,获得最终的神经网络模型参数;
步骤6:将获得的最终的神经网络模型参数作为后续针对目标数据集进行监督学习的初始化参数;
本发明方法具有的优点及有益结果为:
1、介绍了一种基于数据本身相似度特性的无监督学习方法,可以很好应用于各式各样的数据集,所提算法的适用性广泛。
2、采用循序渐进的方式,让算法能自身从简单到复杂进行学习,不断提升无监督学习效果。
3、本发明最终将新型的基于数据本身相似度特性的无监督学习应用于神经网络模型的预训练,作为网络的初始化参数,为后续在目标数据集上进行监督学习节省了训练时间、提升了模型准确率。
附图说明
图1是本发明在目标数据集中寻找锚数据的展示图;
图2是本发明利用最近邻算法为锚数据寻找邻数据的展示图;
图3是本发明中拉近锚数据和邻数据之间特征距离的展示图;
图4是本发明采用新型的无监督学习作为模型预训练的框架图;
具体实施方式
以下结合附图及实施例,对本发明进行进一步的详细说明。
本发明提出了一种新型的无监督学习作为预训练的方法。利用最新的相关研究,数据本身具有高度的相似性特点,引用了新型的基于数据本身的无监督学习,并且采用循序渐进的方式,让无监督算法自己从简单到复杂的进行学习。最终将该新型的无监督算法学习出来的神经网络模型参数,作为后续目标数据集进行监督学习的初始化参数。本发明介绍的方法在现实工程应用中,特别是神经网络模型层数很深,或者工程面临的数据量十分庞大的情况下,对加快网络训练、节省工程开发周期、提高模型准确率等方面具有重要意义。下面详细说明本发明的各个步骤:
步骤1、采用均匀分布的方式对神经网络模型进行参数初始化,并设置循环轮数;
首先,采用均匀分布的随机初始化方法,作为神经网络模型的初始参数。其次,设置随机初始化方法的循环轮数R,并计算出每轮中选取锚数据的样本个数,具体公式如下:
公式(1)中r指代当前轮次,R指代要循环的总轮数。S为每轮中选取锚数据的数量占训练集总数的百分比。
步骤2、利用数据本身具有高度相似性的特点,寻找锚数据;
寻找在特征空间中特征最为突兀的数据作为锚数据,为了寻找锚数据,定义如下公式:
公式(2)中,pij是无参数的类别指示器,xi表示第i个样本对应的特征向量,xj表示第j个样本对应的特征向量,N表示训练集的样本个数,u是决定特征空间稠密程度的超参数,是人为设定的,当u>1时,特征空间越稠密,0<u<1时,特征空间越稀疏。当u=1时,公式(2)完全等价于传统的softmax函数,因此不会设定u=1。
公式(3)中,H(xi)表示样本在训练集中的得分值,H(xi)的值越大,代表该样本在特征空间中处于周围较密集区域;H(xi)的值越小,代表该样本在特征空间中处于较稀疏区域。考虑到实际应用场景,认为处在较稀疏区域的样本就是特征突兀的锚数据。在每轮循环中选取训练集中H(xi)最小的前H*S个样本作为锚数据。
步骤3、利用最近邻算法为每个锚数据寻找邻数据;
采用k-最近邻算法为每个锚数据寻找最近的1个邻数据,即k取值为1;采用的度量方式为余弦距离。传统的k-最近邻算法数学定义如下:
N(x)={xi|s(xitx)istop_kinX}∪{x} (4)
其中X指整个训练集的特征空间,s(*)表示余弦距离。
步骤4、拉近每个锚数据和其对应邻数据之间的特征距离;
为了达到无监督聚类的效果,在特征空间中拉近每个锚数据和其对应的邻数据之间的距离,采用损失函数公式如下:
步骤5、采用循序渐进的方式,循环步骤2-步骤4,获得最终的神经网络模型参数;
通过循序渐进的方式,使让神经网络模型能够从易到难的学习训练集本身的特征分布,使得无监督模型可以从简单到复杂的进行聚类学习,循环的总轮数为R。
步骤6、将获得的最终的神经网络参数作为后续针对目标数据集进行监督学习的初始化参数,从而达到加快神经网络模型训练、节省项目开发周期、同时还能提高网络准确率的目的。
Claims (6)
1.一种基于无监督学习的模型预训练方法,其特征在于,步骤如下:
步骤1、采用均匀分布的方式对神经网络模型的参数进行初始化,并设置循环轮数;
步骤2、利用数据本身具有高度相似性的特点,寻找锚数据;
步骤3、利用最近邻算法为每个锚数据寻找邻数据;
步骤4:拉近锚数据和其对应的邻数据在特征空间之间的距离;
步骤5:采用循序渐进的方式,循环步骤2-步骤4,获得最终的神经网络模型参数;
步骤6:将获得的最终的神经网络模型参数作为后续针对目标数据集进行监督学习的初始化参数;
3.根据权利要求2所述的一种基于无监督学习的模型预训练方法,其特征在于,步骤2利用数据本身具有高度相似性的特点,寻找锚数据,具体步骤如下;
寻找在特征空间中特征最为突兀的数据作为锚数据,为了寻找锚数据,定义如下公式:
公式(2)中,pij是无参数的类别指示器,xi表示第i个样本对应的特征向量,xj表示第j个样本对应的特征向量,N表示训练集的样本个数,u是决定特征空间稠密程度的超参数,是人为设定的,当u>1时,特征空间越稠密,0<u<1时,特征空间越稀疏。当u=1时,公式(2)完全等价于传统的softmax函数,因此不会设定u=1。
公式(3)中,H(xi)表示样本在训练集中的得分值,H(xi)的值越大,代表该样本在特征空间中处于周围较密集区域;H(xi)的值越小,代表该样本在特征空间中处于较稀疏区域。在每轮循环中选取训练集中H(xi)最小的前H*S个样本作为锚数据。
4.根据权利要求3所述的一种基于无监督学习的模型预训练方法,其特征在于,步骤3利用最近邻算法为每个锚数据寻找邻数据,具体步骤如下;
采用k-最近邻算法为每个锚数据寻找最近的1个邻数据,即k取值为1;采用的度量方式为余弦距离。传统的k-最近邻算法数学定义如下:
N(x)={xi|s(xi,x)is top_k inX}∪{x} (4)
其中X指整个训练集的特征空间,s(*)表示余弦距离。
6.根据权利要求5所述的一种基于无监督学习的模型预训练方法,其特征在于,步骤5采用循序渐进的方式,循环步骤2-步骤4,获得最终的神经网络模型参数,具体步骤如下;
通过循序渐进的方式,使神经网络模型能够从易到难的学习训练集本身的特征分布,使得无监督模型可以从简单到复杂的进行聚类学习,循环的总轮数为R。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010300108 | 2020-04-16 | ||
CN2020103001088 | 2020-04-16 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111612146A true CN111612146A (zh) | 2020-09-01 |
Family
ID=72196854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010475387.1A Pending CN111612146A (zh) | 2020-04-16 | 2020-05-29 | 一种基于无监督学习的模型预训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111612146A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657465A (zh) * | 2021-07-29 | 2021-11-16 | 北京百度网讯科技有限公司 | 预训练模型的生成方法、装置、电子设备和存储介质 |
-
2020
- 2020-05-29 CN CN202010475387.1A patent/CN111612146A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657465A (zh) * | 2021-07-29 | 2021-11-16 | 北京百度网讯科技有限公司 | 预训练模型的生成方法、装置、电子设备和存储介质 |
CN113657465B (zh) * | 2021-07-29 | 2024-04-09 | 北京百度网讯科技有限公司 | 预训练模型的生成方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111967294B (zh) | 一种无监督域自适应的行人重识别方法 | |
CN103942568B (zh) | 一种基于无监督特征选择的分类方法 | |
CN111008639B (zh) | 一种基于注意力机制的车牌字符识别方法 | |
CN112800876A (zh) | 一种用于重识别的超球面特征嵌入方法及系统 | |
CN110941734A (zh) | 基于稀疏图结构的深度无监督图像检索方法 | |
CN113537040A (zh) | 一种基于半监督学习的时序行为检测方法及系统 | |
CN111274958A (zh) | 一种网络参数自纠正的行人重识别方法及系统 | |
CN113920472A (zh) | 一种基于注意力机制的无监督目标重识别方法及系统 | |
CN112115780A (zh) | 一种基于深度多模型协同的半监督行人重识别方法 | |
CN111291705B (zh) | 一种跨多目标域行人重识别方法 | |
CN111612146A (zh) | 一种基于无监督学习的模型预训练方法 | |
CN114972904A (zh) | 一种基于对抗三元组损失的零样本知识蒸馏方法及系统 | |
CN114417975A (zh) | 基于深度pu学习与类别先验估计的数据分类方法及系统 | |
CN117390411B (zh) | 基于元迁移学习的变工况轴承故障诊断方法 | |
CN114399661A (zh) | 一种实例感知主干网络训练方法 | |
CN115705393A (zh) | 一种基于持续学习的雷达辐射源分级识别方法 | |
CN116523877A (zh) | 一种基于卷积神经网络的脑mri图像肿瘤块分割方法 | |
CN117034060A (zh) | 基于ae-rcnn的洪水分级智能预报方法 | |
CN111612733A (zh) | 一种面向医学影像数据分析的卷积神经网络优化方法 | |
CN116340846A (zh) | 一种弱监督下多示例多标签学习的混叠调制信号识别方法 | |
CN115661539A (zh) | 一种嵌入不确定性信息的少样本图像识别方法 | |
CN116433909A (zh) | 基于相似度加权多教师网络模型的半监督图像语义分割方法 | |
CN114821772A (zh) | 一种基于时空关联学习的弱监督时序动作检测方法 | |
CN112906868A (zh) | 一种面向行为克隆的示范主动采样方法 | |
CN114463569A (zh) | 一种基于优化自适应度量学习的图像匹配方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200901 |
|
RJ01 | Rejection of invention patent application after publication |