CN116561614A - 一种基于元学习的小样本数据处理系统 - Google Patents
一种基于元学习的小样本数据处理系统 Download PDFInfo
- Publication number
- CN116561614A CN116561614A CN202211246247.2A CN202211246247A CN116561614A CN 116561614 A CN116561614 A CN 116561614A CN 202211246247 A CN202211246247 A CN 202211246247A CN 116561614 A CN116561614 A CN 116561614A
- Authority
- CN
- China
- Prior art keywords
- data
- meta
- task
- training
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims description 72
- 238000012360 testing method Methods 0.000 claims description 36
- 238000005457 optimization Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 23
- 230000004927 fusion Effects 0.000 claims description 23
- 238000005070 sampling Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 17
- 101100455978 Arabidopsis thaliana MAM1 gene Proteins 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 230000002068 genetic effect Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000000611 regression analysis Methods 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000001507 sample dispersion Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 230000008485 antagonism Effects 0.000 claims 1
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种基于元学习的小样本数据处理系统,该系统包括回归建模模块、数据增强模块、任务分类模块、数据处理模块、目标预测模块。本申请用于解决数据的不平稳问题,增强数据处理算法的泛化能力,同时可以利用少量样本数据和较少的迭代次数微调通用模型,自适应输入数据,从而获取多个特异性生成器,增强数据的多样性。
Description
技术领域
本申请涉及航空航天数据处理技术领域,具体涉及一种基于元学习的小样本数据处理系统。
背景技术
通常在机器学习里,会使用某个场景的大量数据来训练模型;然而当场景发生改变,模型就需要重新训练。元学习随着经验和任务数量的增长,在每个任务上的表现得到改进,每当学会解决一个新的任务,就越有能力解决其他新的任务。具体来说,元学习器在多轮任务中迭代学习到一些元知识,利用学习到的元知识可以帮助新的任务快速迭代,提高新任务的性能。
随着深度学习技术的发展,小样本学习领域涌现出一些优秀的算法。目前小样本学习方法主要有基于数据增强、基于元学习、基于迁移学习以及混合的方法。近年来,小样本学习取得了长足发展。小样本学习试图在有限样本条件下实现分类或拟合任务,其中基于优化方法的元学习旨在学习一组元分类器,并在新任务上微调实现较好的性能,元学习MAML算法能在面对新任务时,仅通过少步迭代更新就可取得较好的性能。
发明内容
为了解决上述技术问题,本申请旨在提供一种基于元学习的小样本数据处理系统,目的在于解决数据的不平稳问题,增强数据处理算法的泛化能力,同时可以利用少量样本数据和较少的迭代次数微调通用模型,自适应输入数据,从而获取多个特异性生成器,增强数据的多样性。本申请所采用的技术方案如下:
一种基于元学习的小样本数据处理系统,该系统包括回归建模模块、数据增强模块、任务分类模块、数据处理模块、目标预测模块;
回归建模模块,用于构建使用高斯回归对数据进行回归分析的非参数模型,利用小样本分散数据的特性,将高斯过程回归模型运用到数据中;
数据增强模块,用于将元学习MAML算法和生成式对抗网络相结合以获得融合模型;任务分类模块,采用分类器-元学习器框架,通过元学习器度量分类器在分类任务上的表现来自动学习模型参数;
数据处理模块,采用针对并行化处理的优化策略进行数据处理;
目标预测模块,用于将经过训练的浅层网络迁移到目标域数据中,并使用分类器进行分类。
进一步的,所述将元学习MAML算法和生成式对抗网络相结合以获得融合模型,包括:利用元学习训练方式搜寻初始化参数以确定初始化模型,在初始化模型的基础上,通过类别样本快速学习当前任务的数据特性,获得能够生成与类别样本相对应的融合模型。
进一步的,所述融合模型包括生成器G和判别器D;其中,所述生成器G将从噪声分布采样得到的数据z映射到样本数据空间中以获得生成数据G(z);
所述判别器D对生成数据G(z)和真实数据x进行判断;
当判别器D无法准确判断输入的真伪时即达到纳什平衡,所述生成器G学习到了原始数据的分布。
进一步的,所述元学习MAML算法,包括:
步骤201、准备N个训练任务Train Task、每个训练任务对应的训练数据SupportSet和测试数据Query Set;再准备几个测试任务,测试任务用于评估meta learning学习到的参数的效果;训练任务和测试任务均从Omniglot中采样产生;
步骤202、定义网络结构,并初始化meta网络的参数为所述meta网络将应用到新的测试任务中的meta网络,该meta网络中存储有先验知识;
步骤203、开始执行迭代预训练,以得到meta网络参数;
步骤204、在测试任务中,使用测试任务的训练数据Support Set对meta网络参数进行调整;
步骤205、使用测试任务的测试数据Query Set来评估meta learning的效果。
进一步的,在步骤203中,所述执行迭代预训练,包括:
步骤2031、采样1个训练任务m,将meta网络的参数赋值给任务m独有的网络以得到/>
步骤2032、使用任务m的训练数据Support Set,基于任务m的学习率αm,对进行优化更新;
步骤2033、基于优化更新后的使用测试数据Query Set来计算任务m的并计算/>对所述优化更新后的/>的梯度;
步骤2034、使用所述优化更新后的的梯度乘以meta网络的学习率αmeta所获得的值来更新/>并得到/>
步骤2035、采样1个任务n,将参数赋值给任务/>其中初始/>
步骤2036、使用任务n的训练数据,基于任务n的学习率αn,对进行优化更新;
步骤2037、基于优化更新后的使用测试数据Query Set来计算任务n的并计算/>对所述优化更新后的/>的梯度;
步骤2038、使用所述优化更新后的的梯度乘以meta网络的学习率αmeta所获得的值来更新/>并得到/>
步骤2039、在训练任务上,重复执行上述过程。
进一步的,所述获得融合模型,包括:通过不断调整初始化参数以在小样本数据生成任务上快速收敛,得到针对所述小样本数据生成任务的融合模型以扩充生成小样本数据。
进一步的,所述自动学习模型参数,包括:基于门控循环单元GRU的元学习器模型,根据元损失的前后关联性和优化模型效率,通过重置门和更新门两个门控结构自适应调节元损失信息的流动。
进一步的,所述将高斯过程回归模型运用到数据中,包括:
步骤101、对数据样本进行贝叶斯先验,运用核函数来模拟样本间的协方差函数,采用极大似然估计进行核函数的超参数学习,获得数据间的相关性;
步骤102、采用随机采样获得回归模型的后验分布图形,预测出目标函数的平均值和方差,以计算出的95%置信区间来评估分散数据的不确定性;
步骤103、结合高斯过程回归模型的特性,运用遗传算法对数据进行多目标优化,将数据的分布以及所对应的度量不确定性的方差作为需要优化的目标函数,为小样本且分散的数据集建模。
进一步的,所述任务分类模块的操作方法包括:
步骤301、将预训练数据集Dpre分割为训练集Dtrain和测试集Dtest;
步骤302、更新预训练模型m;
步骤303、将所述预训练模型m的编码器参数迁移至分类器f;
步骤304、用分类器f的全连接FC层参数初始化元学习器g的隐藏层h;
步骤305、从元学习数据集Dmeta中采样训练任务;
步骤306、将待处理数据传入分类器f计算损失;
步骤307、将计算得到的损失传入元学习器g,计算隐藏层h;
步骤308、重复步骤305~307,更新元学习器g的参数。
进一步的,对于数据处理模块,所述针对并行化处理的优化策略进行数据处理,包括:
步骤401、将小样本数据映射到Hibert空间内;
步骤402、将数据特征提取问题转化为线性求解问题,计算空间内小样本数据在各个投影方向的线性表示,得到相应的样本特征值,由与样本特征值对应的特征向量构成特征矩阵,得到样本数据特征矩阵;
步骤403、在不平衡的状态下,调整信息熵,直到相对熵达到设定的平衡目标,计算各个样本数据特征矩阵的信息熵和互信息,根据互信息来调整目标数据集的相对熵,以达到平衡状态;
步骤404、将步骤403处理后的数据输入到条件生成对抗网络中,以用户预设的数据处理目标作为目标函数,完成小样本机器学习数据处理。
通过本申请实施例,可以获得如下技术效果:
(1)本申请基于元学习的方法,利用以往的经验知识来指导新任务的学习,在元学习阶段将数据集分解为不同的元任务,去学习类别变化情况下模型的泛化能力,在元测试阶段,面对新任务,不需要变动已有的模型就可以完成分类,使用小样本数据集进行迭代次数很少的训练就可以用于测试,混合型算法能够结合不同技术的优点而显著提升算法的性能;
(2)本申请的优势在于作为神经网络的元学习器具有高度的表达性,可以建模出任何复杂的参数更新公式;并且通过反向传播算法可以对损失函数的优化空间进行高效搜索,为分类器处理小样本数据分类问题时提供良好的模型初始化参数,有效缓解小样本数据集带来的过拟合问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为高斯过程回归算法流程;
图2为预训练示意图;
图3为融合模型结构图;
图4为融合模型算法流程示意图;
图5为分类器-元学习器框架图;
图6为数据处理模块处理流程示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本申请保护的范围。
深度学习小样本问题的本质是训练过程中的监督样本过少而很难拟合模型中大量的参数,导致其精度很低。然而,现有的普通数据增强方法只能缓解而不能解决小样本问题,利用生成网络进行数据增强,由于先验知识的不完美,生成的数据与真实数据之间的差异会导致概念偏移,因此如何利用模型从数据本身中充分挖掘其信息是解决小样本问题的关键。
该系统包括回归建模模块、数据增强模块、任务分类模块、数据处理模块、目标预测模块。
回归建模模块,用于构建使用高斯回归对数据进行回归分析的非参数模型,利用小样本分散数据的特性,将高斯过程回归模型运用到数据中;
高斯过程回归是基于相似性的机器学习方法,不需要显式地指定函数的具体形式,而是假设其服从某个指定均值函数和协方差函数的高斯过程,函数的后验分布是通过拟合训练数据时自动学习得到的,且在似然为正态分布时该后验具有的解析形式。
数据增强模块,用于将元学习MAML算法和生成式对抗网络相结合以获得融合模型;所述将元学习MAML算法和生成式对抗网络相结合以获得融合模型,包括:利用元学习训练方式搜寻初始化参数以确定初始化模型,在初始化模型的基础上,通过类别样本快速学习当前任务的数据特性,获得能够生成与类别样本相对应的融合模型;
所述融合模型包括生成器G和判别器D;
其中,所述生成器G将从噪声分布采样得到的数据z映射到样本数据空间中以获得生成数据G(z);
所述判别器D对生成数据G(z)和真实数据x进行判断;
当判别器D无法准确判断输入的真伪时即达到纳什平衡,所述生成器G学习到了原始数据的分布。
所述元学习MAML算法,包括:
步骤201、准备N个训练任务Train Task、每个训练任务对应的训练数据SupportSet和测试数据Query Set;再准备几个测试任务,测试任务用于评估meta learning学习到的参数的效果;训练任务和测试任务均从Omniglot中采样产生;
步骤202、定义网络结构,并初始化meta网络的参数为所述meta网络将应用到新的测试任务中的meta网络,该meta网络中存储有先验知识;
步骤203、开始执行迭代预训练,以得到meta网络参数;
步骤204、在测试任务中,使用测试任务的训练数据Support Set对meta网络参数进行调整;
步骤205、使用测试任务的测试数据Query Set来评估meta learning的效果;
在步骤203中,所述执行迭代预训练,包括:
步骤2031、采样1个训练任务m,将meta网络的参数赋值给任务m独有的网络以得到/>
步骤2032、使用任务m的训练数据Support Set,基于任务m的学习率αm,对进行优化更新;
步骤2033、基于优化更新后的使用测试数据Query Set来计算任务m的并计算/>对所述优化更新后的/>的梯度;
步骤2034、使用所述优化更新后的的梯度乘以meta网络的学习率αmeta所获得的值来更新/>并得到/>
步骤2035、采样1个任务n,将参数赋值给任务/>其中初始
步骤2036、使用任务n的训练数据,基于任务n的学习率αn,对进行优化更新;
步骤2037、基于优化更新后的使用测试数据Query Set来计算任务n的并计算/>对所述优化更新后的/>的梯度;
步骤2038、使用所述优化更新后的的梯度乘以meta网络的学习率αmeta所获得的值来更新/>并得到/>
步骤2039、在训练任务上,重复执行上述过程。
所述获得融合模型,包括:通过不断调整初始化参数以在小样本数据生成任务上快速收敛,得到针对所述小样本数据生成任务的特异性GAN模型以扩充生成小样本数据。
融合模型由生成器G与判别器D组成,并以基学习器与元学习器交替训练的方法进行,其中基学习器在输入任务空间中执行,元学习器在与任务无关的元空间中操作,具体实现方式见融合模型算法流程图。实际上是希望找到一组对于任务变化敏感的融合模型参数,使得参数的微小变化就可以很大程度上提高新任务的融合模型的表现性能。
该系统可以有效减少对样本的需求量,同时通过微调还能增强生成数据的多样性,实现了对于小样本数据的生成扩充。
任务分类模块,采用分类器-元学习器框架,通过元学习器度量分类器在分类任务上的表现来自动学习模型参数;
所述自动学习模型参数,包括:基于门控循环单元GRU的元学习器模型,根据元损失的前后关联性和优化模型效率,通过重置门和更新门两个门控结构自适应调节元损失信息的流动;
数据处理模块,采用针对并行化处理的优化策略进行数据处理;
所述并行化处理的优化策略降低了数据处理的计算复杂度,有效解决了数据不平稳问题,进一步加强了数据处理算法的泛化能力。
目标预测模块,用于将经过训练的浅层网络迁移到目标域数据中,并使用分类器进行分类;
该目标预测模块解决了小样本导致的过拟合问题,提髙神经网络在小样本下的识别率,同时与传统识别方法相比也具有很大的优势。
所述将高斯过程回归模型运用到数据中,包括:
步骤101、对数据样本进行贝叶斯先验,运用核函数来模拟样本间的协方差函数,采用极大似然估计进行核函数的超参数学习,获得数据间的相关性;
步骤102、采用随机采样获得回归模型的后验分布图形,预测出目标函数的平均值和方差,以计算出的95%置信区间来评估分散数据的不确定性;
步骤103、结合高斯过程回归模型的特性,运用遗传算法对数据进行多目标优化,将数据的分布以及所对应的度量不确定性的方差作为需要优化的目标函数,为小样本且分散的数据集建模;
所述任务分类模块工作流程为:
在t时刻将待处理数据文件输入分类器f训练,产生数据的预测结果,使用预测结果和对应的样本标签计算交叉熵损失losst,并与t时刻分类器f的梯度gradt组合成误差信号即元损失lt,元学习器g接收元损失通过神经网络计算输出t+1时刻的分类器模型参数θt+1。由于元损失在神经网络的不同层级结构如卷积层、分类层上数值差异较大,为了使不同层级的元损失特征处在同一数量级上,加强GRU对分类器的度量性能,需要对元损失进行处。
传统元学习器通过输入门、遗忘门和输出门3种门结构协同交互运算,将拟合参数更新机制完成模型参数的自动学习,相比于全连接神经网络在分类器性能上有了一定提升,但是其元学习器复杂的网络结构会导致模型效率低下,而其随机初始化元学习器门结构的操作使分类器难以学习小样本多任务之间的知识转移。为进一步缓和小样本输入数据带来的过拟合问题,任务分类模块处理流程分为两步:预训练阶段和元学习阶段。在预训练阶段,在数据集上预训练变分自编码器,通过无监督训练提取数据集丰富的语义隐特征,将编码层参数迁移至GRU的隐状态中以代替传统的随机初始化操作,提升分类器在新任务上的泛化性能。VAE是一种概率生成模型,通过编码解码操作实现真实分布到生成分布的转换,VAE的无监督预训练操作能够使得由编码器映射的隐变量包含数据集的通用高级特征,为分类器提供良好初始化参数,降低分类器对标注样本的需求。
所述任务分类模块的操作方法包括:
步骤301、将预训练数据集Dpre分割为训练集Dtrain和测试集Dtest;
步骤302、更新预训练模型m;
步骤303、将所述预训练模型m的编码器参数迁移至分类器f;
步骤304、用分类器f的全连接FC层参数初始化元学习器g的隐藏层h;
步骤305、从元学习数据集Dmeta中采样训练任务;
步骤306、将待处理数据传入分类器f计算损失;
步骤307、将计算得到的损失传入元学习器g,计算隐藏层h;
步骤308、重复步骤305~307,更新元学习器g的参数;
上述操作方法的预训练阶段使分类器把握到了多任务的共性知识转移,元学习阶段使用分类器的FC层参数作为GRU的输入,FC层的部分更新策略有两个优势:(1)充分利用了预训练阶段的特征提取层参数,经过元学习阶段的微调,使分类器注意跨任务的共性知识,有效解决小样本过拟合问题;(2)FC层参数较少,FC层的元学习训练大大加速了算法框架的训练时间。
对于数据处理模块,所述针对并行化处理的优化策略进行数据处理,包括:
步骤401、将小样本数据映射到Hibert空间内;
步骤402、将数据特征提取问题转化为线性求解问题,计算空间内小样本数据在各个投影方向的线性表示,得到相应的样本特征值,由与样本特征值对应的特征向量构成特征矩阵,得到样本数据特征矩阵;
步骤403、在不平衡的状态下,调整信息熵,直到相对熵达到设定的平衡目标,计算各个样本数据特征矩阵的信息熵和互信息,根据互信息来调整目标数据集的相对熵,以达到平衡状态;
步骤404、将步骤403处理后的数据输入到条件生成对抗网络中,以用户预设的数据处理目标作为目标函数,完成小样本机器学习数据处理。
对于目标预测模块,预测方法包括:
步骤501、当数据量超过预设阈值后,使用对抗网络的预训练模型进行预训练操作;
待处理数量较少时,直接用于预训练会出现过拟合问题,网络的预训练模型要在大数据量下进行,可以确保预训练模型也适用于目标域。
步骤502、进行网络结构调整,修改输出层神经元数量,使其与目标域类别对应;
由于源域和目标域的数据集类别不同,所以在对网络进行训练之前需要修改网络结构,修改输出层神经元的数量,使其与目标域类别对应。卷积主干架构为特征金字塔网络的MaskR-CNN根据其规模从特征金字塔的不同级别提取感兴趣区域特征,首先经过下采样后得到特征金字塔,然后使用侧连接对特征金字塔的上下层进行融合并送到区域候选网络,接着区域候选网络对目标候选框进行二分类区别前景和背景信息,最后进行感兴趣区域对准及后续操作;
步骤503、在修改输出层神经元数量之后,将预训练模型中全连接层之前的网络层迁移到目标域中,然后对该网络层进行初始化,利用目标域图像对网络参数进行微调;
步骤504、将未知待处理小样本输入参数微调后的网络进行前向传播,完成特征的逐层提取与最终的类别判断。
虽然以上描述了本申请的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本申请的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本申请的原理和实质的前提下,可以对这些实施方式作出多种变更或修改,但这些变更和修改均落入本申请的保护范围。
Claims (10)
1.一种基于元学习的小样本数据处理系统,其特征在于,该系统包括回归建模模块、数据增强模块、任务分类模块、数据处理模块、目标预测模块;
回归建模模块,用于构建使用高斯回归对数据进行回归分析的非参数模型,利用小样本分散数据的特性,将高斯过程回归模型运用到数据中;
数据增强模块,用于将元学习MAML算法和生成式对抗网络相结合以获得融合模型;任务分类模块,采用分类器-元学习器框架,通过元学习器度量分类器在分类任务上的表现来自动学习模型参数;
数据处理模块,采用针对并行化处理的优化策略进行数据处理;
目标预测模块,用于将经过训练的浅层网络迁移到目标域数据中,并使用分类器进行分类。
2.根据权利要求1所述的系统,其特征在于,所述将元学习MAML算法和生成式对抗网络相结合以获得融合模型,包括:利用元学习训练方式搜寻初始化参数以确定初始化模型,在初始化模型的基础上,通过类别样本快速学习当前任务的数据特性,获得能够生成与类别样本相对应的融合模型。
3.根据权利要求1所述的系统,其特征在于,所述融合模型包括生成器G和判别器D;其中,所述生成器G将从噪声分布采样得到的数据z映射到样本数据空间中以获得生成数据G(z);
所述判别器D对生成数据G(z)和真实数据x进行判断;
当判别器D无法准确判断输入的真伪时即达到纳什平衡,所述生成器G学习到了原始数据的分布。
4.根据权利要求2所述的系统,其特征在于,所述元学习MAML算法,包括:
步骤201、准备N个训练任务Train Task、每个训练任务对应的训练数据Support Set和测试数据Query Set;再准备几个测试任务,测试任务用于评估meta learning学习到的参数的效果;训练任务和测试任务均从Omniglot中采样产生;
步骤202、定义网络结构,并初始化meta网络的参数为所述meta网络将应用到新的测试任务中的meta网络,该meta网络中存储有先验知识;
步骤203、开始执行迭代预训练,以得到meta网络参数;
步骤204、在测试任务中,使用测试任务的训练数据Support Set对meta网络参数进行调整;
步骤205、使用测试任务的测试数据Query Set来评估meta learning的效果。
5.根据权利要求4所述的系统,其特征在于,在步骤203中,所述执行迭代预训练,包括:
步骤2031、采样1个训练任务m,将meta网络的参数赋值给任务m独有的网络以得到
步骤2032、使用任务m的训练数据SupportSet,基于任务m的学习率αm,对进行优化更新;
步骤2033、基于优化更新后的使用测试数据QuerySet来计算任务m的并计算/>对所述优化更新后的/>的梯度;
步骤2034、使用所述优化更新后的的梯度乘以meta网络的学习率αmeta所获得的值来更新/>并得到/>
步骤2035、采样1个任务n,将参数赋值给任务/>其中初始/>
步骤2036、使用任务n的训练数据,基于任务n的学习率αn,对进行优化更新;
步骤2037、基于优化更新后的使用测试数据QuerySet来计算任务n的/>并计算/>对所述优化更新后的/>的梯度;
步骤2038、使用所述优化更新后的的梯度乘以meta网络的学习率αmeta所获得的值来更新/>并得到/>
步骤2039、在训练任务上,重复执行上述过程。
6.根据权利要求1所述的系统,其特征在于,所述获得融合模型,包括:通过不断调整初始化参数以在小样本数据生成任务上快速收敛,得到针对所述小样本数据生成任务的融合模型以扩充生成小样本数据。
7.根据权利要求1所述的系统,其特征在于,所述自动学习模型参数,包括:基于门控循环单元GRU的元学习器模型,根据元损失的前后关联性和优化模型效率,通过重置门和更新门两个门控结构自适应调节元损失信息的流动。
8.根据权利要求1所述的系统,其特征在于,所述将高斯过程回归模型运用到数据中,包括:
步骤101、对数据样本进行贝叶斯先验,运用核函数来模拟样本间的协方差函数,采用极大似然估计进行核函数的超参数学习,获得数据间的相关性;
步骤102、采用随机采样获得回归模型的后验分布图形,预测出目标函数的平均值和方差,以计算出的95%置信区间来评估分散数据的不确定性;
步骤103、结合高斯过程回归模型的特性,运用遗传算法对数据进行多目标优化,将数据的分布以及所对应的度量不确定性的方差作为需要优化的目标函数,为小样本且分散的数据集建模。
9.根据权利要求1所述的系统,其特征在于,所述任务分类模块的操作方法包括:
步骤301、将预训练数据集Dpre分割为训练集Dtrain和测试集Dtest;
步骤302、更新预训练模型m;
步骤303、将所述预训练模型m的编码器参数迁移至分类器f;
步骤304、用分类器f的全连接FC层参数初始化元学习器g的隐藏层h;
步骤305、从元学习数据集Dmeta中采样训练任务;
步骤306、将待处理数据传入分类器f计算损失;
步骤307、将计算得到的损失传入元学习器g,计算隐藏层h;
步骤308、重复步骤305~307,更新元学习器g的参数。
10.根据权利要求1所述的系统,其特征在于,对于数据处理模块,所述针对并行化处理的优化策略进行数据处理,包括:
步骤401、将小样本数据映射到Hibert空间内;
步骤402、将数据特征提取问题转化为线性求解问题,计算空间内小样本数据在各个投影方向的线性表示,得到相应的样本特征值,由与样本特征值对应的特征向量构成特征矩阵,得到样本数据特征矩阵;
步骤403、在不平衡的状态下,调整信息熵,直到相对熵达到设定的平衡目标,计算各个样本数据特征矩阵的信息熵和互信息,根据互信息来调整目标数据集的相对熵,以达到平衡状态;
步骤404、将步骤403处理后的数据输入到条件生成对抗网络中,以用户预设的数据处理目标作为目标函数,完成小样本机器学习数据处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211246247.2A CN116561614A (zh) | 2022-10-12 | 2022-10-12 | 一种基于元学习的小样本数据处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211246247.2A CN116561614A (zh) | 2022-10-12 | 2022-10-12 | 一种基于元学习的小样本数据处理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116561614A true CN116561614A (zh) | 2023-08-08 |
Family
ID=87486703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211246247.2A Pending CN116561614A (zh) | 2022-10-12 | 2022-10-12 | 一种基于元学习的小样本数据处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116561614A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117408679A (zh) * | 2023-12-14 | 2024-01-16 | 北京星汉博纳医药科技有限公司 | 一种运维场景信息的处理方法及装置 |
CN118153176A (zh) * | 2024-05-09 | 2024-06-07 | 西华大学 | 基于Transformer模型与GWO算法的系杆张拉力优化方法 |
-
2022
- 2022-10-12 CN CN202211246247.2A patent/CN116561614A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117408679A (zh) * | 2023-12-14 | 2024-01-16 | 北京星汉博纳医药科技有限公司 | 一种运维场景信息的处理方法及装置 |
CN117408679B (zh) * | 2023-12-14 | 2024-03-22 | 北京星汉博纳医药科技有限公司 | 一种运维场景信息的处理方法及装置 |
CN118153176A (zh) * | 2024-05-09 | 2024-06-07 | 西华大学 | 基于Transformer模型与GWO算法的系杆张拉力优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11531900B2 (en) | Imitation learning for machine learning systems with synthetic data generators | |
WO2019067960A1 (en) | AGGRESSIVE DEVELOPMENT USING COOPERATIVE GENERATORS | |
CN111652124A (zh) | 一种基于图卷积网络的人体行为识别模型的构建方法 | |
CN116561614A (zh) | 一种基于元学习的小样本数据处理系统 | |
CN113807420A (zh) | 一种考虑类别语义匹配的域自适应目标检测方法及系统 | |
CN112699247A (zh) | 一种基于多类交叉熵对比补全编码的知识表示学习框架 | |
CN114841257B (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN114332578A (zh) | 图像异常检测模型训练方法、图像异常检测方法和装置 | |
CN112465120A (zh) | 一种基于进化方法的快速注意力神经网络架构搜索方法 | |
Wu et al. | Optimized deep learning framework for water distribution data-driven modeling | |
CN113807176A (zh) | 一种基于多知识融合的小样本视频行为识别方法 | |
CN115270752A (zh) | 一种基于多层次对比学习的模板句评估方法 | |
CN112883931A (zh) | 基于长短期记忆网络的实时真假运动判断方法 | |
CN117494775A (zh) | 训练神经网络模型的方法、电子设备、云端、集群及介质 | |
US20230076290A1 (en) | Rounding mechanisms for post-training quantization | |
Song et al. | A Novel Face Recognition Algorithm for Imbalanced Small Samples. | |
Zhang et al. | Learning to search efficient densenet with layer-wise pruning | |
Ali et al. | Improving training of generative adversarial networks | |
CN113360772A (zh) | 一种可解释性推荐模型训练方法与装置 | |
Meng et al. | Cross-datasets facial expression recognition via distance metric learning and teacher-student model | |
CN113033495B (zh) | 一种基于k-means算法的弱监督行为识别方法 | |
Lauer | From support vector machines to hybrid system identification | |
Mirhashemi et al. | Test-Cost Sensitive Ensemble of Classifiers Using Reinforcement Learning. | |
Jing | Neural Network-based Pattern Recognition in the Framework of Edge Computing | |
CN116109873A (zh) | 基于多模型联合对比学习的图像分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |