CN115099401A - 基于世界建模的持续学习框架的学习方法、装置及设备 - Google Patents
基于世界建模的持续学习框架的学习方法、装置及设备 Download PDFInfo
- Publication number
- CN115099401A CN115099401A CN202210522533.0A CN202210522533A CN115099401A CN 115099401 A CN115099401 A CN 115099401A CN 202210522533 A CN202210522533 A CN 202210522533A CN 115099401 A CN115099401 A CN 115099401A
- Authority
- CN
- China
- Prior art keywords
- training phase
- model
- learning
- data
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 164
- 238000005070 sampling Methods 0.000 claims abstract description 60
- 230000007246 mechanism Effects 0.000 claims abstract description 40
- 230000004044 response Effects 0.000 claims abstract description 37
- 230000008569 process Effects 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000013145 classification model Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Feedback Control In General (AREA)
Abstract
本申请涉及一种基于世界建模的持续学习框架的学习方法、装置及设备,方法包括:将获取的目标数据分为多个训练阶段数据;确定当前训练阶段对应的训练阶段数据,并利用当前训练阶段对应的训练阶段数据同时训练任务模型、世界模型和机理模型;使用前一训练阶段对应的训练阶段数据训练的世界模型进行数据采样,生成与第一训练阶段对应的训练阶段数据至前一训练阶段对应的训练阶段数据相同分布的采样数据,并使用前一训练阶段数据训练的机理模型,对当前训练阶段数据和采样数据处理,得到任务模型上对采样数据的采样梯度响应;基于同时训练的任务模型、世界模型和机理模型,通过采样梯度响应来控制任务模型的学习进程。由此,可以实现持续学习的目标。
Description
技术领域
本申请涉及持续学习技术领域,特别涉及一种基于世界建模的持续学习框架的学习方法、装置及设备。
背景技术
随着深度学习技术的日益成熟和广泛使用,使用海量数据,针对特定任务场景,从头训练一个人工智能是代价高昂的,且这种人工智能往往功能单一,无法胜任其他任务,单使用新数据训练后往往会遗忘原有知识。因此,训练一个通用人工智能,使其能够胜任多种任务,并可以学习新数据是性价比更高的选择,也是人工智能的一大发展趋势。
持续学习是近年来提出的一种深度学习技术,其致力于解决的应用场景设定有很多类型,但都存在以下几点共性:在持续不断的数据输入与训练过程中渐次迭代同一个深度学习模型;数据按获取时间划分为多个任务,任务间存在差异,例如训练目标、数据分布、模型输出等均可能发生变化;模型训练后一个任务时,前一任务的数据难以再次获得或只能部分获得。持续学习的目标就是在不断学习新任务的过程中,不遗忘旧任务的知识。
发明内容
本申请提供一种基于世界建模的持续学习框架的学习方法、装置及设备,可以实现持续学习的目标。
本申请第一方面实施例提供一种基于世界建模的持续学习框架的学习方法,持续学习框架包括任务模型、世界模型和机理模型,其中,所述方法包括以下步骤:
获取目标数据,并将所述目标数据分为多个训练阶段数据;
确定当前训练阶段对应的训练阶段数据,并利用所述当前训练阶段对应的训练阶段数据同时训练所述任务模型、所述世界模型和所述机理模型;
使用前一训练阶段对应的训练阶段数据训练的世界模型进行数据采样,生成与第一训练阶段对应的训练阶段数据至所述前一训练阶段对应的训练阶段数据相同分布的采样数据,并使用前一训练阶段数据训练的机理模型,对所述当前训练阶段数据和所述采样数据处理,得到所述任务模型上对所述采样数据的采样梯度响应;以及
基于所述当前训练阶段对应的训练阶段数据同时训练的所述任务模型、所述世界模型和所述机理模型,通过所述采样梯度响应来控制所述任务模型的学习进程。
可选地,所述通过所述采样梯度响应来控制所述任务模型的学习进程,包括:
基于梯度加权融合算法,通过所述采样梯度响应来控制所述任务模型的学习进程,其中,所述梯度加权融合算法为:
θj=θj-1+η*(ω1Δ1+ω2Δ2);
其中,θj和θj-1;均为所述任务模型的参数,j为整数,η为学习率,Δ1为利用所述当前训练阶段对应的训练阶段数据训练任务模型时得到的参数梯度,Δ2为所述采样梯度响应,ω1为所述参数梯度的学习权重,ω2为所述采样梯度响应的学习权重。
可选地,所述多个训练阶段数据不重合,且所述当前训练阶段数据无法再次使用所述前一训练阶段数据。
可选地,还包括:
基于生成对抗网络,构建所述世界模型,生成所述世界模型的数据样本分布。
可选地,所述任务模型通过神经网络模型训练得到。
本申请第二方面实施例提供一种基于世界建模的持续学习框架的学习装置,持续学习框架包括任务模型、世界模型和机理模型,其中,所述装置包括:
第一获取模块,用于获取目标数据,并将所述目标数据分为多个训练阶段数据;
训练模块,用于确定当前训练阶段对应的训练阶段数据,并利用所述当前训练阶段对应的训练阶段数据同时训练所述任务模型、所述世界模型和所述机理模型;
第二获取模块,用于使用前一训练阶段对应的训练阶段数据训练的世界模型进行数据采样,生成与第一训练阶段对应的训练阶段数据至所述前一训练阶段对应的训练阶段数据相同分布的采样数据,并使用前一训练阶段数据训练的机理模型,对所述当前训练阶段数据和所述采样数据处理,得到所述任务模型上对所述采样数据的采样梯度响应;以及
控制模块,用于基于所述当前训练阶段对应的训练阶段数据同时训练的所述任务模型、所述世界模型和所述机理模型,通过所述采样梯度响应来控制所述任务模型的学习进程。
可选地,所述控制模块,具体用于:
基于梯度加权融合算法,通过所述采样梯度响应来控制所述任务模型的学习进程,其中,所述梯度加权融合算法为:
θj=θj-1+η*(ω1Δ1+ω2Δ2);
其中,θj和θj-1;均为所述任务模型的参数,j为整数,η为学习率,Δ1为利用所述当前训练阶段对应的训练阶段数据训练任务模型时得到的参数梯度,Δ2为所述采样梯度响应,ω1为所述参数梯度的学习权重,ω2为所述采样梯度响应的学习权重。
可选地,所述多个训练阶段数据不重合,且所述当前训练阶段数据无法再次使用所述前一训练阶段数据。
可选地,还包括:
生成模块,用于基于生成对抗网络,构建所述世界模型,生成所述世界模型的数据样本分布。
可选地,所述任务模型通过神经网络模型训练得到。
本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的基于世界建模的持续学习框架的学习方法。
本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如上述实施例所述的基于世界建模的持续学习框架的学习方法。
由此,本申请实施例的基于世界建模的持续学习框架的学习方法从持续学习的技术路线出发,构建通用人工智能。一方面,该框架可以不断提升人工智能的能力,即不断利用新数据学习新任务的解决方案,并保证旧数据上学到的知识不会被遗忘;另一方面,该框架从梯度出发,使得其对图像、音频、文字、点云等多种模态的数据及多种深度学习任务都能够有好的通用性。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例提供的一种基于世界建模的持续学习框架的学习方法的流程图;
图2为根据本申请实施例的基于世界建模的持续学习框架的学习装置的示例图;
图3为根据本申请实施例的电子设备的示例图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的基于世界建模的持续学习框架的学习方法、装置及设备。本申请提供了一种基于世界建模的持续学习框架的学习方法,在该方法中,从持续学习的技术路线出发,基于梯度的持续学习方法可以较好的统一不同数据不同任务之间的差异,进而实现对世界建模的通用人工智能,从而提升深度学习领域数据和算力的使用效率,并进一步推动各行各业的高速发展。
具体而言,图1为本申请实施例所提供的一种基于世界建模的持续学习框架的学习方法的流程示意图。
该实施例中,本申请实施例的持续学习框架可以包括以下几个模块:任务模型、世界模型和机理模型。
其中,任务模型:对特定的任务环境采用的特定任务模型,可以是任何一个已有的成熟的神经网络模型;
世界模型:建模整个世界,具体来说,就是在特定任务环境下用于构建输入数据分布的模型;
机理模型:建模任务模型在世界环境下的运行机理的模型,具体来说,就是在上述世界模型构建的数据分布下,对上述任务模型学习过程建模的模型。
其中,任务模型针对不同任务使用不同架构,一般均为判别模型;世界模型和机理模型均为生成模型,使用生成对抗网络(Generative Adversarial Networks,GAN)建模相应分布,支持对输出分布的采样操作;世界模型生成数据样本分布,机理模型根据数据样本生成任务模型梯度响应分布。
如图1所示,该基于世界建模的持续学习框架的学习方法包括以下步骤:
在步骤S101中,获取目标数据,并将目标数据分为多个训练阶段数据。
可选地,在一些实施例中,多个训练阶段数据不重合,且当前训练阶段数据无法再次使用前一训练阶段数据。
具体而言,本申请实施例可以定义目标数据输入阶段T1-Tn(即多个训练阶段数据),每一阶段的数据Ti可以在一段时间内获取和学习,转入下一阶段Ti+1则无法再次使用Ti的数据。
在步骤S102中,确定当前训练阶段对应的训练阶段数据,并利用当前训练阶段对应的训练阶段数据同时训练任务模型、世界模型和机理模型。
可选地,在一些实施例中,还包括:基于生成对抗网络,构建世界模型,生成世界模型的数据样本分布。
可选地,在一些实施例中,任务模型通过神经网络模型训练得到。
在步骤S103中,使用前一训练阶段对应的训练阶段数据训练的世界模型进行数据采样,生成与第一训练阶段对应的训练阶段数据至前一训练阶段对应的训练阶段数据相同分布的采样数据,并使用前一训练阶段数据训练的机理模型,对当前训练阶段数据和采样数据处理,得到任务模型上对采样数据的采样梯度响应。
在步骤S104中,基于当前训练阶段对应的训练阶段数据同时训练的任务模型、世界模型和机理模型,通过采样梯度响应来控制任务模型的学习进程。
可选地,在一些实施例中,通过采样梯度响应来控制任务模型的学习进程,包括:基于梯度加权融合算法,通过采样梯度响应来控制任务模型的学习进程,其中,梯度加权融合算法为:
θj=θj-1+η*(ω1Δ1+ω2Δ2);
其中,θj和θj-1均为任务模型的参数,j为整数,指当前阶段训练到第j步,η为学习率,Δ1为利用当前训练阶段对应的训练阶段数据训练任务模型时得到的参数梯度,Δ2为采样梯度响应,ω1为参数梯度的学习权重,ω2为采样梯度响应的学习权重。
应当理解的是,本申请实施例可以使用Ti的数据和Ti-1的机理模型采样的梯度(梯度加权融合算法)训练Ti的任务模型;使用Ti的数据和Ti-1的世界模型采样的数据训练Ti的世界模型;使用Ti的数据和Ti-1的机理模型采样的梯度训练Ti的机理模型。其中,Ti指第i个阶段。
为更清晰地描述Ti的训练步骤,训练开始时已有Ti-1训好的三个模型。Ti训练需要经过多个训练步,直到模型收敛。下述操作每个训练步都做一遍:
(1)从Ti的数据里取若干样本Di,输入当前训练的任务模型,得到若干梯度响应Δ1。
(2)使用Ti-1的世界模型采样若干数据样本hDi-1,这些样本和T1至Ti-1的数据分布相同。
(3)使用Ti-1的机理模型,根据hDi-1,采样若干梯度响应Δ2。
(4)使用梯度加权融合算法,根据Δ1和Δ2,训练任务模型。
(5)使用hDi-1、Di、Δ1、Δ2,训练机理模型。
(6)使用hDi-1、Di训练世界模型。
其中,任务模型、世界模型和机理模型的输入输出分别为:
任务模型:输入数据样本,输出标签(例如分类任务的分类结果);
世界模型:输入噪声,输出数据样本(噪声控制数据采样);
机理模型:输入噪声、数据样本,输出梯度(噪声控制梯度采样)。
需要说明的是,持续学习的目的是构建一个通用人工智能,不断地利用新数据对既有模型进行更新,学习新的知识,同时不遗忘在旧数据上已学的知识。一般而言,旧的数据很难再次获取,或者重新获取及训练的代价很大,本申请实施例的基于世界建模的持续学习框架的学习方法可以在普通PC机或工作站等硬件系统上实现。
为使得本领域技术人员进一步了解本申请实施例的基于世界建模的持续学习框架的学习方法,下面结合具体实施例进行详细阐述。
该场景为自然图像的分类任务。输入数据为二维彩色自然图像,例如猫、狗等动物的图像;任务模型需要判断该图像属于那个类别,例如属于猫还是狗;模型输出为判断为各个类别的概率值。
任务模型使用ResNet分类模型,世界模型和机理模型均使用StyleGAN的基础架构,其中,世界模型用于生成彩色自然图像,机理模型用于生成ResNet分类模型各层网络参数的权重向量。此外,对机理模型做条件式扩展,即生成器使用额外图像输入控制生成结果,判别器加入额外图像判断生成的梯度向量是否同该图像匹配。
对所有图像数据进行划分,分成不重合的5个训练阶段(T1-T5)。
基于上述学习步骤S101-S104进行训练,最终得到的分类模型将在保持同所有数据共同训练分类模型的性能的同时,由于世界模型和机理模型对分布的建模能力可以对原始数据进行同分布增广,拥有更强的泛化能力和分类性能,实现持续学习的目标。由此,持续学习是构建通用人工智能的有效路径,基于梯度的持续学习方法可以较好的统一不同数据不同任务之间的差异,进而实现对世界建模的通用人工智能,从而提升深度学习领域数据和算力的使用效率,并进一步推动各行各业的高速发展。
根据本申请实施例提出的基于世界建模的持续学习框架的学习方法,从持续学习的技术路线出发,基于梯度的持续学习方法可以较好的统一不同数据不同任务之间的差异,进而实现对世界建模的通用人工智能,从而提升深度学习领域数据和算力的使用效率,并进一步推动各行各业的高速发展。
其次参照附图描述根据本申请实施例提出的基于世界建模的持续学习框架的学习装置。
图2是本申请实施例的基于世界建模的持续学习框架的学习装置的方框示意图。
如图2所示,该基于世界建模的持续学习框架的学习装置10包括:第一获取模块100、训练模块200、第二获取模块300和控制模块400。
其中,第一获取模块100用于获取目标数据,并将目标数据分为多个训练阶段数据;
训练模块200用于确定当前训练阶段对应的训练阶段数据,并利用当前训练阶段对应的训练阶段数据同时训练任务模型、世界模型和机理模型;
第二获取模块300用于使用前一训练阶段对应的训练阶段数据训练的世界模型进行数据采样,生成与第一训练阶段对应的训练阶段数据至前一训练阶段对应的训练阶段数据相同分布的采样数据,并使用前一训练阶段数据训练的机理模型,对当前训练阶段数据和采样数据处理,得到任务模型上对采样数据的采样梯度响应;以及
控制模块400用于基于当前训练阶段对应的训练阶段数据同时训练的任务模型、世界模型和机理模型,通过采样梯度响应来控制任务模型的学习进程。
可选地,在一些实施例中,控制模块400具体用于:
基于梯度加权融合算法,通过采样梯度响应来控制任务模型的学习进程,其中,梯度加权融合算法为:
θj=θj-1+η*(ω1Δ1+ω2Δ2);
其中,θj和θj-1均为任务模型的参数,j为整数;,η为学习率,Δ1为利用当前训练阶段对应的训练阶段数据训练任务模型时得到的参数梯度,Δ2为采样梯度响应,ω1为参数梯度的学习权重,ω2为采样梯度响应的学习权重。
可选地,在一些实施例中,多个训练阶段数据不重合,且当前训练阶段数据无法再次使用前一训练阶段数据。
可选地,在一些实施例中,上述的基于世界建模的持续学习框架的学习装置10,还包括:
生成模块,用于基于生成对抗网络,构建世界模型,生成世界模型的数据样本分布。
可选地,在一些实施例中,任务模型通过神经网络模型训练得到。
需要说明的是,前述对基于世界建模的持续学习框架的学习方法实施例的解释说明也适用于该实施例的基于世界建模的持续学习框架的学习装置,此处不再赘述。
根据本申请实施例提出的基于世界建模的持续学习框架的学习装置,从持续学习的技术路线出发,基于梯度的持续学习方法可以较好的统一不同数据不同任务之间的差异,进而实现对世界建模的通用人工智能,从而提升深度学习领域数据和算力的使用效率,并进一步推动各行各业的高速发展。。
图3为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器301、处理器302及存储在存储器301上并可在处理器302上运行的计算机程序。
处理器302执行程序时实现上述实施例中提供的基于世界建模的持续学习框架的学习方法。
进一步地,电子设备还包括:
通信接口303,用于存储器301和处理器302之间的通信。
存储器301,用于存放可在处理器302上运行的计算机程序。
存储器301可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器301、处理器302和通信接口303独立实现,则通信接口303、存储器301和处理器302可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器301、处理器302及通信接口303,集成在一块芯片上实现,则存储器301、处理器302及通信接口303可以通过内部接口完成相互间的通信。
处理器302可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的基于世界建模的持续学习框架的学习方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于世界建模的持续学习框架的学习方法,其特征在于,持续学习框架包括任务模型、世界模型和机理模型,其中,所述方法包括以下步骤:
获取目标数据,并将所述目标数据分为多个训练阶段数据;
确定当前训练阶段对应的训练阶段数据,并利用所述当前训练阶段对应的训练阶段数据同时训练所述任务模型、所述世界模型和所述机理模型;
使用前一训练阶段对应的训练阶段数据训练的世界模型进行数据采样,生成与第一训练阶段对应的训练阶段数据至所述前一训练阶段对应的训练阶段数据相同分布的采样数据,并使用前一训练阶段数据训练的机理模型,对所述当前训练阶段数据和所述采样数据处理,得到所述任务模型上对所述采样数据的采样梯度响应;以及
基于所述当前训练阶段对应的训练阶段数据同时训练的所述任务模型、所述世界模型和所述机理模型,通过所述采样梯度响应来控制所述任务模型的学习进程。
2.根据权利要求1所述的方法,其特征在于,所述通过所述采样梯度响应来控制所述任务模型的学习进程,包括:
基于梯度加权融合算法,通过所述采样梯度响应来控制所述任务模型的学习进程,其中,所述梯度加权融合算法为:
θj=θj-1+η*(ω1Δ1+ω2Δ2);
其中,θj和θj-1;均为所述任务模型的参数,j为整数,η为学习率,Δ1为利用所述当前训练阶段对应的训练阶段数据训练任务模型时得到的参数梯度,Δ2为所述采样梯度响应,ω1为所述参数梯度的学习权重,ω2为所述采样梯度响应的学习权重。
3.根据权利要求2所述的方法,其特征在于,所述多个训练阶段数据不重合,且所述当前训练阶段数据无法再次使用所述前一训练阶段数据。
4.根据权利要求1所述的方法,其特征在于,还包括:
基于生成对抗网络,构建所述世界模型,生成所述世界模型的数据样本分布。
5.根据权利要求1所述的方法,其特征在于,所述任务模型通过神经网络模型训练得到。
6.一种基于世界建模的持续学习框架的学习装置,其特征在于,持续学习框架包括任务模型、世界模型和机理模型,其中,所述装置包括:
第一获取模块,用于获取目标数据,并将所述目标数据分为多个训练阶段数据;
训练模块,用于确定当前训练阶段对应的训练阶段数据,并利用所述当前训练阶段对应的训练阶段数据同时训练所述任务模型、所述世界模型和所述机理模型;
第二获取模块,用于使用前一训练阶段对应的训练阶段数据训练的世界模型进行数据采样,生成与第一训练阶段对应的训练阶段数据至所述前一训练阶段对应的训练阶段数据相同分布的采样数据,并使用前一训练阶段数据训练的机理模型,对所述当前训练阶段数据和所述采样数据处理,得到所述任务模型上对所述采样数据的采样梯度响应;以及
控制模块,用于基于所述当前训练阶段对应的训练阶段数据同时训练的所述任务模型、所述世界模型和所述机理模型,通过所述采样梯度响应来控制所述任务模型的学习进程。
7.根据权利要求6所述的装置,其特征在于,所述控制模块,具体用于:
基于梯度加权融合算法,通过所述采样梯度响应来控制所述任务模型的学习进程,其中,所述梯度加权融合算法为:
θj=θj-1+η*(ω1Δ1+ω2Δ2);
其中,θj和θj-1;均为所述任务模型的参数,j为整数,η为学习率,Δ1为利用所述当前训练阶段对应的训练阶段数据训练任务模型时得到的参数梯度,Δ2为所述采样梯度响应,ω1为所述参数梯度的学习权重,ω2为所述采样梯度响应的学习权重。
8.根据权利要求7所述的装置,其特征在于,所述多个训练阶段数据不重合,且所述当前训练阶段数据无法再次使用所述前一训练阶段数据。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-5任一项所述的基于世界建模的持续学习框架的学习方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-5任一项所述的基于世界建模的持续学习框架的学习方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210522533.0A CN115099401B (zh) | 2022-05-13 | 2022-05-13 | 基于世界建模的持续学习框架的学习方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210522533.0A CN115099401B (zh) | 2022-05-13 | 2022-05-13 | 基于世界建模的持续学习框架的学习方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115099401A true CN115099401A (zh) | 2022-09-23 |
CN115099401B CN115099401B (zh) | 2024-04-26 |
Family
ID=83287949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210522533.0A Active CN115099401B (zh) | 2022-05-13 | 2022-05-13 | 基于世界建模的持续学习框架的学习方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115099401B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241291A (zh) * | 2018-07-18 | 2019-01-18 | 华南师范大学 | 基于深度强化学习的知识图谱最优路径查询系统及其方法 |
CN110705690A (zh) * | 2019-09-23 | 2020-01-17 | 清华大学 | 基于生成模型和元学习优化方法的连续学习方法及系统 |
CN111160562A (zh) * | 2019-11-18 | 2020-05-15 | 清华大学 | 基于元学习优化方法的连续学习方法及装置 |
CN113658115A (zh) * | 2021-07-30 | 2021-11-16 | 华南理工大学 | 一种基于深度卷积生成对抗网络的图像异常检测方法 |
CN113688882A (zh) * | 2021-08-03 | 2021-11-23 | 清华大学 | 一种记忆增强的连续学习神经网络模型的训练方法及装置 |
CN113792874A (zh) * | 2021-09-08 | 2021-12-14 | 清华大学 | 基于先天知识的持续学习方法及装置 |
CN114066964A (zh) * | 2021-11-17 | 2022-02-18 | 江南大学 | 一种基于深度学习的水产实时尺寸检测方法 |
CN114387486A (zh) * | 2022-01-19 | 2022-04-22 | 中山大学 | 基于持续学习的图像分类方法以及装置 |
CN114463605A (zh) * | 2022-04-13 | 2022-05-10 | 中山大学 | 基于深度学习的持续学习图像分类方法及装置 |
US20220147831A1 (en) * | 2020-11-12 | 2022-05-12 | International Business Machines Corporation | Automatic and unsupervised detached subgraph detection in deep learning programs |
-
2022
- 2022-05-13 CN CN202210522533.0A patent/CN115099401B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241291A (zh) * | 2018-07-18 | 2019-01-18 | 华南师范大学 | 基于深度强化学习的知识图谱最优路径查询系统及其方法 |
CN110705690A (zh) * | 2019-09-23 | 2020-01-17 | 清华大学 | 基于生成模型和元学习优化方法的连续学习方法及系统 |
CN111160562A (zh) * | 2019-11-18 | 2020-05-15 | 清华大学 | 基于元学习优化方法的连续学习方法及装置 |
US20220147831A1 (en) * | 2020-11-12 | 2022-05-12 | International Business Machines Corporation | Automatic and unsupervised detached subgraph detection in deep learning programs |
CN113658115A (zh) * | 2021-07-30 | 2021-11-16 | 华南理工大学 | 一种基于深度卷积生成对抗网络的图像异常检测方法 |
CN113688882A (zh) * | 2021-08-03 | 2021-11-23 | 清华大学 | 一种记忆增强的连续学习神经网络模型的训练方法及装置 |
CN113792874A (zh) * | 2021-09-08 | 2021-12-14 | 清华大学 | 基于先天知识的持续学习方法及装置 |
CN114066964A (zh) * | 2021-11-17 | 2022-02-18 | 江南大学 | 一种基于深度学习的水产实时尺寸检测方法 |
CN114387486A (zh) * | 2022-01-19 | 2022-04-22 | 中山大学 | 基于持续学习的图像分类方法以及装置 |
CN114463605A (zh) * | 2022-04-13 | 2022-05-10 | 中山大学 | 基于深度学习的持续学习图像分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115099401B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liang et al. | Darts+: Improved differentiable architecture search with early stopping | |
KR101961421B1 (ko) | 소스 시스템들의 운영 데이터를 사용하여 초기에 트레이닝되는 제 1 재귀 신경망 모델 및 제 2 재귀 신경망 모델을 별도로 트레이닝함으로써 타겟 시스템을 제어하기 위한 방법, 제어기, 및 컴퓨터 프로그램 제품 | |
CN110766038B (zh) | 无监督式的地貌分类模型训练和地貌图构建方法 | |
CN113033811B (zh) | 两量子比特逻辑门的处理方法及装置 | |
CN109816032B (zh) | 基于生成式对抗网络的无偏映射零样本分类方法和装置 | |
CN110705690B (zh) | 基于生成模型和元学习优化方法的连续学习方法及系统 | |
CN112119409A (zh) | 具有关系存储器的神经网络 | |
CN110046226B (zh) | 一种基于分布词向量cnn-rnn网络的图像描述方法 | |
CN115066694A (zh) | 计算图优化 | |
CN111582105A (zh) | 基于局部全局双向推理的无监督点云特征学习方法及装置 | |
CN105955921B (zh) | 基于自动发现抽象动作的机器人分层强化学习初始化方法 | |
CN118171723A (zh) | 智能驾驶策略的部署方法、装置、设备、存储介质和程序产品 | |
CN115099401B (zh) | 基于世界建模的持续学习框架的学习方法、装置及设备 | |
CN117351273A (zh) | 基于因果知识引导的电力设备局部放电故障诊断方法 | |
Pan et al. | Learning navigation policies for mobile robots in deep reinforcement learning with random network distillation | |
CN111126493A (zh) | 深度学习模型的训练方法、装置、电子设备及存储介质 | |
CN116542305A (zh) | 抗入射信号误差的鲁棒性光学神经网络设计方法及装置 | |
US20230359173A1 (en) | Method and system for providing recommendations concerning a configuration process | |
CN115879536A (zh) | 一种基于因果效应的学习认知分析模型鲁棒性优化方法 | |
CN114037049A (zh) | 基于值函数可信度的多智能体强化学习方法及相关装置 | |
CN114629798B (zh) | 多智能体协同规划方法、装置、电子设备及存储介质 | |
CN113805976B (zh) | 数据处理方法及装置、电子设备及计算机可读存储介质 | |
CN118504612A (zh) | 基于大语言模型与强化学习的状态表征方法及装置 | |
CN116560241B (zh) | 面向铰接车的显式循环模型预测控制轨迹跟踪方法和装置 | |
CN112329932B (zh) | 生成对抗网络的训练方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |