CN111159489B - 一种搜索方法 - Google Patents

一种搜索方法 Download PDF

Info

Publication number
CN111159489B
CN111159489B CN201911234277.XA CN201911234277A CN111159489B CN 111159489 B CN111159489 B CN 111159489B CN 201911234277 A CN201911234277 A CN 201911234277A CN 111159489 B CN111159489 B CN 111159489B
Authority
CN
China
Prior art keywords
network
constraint
strategy
search
search method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911234277.XA
Other languages
English (en)
Other versions
CN111159489A (zh
Inventor
张昱航
叶可江
须成忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201911234277.XA priority Critical patent/CN111159489B/zh
Publication of CN111159489A publication Critical patent/CN111159489A/zh
Application granted granted Critical
Publication of CN111159489B publication Critical patent/CN111159489B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请属于信息处理技术领域,特别是涉及一种搜索方法。目前比较成熟的方案大体上已有NAS(Neural Architecture Searching)方式,Google公司提供的自主优化平台AotuML等,但依然在需要耗费大量的计算资源。本申请提出一种基于约束的网络搜索方法,首先是得到约束方法;基于约束方法下的搜索方法;最后得出完整的带约束的深度网络自主搜索方法及其配套框架。在规定的网络复杂度之下实现尽可能高的精度;或在规定的精度以上实现尽可能小的网络复杂度设计;实现了约束机制在自主搜索中的应用。

Description

一种搜索方法
技术领域
本申请属于信息处理技术领域,特别是涉及一种搜索方法。
背景技术
深度神经网络(Deep Neural Networks,以下简称DNN)是深度学习的基础,DNN可以理解为有很多隐藏层的神经网络,又被称为深度前馈网络(DFN),多层感知机(Multi-Layer perceptron,MLP)。传统未经优化的深度神经网络参数量大,训练和测试耗费更多的计算资源和计算时间,不利于实际的研究;无法做到定向优化,只能依赖于人工进行反复尝试,这是容易出错以及耗费人力的低效率办法;
优化的深度神经网络借助强化学习或者演化学习实现的网络优化,自身这个优化网络在初始化的时候就需要更多的资源实现,而且花费的计算资源是之前的几十倍,不利于实际应用;目前已有的一些优化方式很多是针对于单一网络的,但不具备通用性。搜索方式单一,没有一种更为优秀的搜索方式,缺少理论支持。
现有的针对深度神经网络进行自主搜索优化的方式主要是依赖于强化学习下的大空间暴力搜索。目前比较成熟的方案大体上已有NAS(Neural Architecture Searching)方式,Google公司提供的自主优化平台AotuML等,但依然在需要耗费大量的计算资源。
发明内容
1.要解决的技术问题
基于现有的针对深度神经网络进行自主搜索优化的方式主要是依赖于强化学习下的大空间暴力搜索。目前比较成熟的方案大体上已有NAS(Neural ArchitectureSearching)方式,Google公司提供的自主优化平台AotuML等,但依然在需要耗费大量的计算资源的问题,本申请提供了一种搜索方法。
2.技术方案
为了达到上述的目的,本申请提供了一种搜索方法,所述方法包括如下步骤:
步骤1:对深度神经网络进行训练,剔除冗余节点后进行网络蒸馏得到所有拥有约束的子网络;
步骤2:初始化策略迭代模式下的任意一个同构通用结构网络,使得所述通用结构网络与所述子网络节点位置保持一致,但数值初始化不同;
步骤3:按照约束条件进行一次epoch产生一次对应函数值和结构,使得iteration=1,当iteration==epoch时,进行策略更新;
步骤4:在满足约束的条件下继续在回报函数最大化下寻求最好的策略,此时更新为iteration=2;
步骤5:重复步骤3和步骤4,直至约束收敛;
步骤6:生成带约束的自主搜索网络。
本申请提供的另一种实施方式为:所述步骤1中深度神经网络为N(D,d)=Teacher(D)+Student(d)
将Student(d)收敛值设定在一个参数量不大于T(n),准确度不小于
Figure BDA0002304455870000023
的区间内;N(D,d),为包含两个参数D和d的深度神经网络,Teacher(D)为最初选定的深度神经网络,
Figure BDA0002304455870000024
为设定的需要满足的准确度阈值大小,T(n)代表该网络最初设定的参数量大小,即参数量阈值该单位为计算机中常用单位Kb;
Teacher(D)为最初选定的深度神经网络;
初始化Student(d),并开始训练。直至满足T(n)和
Figure BDA0002304455870000025
的收敛条件,此时停止训练,并保存Student(d)。
本申请提供的另一种实施方式为:所述网络蒸馏为通用网络剪枝方式,只保存关键节点的值,其他影响较小的节点或网络部分抛弃。
本申请提供的另一种实施方式为:所述子网络包括子节点的位置和对应位置的值。
本申请提供的另一种实施方式为:所述约束为:
Constrained(p,v)=Student(px,y,vp)
其中,Constrained(p,v)为约束网络,即子网络生成完毕后的新网络名称,p表示约束作用位置,v代表约束函数值的上界或下界;px,y,vp代表在一个网络中第x个模块的第y个部分产生的位置坐标及其对应值。
本申请提供的另一种实施方式为:所述步骤2中策略迭代模式下随机策略为π(a),所述π(a)为等概率的均匀随机取值。
本申请提供的另一种实施方式为:所述步骤3中策略更新后新的策略按照贪心算法决定。
本申请提供的另一种实施方式为:所述步骤5中收敛为所有的策略同时满足πl+1==πl并且新的策略下的
Figure BDA0002304455870000021
本申请提供的另一种实施方式为:所述步骤6中自主搜索网络为动态规划下的:
Figure BDA0002304455870000022
动态规划最终产生的网络命名为Dynamic*它的输入参数为x在条件
Figure BDA0002304455870000026
下,Finddynamic(x)代表一种动态规划算法,本申请不特指某种具体动态规划算法,因为该种算法具有很强通用性,参数πl+1代表此时动态规划算法的输入。
本申请提供的另一种实施方式为:所述自主搜索网络的约束条件和准确度可按照人为控制办法进行选取。
3.有益效果
与现有技术相比,本申请提供的一种搜索系统及方法的有益效果在于:
本申请提供的搜索方法,提供一种有约束的定向优化方式;按照两步走策略拆分任务,使得网络最初可以同步进行多种任务;提供一种更为通用的模式方法用以优化深度网络;强化算法具有可解释性。
本申请提供的搜索方法,提出了一种带有约束条件的神经网络搜索方式,借助强化学习的办法,本申请在约束条件之下进行了最优化网络的搜索,旨在完成一个参数适宜,精度可控的深度神经网络。
本申请提供的搜索方法,在规定的网络复杂度之下实现尽可能高的精度;或在规定的精度以上实现尽可能小的网络复杂度设计;实现了约束机制在自主搜索中的应用。
伴随着深度学习的火热发展,各种卷积神经网络(也可称为深度神经网络或深度网络)如雨后春笋般的出现在了各种学术文献上,但随之而来的是大量算力的付出和实际中的电力资源消耗。本申请涉及的搜索方法更好的发展深度学习技术,同时也使得每一次的计算都有更多的价值。
附图说明
图1是本申请的搜索方法约束条件原理示意图;
图2是本申请的搜索方法过程原理示意图。
具体实施方式
在下文中,将参考附图对本申请的具体实施例进行详细地描述,依照这些详细的描述,所属领域技术人员能够清楚地理解本申请,并能够实施本申请。在不违背本申请原理的情况下,各个不同的实施例中的特征可以进行组合以获得新的实施方式,或者替代某些实施例中的某些特征,获得其它优选的实施方式。
“蒸馏”(distillation):把大网络的知识压缩成小网络的一种方法。先训练好一个大网络,在最后的softmax层使用合适的温度参数T,最后训练得到的概率称为“软目标”。以这个软目标和真实标签作为目标,去训练一个比较小的网络,训练的时候也使用在大模型中确定的温度参数T。
蒸馏把大网络压成小网络,这样就可以先在训练阶段花费大精力训练一个大网络,然后在部署阶段以较小的计算代价来产生一个较小的网络,同时保持一定的网络预测表现。
参见图1~2,本申请提供一种搜索方法,所述方法包括如下步骤:
步骤1:对深度神经网络进行训练,剔除冗余节点后进行网络蒸馏得到所有拥有约束的子网络;
步骤2:初始化策略迭代模式下的任意一个同构通用结构网络,使得所述通用结构网络与所述子网络节点位置保持一致,但数值初始化不同;
步骤3:按照约束条件进行一次epoch产生一次对应函数值和结构,使得iteration=1,当iteration==epoch时,进行策略更新;
步骤4:在满足约束的条件下继续在回报函数最大化下寻求最好的策略,此时更新为iteration=2;
步骤5:重复步骤3和步骤4,直至约束收敛;
步骤6:生成带约束的自主搜索网络。
本申请提出的约束方法背后是一个强有力的实验支撑的方法(彩票理论):在常规的深度网络中,存在着一些需要人为设定的经验值下的超参数,这些超参数的选取往往影响着网络训练的速度和最终训练出深度网络的精度,所以由此来看,这些超参数选取的方式就显得尤为重要。根据彩票理论,参数选取的随机化通常是有利于整体网络的性能的。但基于一个大前提就是如果我们能给网络一个经验参考范围那么这样进行的随机化将会更有利于整体网络的性能表现。为此,本申请的约束机制即为一个带后验知识的网络。
进一步地,所述步骤1中深度神经网络为N(D,d)=Teacher(D)+Student(d)
将Student(d)收敛值设定在一个参数量不大于T(n),准确度不小于
Figure BDA0002304455870000041
的区间内;N(D,d),为包含两个参数D和d的深度神经网络,Teacher(D)为最初选定的深度神经网络,
Figure BDA0002304455870000042
为设定的需要满足的准确度阈值大小,T(n)代表该网络最初设定的参数量大小,即参数量阈值该单位为计算机中常用单位Kb;
Teacher(D)为最初选定的深度神经网络;
初始化Student(d),并开始训练。直至满足T(n)和
Figure BDA0002304455870000043
的收敛条件,此时停止训练,并保存Student(d)。
这里的深度神经网络即为大网络。
进一步地,所述网络蒸馏为通用网络剪枝方式,只保存关键节点的值,其他影响较小的节点或网络部分抛弃。
进一步地,所述子网络包括子节点的位置和对应位置的值。
进一步地,所述约束为:
Constrained(p,v)=Student(px,y,vp)
其中Constrained(p,v)为约束网络,即子网络生成完毕后的新网络名称,p表示约束作用位置,v代表约束函数值的上界或下界;px,y,vp代表在一个网络中第x个模块的第y个部分产生的位置坐标及其对应值。
进一步地,所述步骤2中策略迭代模式下随机策略为π(a),所述π(a)为等概率的均匀随机取值。
本申请借助强化学习中的策略迭代Policy Iteration模式,设计了一个基于约束的搜索方式。
先给出搜索环境设置,环境设置规则按本申请内容如下设定:
设定此时有一个能够最小化且满足模块递归条件的最小子模块,记为SunN,其中N代表模块的数量。实际中这种子模块是大量存在的,所以这一步的取得是合理正常的;
设定此时利用已有经验知识构造出来了共计K(K=1,2,…,n)个类型不同的子模块SubN,所以此时每一个子模块记为Subi,N(i∈K);
规定Policy Iteration模式下的动作空间为B[2]中所有的Subi,N
规定Policy Iteration模式下的状态空间为不超过t(n)<<T(n)的所有Subi,N的自由组合的数量.其中t(n)的取得为穷举所有的Subi,N组合;
规定Policy Iteration模式下回报函数为Student(d)对应的Loss_function(Student(d))取反,即回报函数定义为:
R(x)=-Loss_function(x);
R(x)是本申请定义的回报函数,Loss_function为损失函数,括号里的内容为损失函数的输入。
规定Policy Iteration模式下随机策略定义为π(a)且为等概率的均匀随机取值。
进一步地,所述步骤3中策略更新后新策略按照贪心算法决定。
进一步地,所述步骤5中收敛为所有的策略同时满足πl+1==πl并且新的策略下满足:
T(N|πl+1)≤T(n)且
Figure BDA0002304455870000051
πl代表在l步时的选择策略,
Figure BDA0002304455870000052
代表在策略πl+1下的l+1步的准确度。T(N|πl+1)代表在策略πl+1下的此时参数量的大小,记为T(N)。大写的N代表在新的策略下的步骤序数,与小写的n指代不同。
进一步地,所述步骤6中自主搜索网络为动态规划下的:
Figure BDA0002304455870000061
动态规划最终产生的网络命名为Dynamic*它的输入参数为x在条件
Figure BDA0002304455870000062
下,Finddynamic(x)代表一种动态规划算法,本申请不特指某种具体动态规划算法,因为该种算法具有很强通用性,参数πl+1代表此时动态规划算法的输入。
进一步地,所述自主搜索网络的约束条件和准确度可按照人为控制办法进行选取。
按照上面定义的各种模式,此时已经确定了状态转移概率为
Figure BDA0002304455870000063
回报函数
Figure BDA0002304455870000064
定义折扣因子为γ。
初始化值函数:V(s)=0,初始化策略为π0=Student(d),此时网络被初始化成了上面的子网络中采取的策略。
进行iteration=epoch(epoch=5,10,15,…,5n)一次更新的策略,每次更新的值函数的值为:
Figure BDA0002304455870000065
当iteration==epoch时,进行一次策略更新,更新方式为:
Figure BDA0002304455870000066
按照如上方式进行策略更新后,新的策略为按照贪心算法决定的:
Figure BDA0002304455870000067
直到所有的策略同时满足πl+1==πl并且新的策略下的
Figure BDA0002304455870000068
即约束收敛至:
Figure BDA0002304455870000069
上式中的条件要满足在任何一个子节点都是这样的状态才能完成最后的传播,所以对于整体的带约束的深度网络自主搜索,在网络的任意一层li∈L均需满足上式,L代表大网络下的层数的编号,li代表当前层下的编号;
动态规划算法,即最终网络结构约束为动态规划下的:
Figure BDA00023044558700000610
上式中Dynamic*满足上述条件的最终网络。即约束条件下搜索完成的深度网络。
算法结束。
本申请提出了带有后验指导知识的子网络,辅助强化学习网络进行最优值的搜索;针对有大量递归可利用的子网络设计出了一种按照动态规划方法求解整体网络的解;针对自主搜索网络设计出了一套办法流程。
本申请可以对两端网络进行分布式训练,节省训练时间;
本申请的约束可以有效定向对网络模型或者网络进度进行参数性调节。
尽管在上文中参考特定的实施例对本申请进行了描述,但是所属领域技术人员应当理解,在本申请公开的原理和范围内,可以针对本申请公开的配置和细节做出许多修改。本申请的保护范围由所附的权利要求来确定,并且权利要求意在涵盖权利要求中技术特征的等同物文字意义或范围所包含的全部修改。

Claims (9)

1.一种搜索方法,其特征在于:所述方法包括如下步骤:
步骤1:对深度神经网络进行训练,剔除冗余节点后进行网络蒸馏得到所有拥有约束的子网络;
步骤2:初始化策略迭代模式下的任意一个同构通用结构网络,使得所述通用结构网络与所述子网络节点位置保持一致,但数值初始化不同;
步骤3:按照约束条件进行一次epoch产生一次对应函数值和结构,使得iteration=1,当iteration==epoch时,进行策略更新;
步骤4:在满足约束的条件下继续在回报函数最大化下寻求最好的策略,此时更新为iteration=2;
步骤5:重复步骤3和步骤4,直至约束收敛;
步骤6:生成带约束的自主搜索网络;所述步骤6中自主搜索网络为动态规划下的:
Figure FDA0003551319260000011
动态规划最终产生的网络命名为Dynamic*它的输入参数为x在条件
Figure FDA0003551319260000012
下,Finddynamic(x)代表一种动态规划算法,参数πl+1代表此时动态规划算法的输入;
Figure FDA0003551319260000013
为设定的需要满足的准确度阈值大小,T(n)代表该网络最初设定的参数量大小。
2.如权利要求1所述的搜索方法,其特征在于:所述步骤1中深度神经网络为
W(D,d)=Teacher(D)+Student(d)
将Student(d)收敛值设定在一个参数量不大于T(n),准确度不小于
Figure FDA0003551319260000014
的区间内;N(D,d),为包含两个参数D和d的深度神经网络,Teacher(D)为最初选定的深度神经网络,
Figure FDA0003551319260000015
为设定的需要满足的准确度阈值大小,T(n)代表该网络最初设定的参数量大小;
初始化Student(d),并开始训练,直至满足T(n)和
Figure FDA0003551319260000016
的收敛条件,此时停止训练,并保存Student(d)。
3.如权利要求2所述的搜索方法,其特征在于:所述网络蒸馏为通用网络剪枝方式,只保存关键节点的值,其他影响较小的节点或网络部分抛弃。
4.如权利要求1所述的搜索方法,其特征在于:所述子网络包括子节点的位置和对应位置的值。
5.如权利要求1所述的搜索方法,其特征在于:所述约束为:
Constrained(p,v)=Student(px,y,vp)
其中,Constrained(p,v)为约束网络,p表示约束作用位置,v代表约束函数值的上界或下界;px,y,vp代表在一个网络中第x个模块的第y个部分产生的位置坐标及其对应值。
6.如权利要求1所述的搜索方法,其特征在于:所述步骤2中策略迭代模式下随机策略为π(a),所述π(a)为等概率的均匀随机取值。
7.如权利要求1所述的搜索方法,其特征在于:所述步骤3中策略更新后新的策略按照贪心算法决定。
8.如权利要求6所述的搜索方法,其特征在于:所述步骤5中收敛为所有的策略同时满足πl+1==πl并且新的策略下的T(N|πl+1)≤T(n)且
Figure FDA0003551319260000021
9.如权利要求1~8中任一项所述的搜索方法,其特征在于:所述自主搜索网络的约束条件和准确度可按照人为控制办法进行选取。
CN201911234277.XA 2019-12-05 2019-12-05 一种搜索方法 Active CN111159489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911234277.XA CN111159489B (zh) 2019-12-05 2019-12-05 一种搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911234277.XA CN111159489B (zh) 2019-12-05 2019-12-05 一种搜索方法

Publications (2)

Publication Number Publication Date
CN111159489A CN111159489A (zh) 2020-05-15
CN111159489B true CN111159489B (zh) 2022-05-03

Family

ID=70556456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911234277.XA Active CN111159489B (zh) 2019-12-05 2019-12-05 一种搜索方法

Country Status (1)

Country Link
CN (1) CN111159489B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407806B (zh) * 2020-10-12 2024-04-19 腾讯科技(深圳)有限公司 网络结构搜索方法、装置、设备及计算机可读存储介质
CN112101553B (zh) * 2020-11-10 2021-02-23 鹏城实验室 网络结构搜索方法及装置、设备、存储介质
CN113992361A (zh) * 2021-10-09 2022-01-28 南京理工大学 算力与资源消耗平衡方法
CN114861890B (zh) * 2022-07-05 2022-09-09 深圳比特微电子科技有限公司 构建神经网络的方法、装置、计算设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472730A (zh) * 2019-08-07 2019-11-19 交叉信息核心技术研究院(西安)有限公司 一种卷积神经网络的自蒸馏训练方法和可伸缩动态预测方法
CN110503192A (zh) * 2018-05-18 2019-11-26 百度(美国)有限责任公司 资源有效的神经架构

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3033014A1 (en) * 2018-02-07 2019-08-07 Royal Bank Of Canada Robust pruned neural networks via adversarial training

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503192A (zh) * 2018-05-18 2019-11-26 百度(美国)有限责任公司 资源有效的神经架构
CN110472730A (zh) * 2019-08-07 2019-11-19 交叉信息核心技术研究院(西安)有限公司 一种卷积神经网络的自蒸馏训练方法和可伸缩动态预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
深度神经网络压缩与加速综述;纪荣嵘等;《计算机研究与发展》;20180915(第09期);第47-64页 *

Also Published As

Publication number Publication date
CN111159489A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN111159489B (zh) 一种搜索方法
CN106969778B (zh) 一种多无人机协同施药的路径规划方法
Xu et al. Learning to explore via meta-policy gradient
JP2021518939A (ja) データ拡張方策の学習
CN108803609B (zh) 基于约束在线规划的部分可观察自动驾驶决策方法
Ge et al. Multi-agent transfer reinforcement learning with multi-view encoder for adaptive traffic signal control
CN116242383B (zh) 一种基于增强哈里斯鹰算法的无人车路径规划方法
CN109510610A (zh) 一种基于软投影加权核递归最小二乘的核自适应滤波方法
CN113467515A (zh) 基于虚拟环境模仿重构和强化学习的无人机飞行控制方法
CN113807040B (zh) 一种面向微波电路的优化设计方法
CN113326884B (zh) 大规模异构图节点表示的高效学习方法及装置
Lu et al. An adaptive neural architecture search design for collaborative edge-cloud computing
CN109344961A (zh) 一种基于pso的权值直接确定神经网络结构优化方法
Liu et al. Self-improving generative adversarial reinforcement learning
Chen et al. A fuzzy curiosity-driven mechanism for multi-agent reinforcement learning
CN116663637A (zh) 一种多层级智能体同步嵌套训练方法
CN112561200A (zh) 基于完备集合经验模态分解和改进蚁群优化的长短期记忆网络的风电站出力混合预测技术
CN116933948A (zh) 基于改进海鸥算法与反向传播神经网络的预测方法和系统
CN115453880A (zh) 基于对抗神经网络的用于状态预测的生成模型的训练方法
Tang et al. Deep sparse representation via deep dictionary learning for reinforcement learning
CN115470889A (zh) 基于强化学习的片上网络自主最优映射探索系统及方法
CN114662638A (zh) 基于改进人工蜂群算法的移动机器人路径规划方法
Zhang et al. A UAV autonomous maneuver decision-making algorithm for route guidance
Huang et al. An Improved Q-Learning Algorithm for Path Planning
Wang et al. Automated Reinforcement Learning Based on Parameter Sharing Network Architecture Search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant