CN103218655A - 基于免疫耐受机制的强化学习算法 - Google Patents
基于免疫耐受机制的强化学习算法 Download PDFInfo
- Publication number
- CN103218655A CN103218655A CN2013100735060A CN201310073506A CN103218655A CN 103218655 A CN103218655 A CN 103218655A CN 2013100735060 A CN2013100735060 A CN 2013100735060A CN 201310073506 A CN201310073506 A CN 201310073506A CN 103218655 A CN103218655 A CN 103218655A
- Authority
- CN
- China
- Prior art keywords
- individuality
- population
- environment
- immune
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
基于免疫耐受机制的强化学习算法,首先,设计TD(λ)的基函数向量及权值向量;然后,根据浮点数对权值向量进行编码,当系统与真实环境的误差大于一定阈值时,看成是人工免疫系统中的初次应答,初次碰到该环境,使用免疫耐受机制进行优化,并使用记忆体即抗体,对环境知识进行记忆;接着根据当前系统参数选择最优策略,根据环境的回馈奖赏值r来更新系统参数,继续下一次迭代;当系统与真实环境的误差小于该阈值时,则认为遇到了相似环境,将之看成是人工免疫系统中的二次应答,直接根据系统参数,由系统判断动作选择,选择最优策略。
Description
技术领域
本发明涉及一种基于免疫耐受机制的强化学习算法。
背景技术
强化学习是一类介于监督学习和非监督学习之间的机器学习算法,源于行为心理学,从80年代发展起来,目前被广泛地应用于游戏比赛、控制系统、调度管理、机器人领域中,是机器学习研究领域的热点。
强化学习可以在未知模型的条件下,根据确定性或非确定性回报对环境进行学习。比较典型的强化学习算法有:Sarsa学习算法、Q学习算法、TD(λ)学习算法。其中,TD(λ)学习算法包括表格型TD(λ)和基于值函数逼近的TD(λ)。在Sarsa学习算法、Q学习算法、表格型TD(λ)中,需要使用大量的存储空间对学习知识进行存储,而当环境空间非常大或者连续时,很有可能引发维数灾难。因此,基于值函数逼近的TD(λ)越来越受到关注,但是该算法易陷入局部极值并且不是收敛的。
发明内容
本发明的目的在于提供一种基于免疫耐受机制的强化学习算法,克服TD(λ)的易陷入局部极值和发散的问题。
为了达到以上目的,本发明的技术方案如下:
首先,设计TD(λ)的基函数向量及权值向量;
然后,根据浮点数对权值向量进行编码,当系统与真实环境的误差大于一定阈值时,看成是人工免疫系统中的初次应答,初次碰到该环境,使用免疫耐受机制进行优化,并使用记忆体即抗体,对环境知识进行记忆;接着根据当前系统参数选择最优策略,根据环境的回馈奖赏值r来更新系统参数,继续下一次迭代;当系统与真实环境的误差小于该阈值时,则认为遇到了相似环境,将之看成是人工免疫系统中的二次应答,直接根据系统参数,由系统判断动作选择,选择最优策略。
本发明的特点还在于:
具体步骤如下,
步骤1:初始化参数;设置种群规模,折算率,修正参数,免疫概率,变异概率,学习率采用如下公式;
其中L_initial=0.01,常数C=1000;
值函数逼近采用两层前向回馈的神经网络,第一层采用tansig函数,第二层采用purelin函数,权值W为一组随机值;
步骤2:初始化动作集;设置起始状态,适应度轨迹;
步骤3:当学习系统与真实环境的误差大于一定阈值Emax时,使用免疫来优化学习系统,跳转到步骤4,否则跳转到步骤9;
步骤4:对已有的个体,按照如下公式进行克隆选择,即通过高斯变异的方式来进行克隆,扩展种群至种群规模为N;
Wpopulation(i)=Wcurrent(i)+N(μ,σ)
其中,Wpopulation为种群中的个体权值,Wcurrent为当前个体的权值,i表示个体的基因位置,μ为均值,σ为标准差;
步骤5:从种群中选择最优个体,并将该最优个体整体看成疫苗;最优个体的判定是通过误差最小进行判断的;
步骤6:以一定的免疫概率,对种群中的个体执行免疫操作,进行疫苗注射,具体如下所述:
1)取初始个体,设置popu=1;
2)若随机数rand<免疫概率pm,并且该个体不是最优个体,跳转到3),否则跳转到4);
3)将最优个体整体看成疫苗,分别对该个体的每个基因位进行疫苗注射;如果该基因位共有n位,则用疫苗对每一个基因位分别进行替换,得到n个被疫苗注射后的个体;从该n个个体中选择最优个体,如果该个体优于原始个体,则替换原始个体;否则,保持原始个体不变;
4)取下一个个体,popu=popu+1;
5)如果popu<种群规模N,则跳转到2),否则结束步骤6,进入步骤7;
步骤7:以一定的变异概率,对种群中的个体执行高斯变异,具体如下所述:
1)取初始个体,设置popu=1;
2)若随机数rand<变异概率pv,则跳转到3),否则跳转到4);
3)在随机基因位进行高斯变异操作,即在该位的权值加上一个高斯分布值,如下公式所示,
Wpopulation(irand)=Wpopulation(irand)+N(μ,σ)
其中,Wpopulation(irand)表示的是种群中某一个体的随机基因位irand的权值;
4)取下一个个体,popu=popu+1;
5)如果popu<种群规模N,则跳转到2),否则结束步骤7,进入步骤8;
步骤8:对种群中的各个个体进行误差判断,保留最优个体,替换原始个体;
步骤9:根据当前系统参数,选择当前状态的最优动作,并执行;即根据下面的公式,计算下一个所有可能状态的状态值,选择具有最大状态值的状态,跳转到该状态;
V(xt)=φ(xt)×Wt
步骤10:根据执行效果,得到奖赏值r;
步骤11:根据TD(λ)的迭代公式,更新权值W、适应度轨迹Z,迭代公式如下所示,
Wt+1=Wt+Lt×[rt+β×V(xt+1)-V(xt)]×Zt+1
其中,第一个公式表示权值向量随着时间的迭代公式,其值由当前状态值,当前状态的奖赏和下一时刻状态值折扣与当前状态值的差值以一定的学习率和适应度轨迹计算得到;第二个公式表示适应度轨迹随着时间的迭代公式,它由当前时刻的适应度轨迹以一定的比例,并加上状态值对权值的偏导得到;
步骤12:当还有下一可达状态,则进入下一个状态,跳转到步骤3;否则跳转到步骤13;
步骤13:当还需对学习系统进行训练,则进入下一次训练,跳转到步骤2;否则,停止学习系统的学习。
本发明具有如下有益效果:
1、收敛性:基于值函数逼近的TD(λ)算法是发散的;基于Bellman残差梯度的TD(λ)算法虽然是收敛的,但是只在一定条件、一定误差范围内是收敛的。本发明中所提的强化学习算法在理论和实验上被证明是收敛的。
2、全局寻优性:基于值函数逼近的TD(λ)算法易陷入局部极值,本发明中所提到的免疫耐受机制中包含几个关键步骤:克隆选择、免疫操作、变异操作。其中,免疫操作是在一定的免疫概率内,将最优个体以疫苗的形式注射入种群的个体中,该操作保证了种群的寻优性能。克隆选择操作是对单个个体通过高斯变异的方式克隆选择,将种群规模扩展至N。变异操作是在一定的变异概率内,对种群中的个体进行高斯变异。这两部分操作均包含了高斯变异,即具有一定的随机性,这就使得学习系统具备多样性和跳出局部极值的能力。同样,种群本身是具有多样性的,在种群中寻优,在一定程度上保证了系统的全局寻优能力。
3、二次应答特性:强化学习具有一定的记忆功能,对环境的学习存储在系统的参数中。但是由于误差的存在,对环境的错误学习将会引起系统优化的误差。本发明中的免疫耐受机制是收敛的,将会使误差趋近于满足实际需要的足够小的值,故对环境的学习认为最终是有效的。当学习系统与真实环境的误差大于一定阈值时,可能是错误学习引起的,也可能是环境改变造成的,此时利用免疫操作优化系统参数,使误差趋近于足够小的值;而当误差小于该阈值时,则直接使用系统参数来决策动作选择,该过程是一个非常快速、高效的过程。
4、自适应性:强化学习是在环境模型未知的情况下对环境进行学习记忆,当环境改变时,学习系统不能及时根据环境作出改变,往往需要重新学习。本发明中所采用的免疫机制本身具有自适应性,能够根据环境的改变而调整自身的寻优过程。
附图说明
图1是本发明基于免疫耐受机制的强化学习算法与现有的TD(λ)学习算法在连续状态随机行走下的比较;
图2是本发明基于免疫耐受机制的强化学习算法的流程图;
图3是本发明基于免疫耐受机制的强化学习算法的免疫操作的流程图;
图4是本发明基于免疫耐受机制的强化学习算法的免疫详细操作示意图;
图5是本发明基于免疫耐受机制的强化学习算法的变异操作的流程图;
图6是本发明基于免疫耐受机制的强化学习算法的机器人路径规划中当前位置与邻居位置示意图;
图7是本发明基于免疫耐受机制的强化学习算法的基于免疫耐受机制的机器人路径规划。
具体实施方式
本发明是在现有的TD(λ)的基础上,加入免疫耐受机制对强化学习进行优化,主要包含四个关键步骤:耐受、选择、免疫、变异,提升强化学习的全局寻优性能和加快学习速度。以下参照附图对本发明作进一步详细描述。
1.人工免疫耐受机制模型定义
在操作中,将抗原看成初始解空间或者旧个体;抗体看成较佳的下一代个体;抗体能够记忆抗原的刺激,在学习系统了解到足够多的知识时,能快速作出判断。
本发明中对方法中各概念的定义如下:
定义1种群:个体的集合,包含权值W的N组分量,其中N为种群规模。
定义2个体:权值W的一组分量。
定义3基因:权值W某组分量的某一个分量。
定义4抗原:初始权值W(为随机向量)的一组分量(或者旧个体)的基因。
定义5抗体:较佳的新个体。
定义6疫苗:最优个体整体。
定义7记忆细胞:抗体;抗体具有记忆功能,能将对环境的学习转化为知识存储在种群中。
定义8初次应答:当学习系统与真实环境的误差大于一定阈值时,使用免疫来优化系统参数;
定义9二次应答:当学习系统与真实环境的误差小于一定阈值时,根据已有的知识,选择最优策略。
2.实现步骤
本发明方法的实现步骤如图2所示,具体为:
步骤1:初始化参数。设置种群规模N=10,折算率β=0.8,修正参数λ=0.5,免疫概率pm=0.7,变异概率pv=0.001,学习率采用如下公式。
其中L_initial=0.01,常数C=1000。
值函数逼近采用两层前向回馈的神经网络,第一层采用tansig函数,第二层采用purelin函数,权值W为一组随机值。
步骤2:初始化动作集。设置起始状态(马尔可夫链中的起始状态),适应度轨迹为零向量。
步骤3:当学习系统与真实环境的误差大于一定阈值Emax(Emax根据具体情况设定,约为初始误差的0.2左右)时,使用免疫来优化学习系统,跳转到步骤4,否则跳转到步骤9;
步骤4:对已有的个体,按照如下公式进行克隆选择,即通过高斯变异的方式来进行克隆,扩展种群至种群规模为N。
Wpopulation(i)=Wcurrent(i)+N(μ,σ)
其中,Wpopulation为种群中的个体权值,Wcurrent为当前个体的权值,i表示个体的基因位置,μ为均值,σ为标准差。
步骤5:从种群中选择最优个体,并将该最优个体整体看成疫苗。最优个体的判定是通过误差最小进行判断的。
步骤6:以一定的免疫概率,对种群中的个体执行免疫操作,进行疫苗注射,其操作见图3,如下所述:
1)取初始个体,设置popu=1。
2)若随机数rand<免疫概率pm,并且该个体不是最优个体,跳转到3),否则跳转到4)。
3)将最优个体整体看成疫苗,分别对该个体的每个基因位进行疫苗注射。如图4所示,如果该基因位共有n位,则用疫苗对每一个基因位分别进行替换,得到n个被疫苗注射后的个体。从该n个个体中选择最优个体,如果该个体优于原始个体,则替换原始个体;否则,保持原始个体不变。
4)取下一个个体,popu=popu+1。
5)如果popu<种群规模N,则跳转到2),否则跳出步骤6,进入步骤7。
步骤7:以一定的变异概率,对种群中的个体执行高斯变异,其操作见图5,如下所述:
1)取初始个体,设置popu=1。
2)若随机数rand<变异概率pv,则跳转到3),否则跳转到4)。
3)在随机基因位进行高斯变异操作,即在该位的权值加上一个高斯分布值,如下公式所示。
Wpopulation(irand)=Wpopulation(irand)+N(μ,σ)
其中,Wpopulation(irand)表示的是种群中某一个体的随机基因位irand的权值。
4)取下一个个体,popu=popu+1。
5)如果popu<种群规模N,则跳转到2),否则跳出步骤7,进入步骤8。
步骤8:对种群中的各个个体进行误差判断,保留最优个体,替换原始个体。
步骤9:根据当前系统参数,选择当前状态的最优动作,并执行。即根据下面的公式,计算下一个所有可能状态的状态值,选择具有最大状态值的状态,跳转到该状态。
V(xt)=φ(xt)×Wt
步骤10:根据执行效果,得到奖赏值r。
步骤11:根据TD(λ)的迭代公式,更新权值W、适应度轨迹Z,迭代公式如下所示。
Wt+1=Wt+Lt×[rt+β×V(xt+1)-V(xt)]×Zt+1
其中,第一个公式表示权值向量随着时间的迭代公式,其值由当前状态值,当前状态的奖赏和下一时刻状态值折扣与当前状态值的差值以一定的学习率和适应度轨迹计算得到;第二个公式表示适应度轨迹随着时间的迭代公式,它由当前时刻的适应度轨迹以一定的比例,并加上状态值对权值的偏导得到。
步骤12:当还有下一可达状态,则进入下一个状态,跳转到步骤3;否则跳转到步骤13。
步骤13:当还需对学习系统进行训练,则进入下一次训练,跳转到步骤2;否则,停止学习系统的学习。
本发明中所提出的免疫耐受机制包含四个关键操作:耐受操作、克隆选择操作、免疫操作、变异操作。其中耐受操作是指在学习中使用抗体记忆已学习过的知识。克隆选择操作是指通过高斯变异对当前个体进行扩展,扩展为种群规模为N的种群,即种群中个体的每一个分量权值表示成当前个体的相对应位置的分量权值加上高斯变异值。免疫操作中将某次迭代中的最优个体整体看成是疫苗,在一定的免疫概率下,使用疫苗对种群中的个体进行疫苗注射,即对种群中的个体按各个基因位进行基因替换。如原始个体的基因共有M位,对该个体的每一位分别使用疫苗的对应基因位进行基因替换,得到M个个体。从该M个个体中选择最优个体,如果该最优个体优于原始个体,则替换原始个体;否则,原始个体保持不变。其中的个体优劣判断是通过当前系统与真实环境的误差大小进行判断的。变异操作是指在一定的变异概率下,对种群中个体的随机基因位进行高斯变异。这些操作,使得在每一次的迭代过程中均保留了最优个体,并且保持了一定的随机性,使得本发明中的方法能够进行全局寻优。
实施例
下面通过机器人路径规划的实例来说明本发明中基于免疫耐受机制的强化学习算法的实现过程。
(1)首先,确定机器人路径地图,采用20×20的栅格地图,使用矩阵M表示,M中的元素0表示可通过区域,元素1表示障碍物。
(2)其次,初始化参数,见步骤1。
(3)从起始位置开始,如果在k时间步内,机器人位置基本没有发生变化,即在当前时间步之前的第k步的位置与当前位置的距离大于一定的阈值Dmax,则使用免疫来优化学习系统,跳转到(4),否则跳转到(5)。
(4)对神经网络中的权值执行步骤3~步骤7。
(5)如图6所示,与当前位置相邻的8个位置为邻居位置。根据系统参数,分别计算8个位置的状态值,具体计算参见步骤8中的公式,即通过神经网络得到输出值,选择其中具有最大状态值的位置作为下一个位置。如果下一位置可到达,即既没有超出地图区域,也不是障碍物,则进入下一个位置;否则,保持当前位置不变。
(6)根据位置跳转情况,得到奖赏值r。奖赏值r由两部分组成,避障奖赏r1和趋近目标奖赏r2,具体如下三个公式所述。
r=ω×r1+(1-ω)×r2
其中,ω为r1奖赏占总的奖赏r的权值。
(7)执行步骤10~步骤12。
(8)通过以上操作,可画出机器人路径规划的较佳路径,如图7所示。
Claims (4)
1.基于免疫耐受机制的强化学习算法,其特征在于:
首先,设计TD(λ)的基函数向量及权值向量;
然后,根据浮点数对权值向量进行编码,当系统与真实环境的误差大于一定阈值时,看成是人工免疫系统中的初次应答,初次碰到该环境,使用免疫耐受机制进行优化,并使用记忆体即抗体,对环境知识进行记忆;接着根据当前系统参数选择最优策略,根据环境的回馈奖赏值r来更新系统参数,继续下一次迭代;当系统与真实环境的误差小于该阈值时,则认为遇到了相似环境,将之看成是人工免疫系统中的二次应答,直接根据系统参数,由系统判断动作选择,选择最优策略。
2.如权利要求1所述的基于免疫耐受机制的强化学习算法,其特征在于:具体步骤如下,
步骤1:初始化参数;设置种群规模,折算率,修正参数,免疫概率,变异概率,学习率采用如下公式;
其中L_initial=0.01,常数C=1000;
值函数逼近采用两层前向回馈的神经网络,第一层采用tansig函数,第二层采用purelin函数,权值W为一组随机值;
步骤2:初始化动作集;设置起始状态,适应度轨迹;
步骤3:当学习系统与真实环境的误差大于一定阈值Emax时,使用免疫来优化学习系统,跳转到步骤4,否则跳转到步骤9;
步骤4:对已有的个体,按照如下公式进行克隆选择,即通过高斯变异的方式来进行克隆,扩展种群至种群规模为N;
Wpopulation(i)=Wcurrent(i)+N(μ,σ)
其中,Wpopulation为种群中的个体权值,Wcurrent为当前个体的权值,i表示个体的基因位置,μ为均值,σ为标准差;
步骤5:从种群中选择最优个体,并将该最优个体整体看成疫苗;最优个体的判定是通过误差最小进行判断的;
步骤6:以一定的免疫概率,对种群中的个体执行免疫操作,进行疫苗注射;
步骤7:以一定的变异概率,对种群中的个体执行高斯变异;
步骤8:对种群中的各个个体进行误差判断,保留最优个体,替换原始个体;
步骤9:根据当前系统参数,选择当前状态的最优动作,并执行;即根据下面的公式,计算下一个所有可能状态的状态值,选择具有最大状态值的状态,跳转到该状态;
V(xt)=φ(xt)×Wt
步骤10:根据执行效果,得到奖赏值r;
步骤11:根据TD(λ)的迭代公式,更新权值W、适应度轨迹Z,迭代公式如下所示,
Wt+1=Wt+Lt×[rt+β×V(xt+1)-V(xt)]×Zt+1
其中,第一个公式表示权值向量随着时间的迭代公式,其值由当前状态值,当前状态的奖赏和下一时刻状态值折扣与当前状态值的差值以一定的学习率和适应度轨迹计算得到;第二个公式表示适应度轨迹随着时间的迭代公式,它由当前时刻的适应度轨迹以一定的比例,并加上状态值对权值的偏导得到;
步骤12:当还有下一可达状态,则进入下一个状态,跳转到步骤3;否则跳转到步骤13;
步骤13:当还需对学习系统进行训练,则进入下一次训练,跳转到步骤2;否则,停止学习系统的学习。
3.如权利要求2所述的基于免疫耐受机制的强化学习算法,其特征在于:步骤6中,具体操作如下,
1)取初始个体,设置popu=1;
2)若随机数rand<免疫概率pm,并且该个体不是最优个体,跳转到3),否则跳转到4);
3)将最优个体整体看成疫苗,分别对该个体的每个基因位进行疫苗注射;如果该基因位共有n位,则用疫苗对每一个基因位分别进行替换,得到n个被疫苗注射后的个体;从该n个个体中选择最优个体,如果该个体优于原始个体,则替换原始个体;否则,保持原始个体不变;
4)取下一个个体,popu=popu+1;
如果popu<种群规模N,则跳转到2),否则结束步骤6,进入步骤7。
4.如权利要求2所述的基于免疫耐受机制的强化学习算法,其特征在于:步骤7中,具体操作如下,
1)取初始个体,设置popu=1;
2)若随机数rand<变异概率pv,则跳转到3),否则跳转到4);
3)在随机基因位进行高斯变异操作,即在该位的权值加上一个高斯分布值,如下公式所示,
Wpopulation(irand)=Wpopulation(irand)+N(μ,σ)
其中,Wpopulation(irand)表示的是种群中某一个体的随机基因位irand的权值;
4)取下一个个体,popu=popu+1;
5)如果popu<种群规模N,则跳转到2),否则结束步骤7,进入步骤8。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310073506.0A CN103218655B (zh) | 2013-03-07 | 2013-03-07 | 基于免疫耐受机制的强化学习算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310073506.0A CN103218655B (zh) | 2013-03-07 | 2013-03-07 | 基于免疫耐受机制的强化学习算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103218655A true CN103218655A (zh) | 2013-07-24 |
CN103218655B CN103218655B (zh) | 2016-02-24 |
Family
ID=48816422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310073506.0A Expired - Fee Related CN103218655B (zh) | 2013-03-07 | 2013-03-07 | 基于免疫耐受机制的强化学习算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103218655B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107730393A (zh) * | 2017-11-07 | 2018-02-23 | 东华大学 | 一种基于改进强化免疫算法的农业物联网资源调配方法 |
CN109778941A (zh) * | 2019-03-25 | 2019-05-21 | 江苏徐工工程机械研究院有限公司 | 一种基于强化学习的半自主挖掘系统和方法 |
CN111241952A (zh) * | 2020-01-03 | 2020-06-05 | 广东工业大学 | 一种离散制造场景中的强化学习奖励自学习方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070168311A1 (en) * | 2006-01-18 | 2007-07-19 | Genty Denise M | Method for controlling risk in a computer security artificial neural network expert system |
CN102402712A (zh) * | 2011-08-31 | 2012-04-04 | 山东大学 | 基于神经网络的机器人强化学习初始化方法 |
-
2013
- 2013-03-07 CN CN201310073506.0A patent/CN103218655B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070168311A1 (en) * | 2006-01-18 | 2007-07-19 | Genty Denise M | Method for controlling risk in a computer security artificial neural network expert system |
CN102402712A (zh) * | 2011-08-31 | 2012-04-04 | 山东大学 | 基于神经网络的机器人强化学习初始化方法 |
Non-Patent Citations (2)
Title |
---|
王李雅: "基于人工免疫机制的机器学习系统的研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
陈学松等: "基于递推最小二乘法的多步时序差分学习算法", 《计算机工程与应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107730393A (zh) * | 2017-11-07 | 2018-02-23 | 东华大学 | 一种基于改进强化免疫算法的农业物联网资源调配方法 |
CN109778941A (zh) * | 2019-03-25 | 2019-05-21 | 江苏徐工工程机械研究院有限公司 | 一种基于强化学习的半自主挖掘系统和方法 |
CN109778941B (zh) * | 2019-03-25 | 2021-05-07 | 江苏徐工工程机械研究院有限公司 | 一种基于强化学习的半自主挖掘系统和方法 |
CN111241952A (zh) * | 2020-01-03 | 2020-06-05 | 广东工业大学 | 一种离散制造场景中的强化学习奖励自学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103218655B (zh) | 2016-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rasoulzadeh-Akhijahani et al. | Short-term hydrothermal generation scheduling by a modified dynamic neighborhood learning based particle swarm optimization | |
CN106225788B (zh) | 基于路径拓展蚁群算法的机器人路径规划方法 | |
CN105020705B (zh) | 循环流化床锅炉燃烧性能实时优化控制方法及系统 | |
Shabanpour-Haghighi et al. | A modified teaching–learning based optimization for multi-objective optimal power flow problem | |
CN110442135A (zh) | 一种基于改进遗传算法的无人艇路径规划方法及系统 | |
CN108037758A (zh) | 一种基于改进afsa的移动机器人路径规划方法 | |
CN104636801A (zh) | 一种基于优化bp神经网络的预测输电线路可听噪声方法 | |
CN105246097B (zh) | 一种具有移动Sink节点的无线传感网生存时间优化方法 | |
CN103136603A (zh) | 一种智能土地利用布局优化配置方法 | |
CN105512759A (zh) | 一种基于生物地理学优化算法的城市ca模型参数优化方法 | |
CN106909986A (zh) | 一种使用蚁群多目标布局优化模型的土地再开发规划方法 | |
Barreto et al. | Restricted gradient-descent algorithm for value-function approximation in reinforcement learning | |
CN112488452B (zh) | 一种基于深度强化学习的能源系统管理多时间尺度最优决策方法 | |
CN106527132A (zh) | 基于遗传模拟退火算法的蛇形机器人运动控制方法 | |
CN110147890A (zh) | 一种基于狮群算法优化极限学习机集成学习的方法及系统 | |
Lucic | Modeling transportation problems using concepts of swarm intelligence and soft computing | |
CN103218655A (zh) | 基于免疫耐受机制的强化学习算法 | |
AlShabi et al. | Artificial Intelligence applications in renewable energy systems | |
Khalili-Damghani et al. | Solving land-use suitability analysis and planning problem by a hybrid meta-heuristic algorithm | |
Xu et al. | Optimal stochastic process optimizer: A new metaheuristic algorithm with adaptive exploration-exploitation property | |
Yasear et al. | Fine-Tuning the Ant Colony System Algorithm Through Harris’s Hawk Optimizer for Travelling Salesman Problem. | |
Zhu et al. | Structural safety monitoring of high arch dam using improved ABC‐BP model | |
Esmin | Generating fuzzy rules from examples using the particle swarm optimization algorithm | |
Ghazavi et al. | Learning from ant society in optimizing concrete retaining walls | |
Peng et al. | Applying an Artificial Neural network-Developed Collective Animal Behavior Algorithm for seismic reliability evaluation of structure |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160224 Termination date: 20210307 |
|
CF01 | Termination of patent right due to non-payment of annual fee |