CN103218655A

CN103218655A - 基于免疫耐受机制的强化学习算法

Info

Publication number: CN103218655A
Application number: CN2013100735060A
Authority: CN
Inventors: 王磊; 黑新宏; 金海燕; 林叶; 王玉
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2013-03-07
Filing date: 2013-03-07
Publication date: 2013-07-24
Anticipated expiration: 2033-03-07
Also published as: CN103218655B

Abstract

基于免疫耐受机制的强化学习算法，首先，设计TD(λ)的基函数向量及权值向量；然后，根据浮点数对权值向量进行编码，当系统与真实环境的误差大于一定阈值时，看成是人工免疫系统中的初次应答，初次碰到该环境，使用免疫耐受机制进行优化，并使用记忆体即抗体，对环境知识进行记忆；接着根据当前系统参数选择最优策略，根据环境的回馈奖赏值r来更新系统参数，继续下一次迭代；当系统与真实环境的误差小于该阈值时，则认为遇到了相似环境，将之看成是人工免疫系统中的二次应答，直接根据系统参数，由系统判断动作选择，选择最优策略。

Description

基于免疫耐受机制的强化学习算法

技术领域

本发明涉及一种基于免疫耐受机制的强化学习算法。

背景技术

强化学习是一类介于监督学习和非监督学习之间的机器学习算法，源于行为心理学，从80年代发展起来，目前被广泛地应用于游戏比赛、控制系统、调度管理、机器人领域中，是机器学习研究领域的热点。

强化学习可以在未知模型的条件下，根据确定性或非确定性回报对环境进行学习。比较典型的强化学习算法有：Sarsa学习算法、Q学习算法、TD(λ)学习算法。其中，TD(λ)学习算法包括表格型TD(λ)和基于值函数逼近的TD(λ)。在Sarsa学习算法、Q学习算法、表格型TD(λ)中，需要使用大量的存储空间对学习知识进行存储，而当环境空间非常大或者连续时，很有可能引发维数灾难。因此，基于值函数逼近的TD(λ)越来越受到关注，但是该算法易陷入局部极值并且不是收敛的。

发明内容

本发明的目的在于提供一种基于免疫耐受机制的强化学习算法，克服TD(λ)的易陷入局部极值和发散的问题。

为了达到以上目的，本发明的技术方案如下：

首先，设计TD(λ)的基函数向量及权值向量；

然后，根据浮点数对权值向量进行编码，当系统与真实环境的误差大于一定阈值时，看成是人工免疫系统中的初次应答，初次碰到该环境，使用免疫耐受机制进行优化，并使用记忆体即抗体，对环境知识进行记忆；接着根据当前系统参数选择最优策略，根据环境的回馈奖赏值r来更新系统参数，继续下一次迭代；当系统与真实环境的误差小于该阈值时，则认为遇到了相似环境，将之看成是人工免疫系统中的二次应答，直接根据系统参数，由系统判断动作选择，选择最优策略。

本发明的特点还在于：

具体步骤如下，

步骤1：初始化参数；设置种群规模，折算率，修正参数，免疫概率，变异概率，学习率采用如下公式；

其中L_initial=0.01，常数C=1000；

值函数逼近采用两层前向回馈的神经网络，第一层采用tansig函数，第二层采用purelin函数，权值W为一组随机值；

步骤2：初始化动作集；设置起始状态，适应度轨迹；

步骤3：当学习系统与真实环境的误差大于一定阈值E_max时，使用免疫来优化学习系统，跳转到步骤4，否则跳转到步骤9；

步骤4：对已有的个体，按照如下公式进行克隆选择，即通过高斯变异的方式来进行克隆，扩展种群至种群规模为N；

W_population(i)＝W_current(i)+N(μ,σ)

其中，W_population为种群中的个体权值，W_current为当前个体的权值，i表示个体的基因位置，μ为均值，σ为标准差；

步骤5：从种群中选择最优个体，并将该最优个体整体看成疫苗；最优个体的判定是通过误差最小进行判断的；

步骤6：以一定的免疫概率，对种群中的个体执行免疫操作，进行疫苗注射，具体如下所述：

1)取初始个体，设置popu=1；

2)若随机数rand<免疫概率p_m，并且该个体不是最优个体，跳转到3），否则跳转到4）；

3)将最优个体整体看成疫苗，分别对该个体的每个基因位进行疫苗注射；如果该基因位共有n位，则用疫苗对每一个基因位分别进行替换，得到n个被疫苗注射后的个体；从该n个个体中选择最优个体，如果该个体优于原始个体，则替换原始个体；否则，保持原始个体不变；

4)取下一个个体，popu=popu+1；

5)如果popu<种群规模N，则跳转到2），否则结束步骤6，进入步骤7；

步骤7：以一定的变异概率，对种群中的个体执行高斯变异，具体如下所述：

1)取初始个体，设置popu=1；

2)若随机数rand<变异概率p_v，则跳转到3)，否则跳转到4)；

3)在随机基因位进行高斯变异操作，即在该位的权值加上一个高斯分布值，如下公式所示，

W_population(i_rand)＝W_population(i_rand)+N(μ,σ)

其中，W_population(i_rand)表示的是种群中某一个体的随机基因位i_rand的权值；

4)取下一个个体，popu=popu+1；

5)如果popu<种群规模N，则跳转到2），否则结束步骤7，进入步骤8；

步骤8：对种群中的各个个体进行误差判断，保留最优个体，替换原始个体；

步骤9：根据当前系统参数，选择当前状态的最优动作，并执行；即根据下面的公式，计算下一个所有可能状态的状态值，选择具有最大状态值的状态，跳转到该状态；

V(x_t)＝φ(x_t)×W_t

步骤10：根据执行效果，得到奖赏值r；

步骤11：根据TD(λ)的迭代公式，更新权值W、适应度轨迹Z，迭代公式如下所示，

W_t+1＝W_t+L_t×[r_t+β×V(x_t+1)-V(x_t)]×Z_t+1

Z_{t + 1} = β \times λ \times Z_{t} + \frac{&PartialD; V (x_{t})}{&PartialD; W_{t}}

其中，第一个公式表示权值向量随着时间的迭代公式，其值由当前状态值，当前状态的奖赏和下一时刻状态值折扣与当前状态值的差值以一定的学习率和适应度轨迹计算得到；第二个公式表示适应度轨迹随着时间的迭代公式，它由当前时刻的适应度轨迹以一定的比例，并加上状态值对权值的偏导得到；

步骤12：当还有下一可达状态，则进入下一个状态，跳转到步骤3；否则跳转到步骤13；

步骤13：当还需对学习系统进行训练，则进入下一次训练，跳转到步骤2；否则，停止学习系统的学习。

本发明具有如下有益效果：

1、收敛性：基于值函数逼近的TD(λ)算法是发散的；基于Bellman残差梯度的TD(λ)算法虽然是收敛的，但是只在一定条件、一定误差范围内是收敛的。本发明中所提的强化学习算法在理论和实验上被证明是收敛的。

2、全局寻优性：基于值函数逼近的TD(λ)算法易陷入局部极值，本发明中所提到的免疫耐受机制中包含几个关键步骤：克隆选择、免疫操作、变异操作。其中，免疫操作是在一定的免疫概率内，将最优个体以疫苗的形式注射入种群的个体中，该操作保证了种群的寻优性能。克隆选择操作是对单个个体通过高斯变异的方式克隆选择，将种群规模扩展至N。变异操作是在一定的变异概率内，对种群中的个体进行高斯变异。这两部分操作均包含了高斯变异，即具有一定的随机性，这就使得学习系统具备多样性和跳出局部极值的能力。同样，种群本身是具有多样性的，在种群中寻优，在一定程度上保证了系统的全局寻优能力。

3、二次应答特性：强化学习具有一定的记忆功能，对环境的学习存储在系统的参数中。但是由于误差的存在，对环境的错误学习将会引起系统优化的误差。本发明中的免疫耐受机制是收敛的，将会使误差趋近于满足实际需要的足够小的值，故对环境的学习认为最终是有效的。当学习系统与真实环境的误差大于一定阈值时，可能是错误学习引起的，也可能是环境改变造成的，此时利用免疫操作优化系统参数，使误差趋近于足够小的值；而当误差小于该阈值时，则直接使用系统参数来决策动作选择，该过程是一个非常快速、高效的过程。

4、自适应性：强化学习是在环境模型未知的情况下对环境进行学习记忆，当环境改变时，学习系统不能及时根据环境作出改变，往往需要重新学习。本发明中所采用的免疫机制本身具有自适应性，能够根据环境的改变而调整自身的寻优过程。

附图说明

图1是本发明基于免疫耐受机制的强化学习算法与现有的TD(λ)学习算法在连续状态随机行走下的比较；

图2是本发明基于免疫耐受机制的强化学习算法的流程图；

图3是本发明基于免疫耐受机制的强化学习算法的免疫操作的流程图；

图4是本发明基于免疫耐受机制的强化学习算法的免疫详细操作示意图；

图5是本发明基于免疫耐受机制的强化学习算法的变异操作的流程图；

图6是本发明基于免疫耐受机制的强化学习算法的机器人路径规划中当前位置与邻居位置示意图；

图7是本发明基于免疫耐受机制的强化学习算法的基于免疫耐受机制的机器人路径规划。

具体实施方式

本发明是在现有的TD(λ)的基础上，加入免疫耐受机制对强化学习进行优化，主要包含四个关键步骤：耐受、选择、免疫、变异，提升强化学习的全局寻优性能和加快学习速度。以下参照附图对本发明作进一步详细描述。

1.人工免疫耐受机制模型定义

在操作中，将抗原看成初始解空间或者旧个体；抗体看成较佳的下一代个体；抗体能够记忆抗原的刺激，在学习系统了解到足够多的知识时，能快速作出判断。

本发明中对方法中各概念的定义如下：

定义1种群：个体的集合，包含权值W的N组分量，其中N为种群规模。

定义2个体：权值W的一组分量。

定义3基因：权值W某组分量的某一个分量。

定义4抗原：初始权值W（为随机向量）的一组分量（或者旧个体）的基因。

定义5抗体：较佳的新个体。

定义6疫苗：最优个体整体。

定义7记忆细胞：抗体；抗体具有记忆功能，能将对环境的学习转化为知识存储在种群中。

定义8初次应答：当学习系统与真实环境的误差大于一定阈值时，使用免疫来优化系统参数；

定义9二次应答：当学习系统与真实环境的误差小于一定阈值时，根据已有的知识，选择最优策略。

2.实现步骤

本发明方法的实现步骤如图2所示，具体为：

步骤1：初始化参数。设置种群规模N=10，折算率β=0.8，修正参数λ=0.5，免疫概率p_m=0.7，变异概率p_v=0.001，学习率采用如下公式。

其中L_initial=0.01，常数C=1000。

值函数逼近采用两层前向回馈的神经网络，第一层采用tansig函数，第二层采用purelin函数，权值W为一组随机值。

步骤2：初始化动作集。设置起始状态（马尔可夫链中的起始状态），适应度轨迹为零向量。

步骤3：当学习系统与真实环境的误差大于一定阈值E_max（E_max根据具体情况设定，约为初始误差的0.2左右）时，使用免疫来优化学习系统，跳转到步骤4，否则跳转到步骤9；

步骤4：对已有的个体，按照如下公式进行克隆选择，即通过高斯变异的方式来进行克隆，扩展种群至种群规模为N。

W_population(i)＝W_current(i)+N(μ,σ)

其中，W_population为种群中的个体权值，W_current为当前个体的权值，i表示个体的基因位置，μ为均值，σ为标准差。

步骤5：从种群中选择最优个体，并将该最优个体整体看成疫苗。最优个体的判定是通过误差最小进行判断的。

步骤6：以一定的免疫概率，对种群中的个体执行免疫操作，进行疫苗注射，其操作见图3，如下所述：

1)取初始个体，设置popu=1。

2)若随机数rand<免疫概率p_m，并且该个体不是最优个体，跳转到3)，否则跳转到4)。

3)将最优个体整体看成疫苗，分别对该个体的每个基因位进行疫苗注射。如图4所示，如果该基因位共有n位，则用疫苗对每一个基因位分别进行替换，得到n个被疫苗注射后的个体。从该n个个体中选择最优个体，如果该个体优于原始个体，则替换原始个体；否则，保持原始个体不变。

4)取下一个个体，popu=popu+1。

5)如果popu<种群规模N，则跳转到2)，否则跳出步骤6，进入步骤7。

步骤7：以一定的变异概率，对种群中的个体执行高斯变异，其操作见图5，如下所述：

1)取初始个体，设置popu=1。

2)若随机数rand<变异概率p_v，则跳转到3)，否则跳转到4)。

3)在随机基因位进行高斯变异操作，即在该位的权值加上一个高斯分布值，如下公式所示。

W_population(i_rand)＝W_population(i_rand)+N(μ,σ)

其中，W_population(i_rand)表示的是种群中某一个体的随机基因位i_rand的权值。

4)取下一个个体，popu=popu+1。

5)如果popu<种群规模N，则跳转到2)，否则跳出步骤7，进入步骤8。

步骤8：对种群中的各个个体进行误差判断，保留最优个体，替换原始个体。

步骤9：根据当前系统参数，选择当前状态的最优动作，并执行。即根据下面的公式，计算下一个所有可能状态的状态值，选择具有最大状态值的状态，跳转到该状态。

V(x_t)＝φ(x_t)×W_t

步骤10：根据执行效果，得到奖赏值r。

步骤11：根据TD(λ)的迭代公式，更新权值W、适应度轨迹Z，迭代公式如下所示。

W_t+1＝W_t+L_t×[r_t+β×V(x_t+1)-V(x_t)]×Z_t+1

Z_{t + 1} = β \times λ \times Z_{t} + \frac{&PartialD; V (x_{t})}{&PartialD; W_{t}}

其中，第一个公式表示权值向量随着时间的迭代公式，其值由当前状态值，当前状态的奖赏和下一时刻状态值折扣与当前状态值的差值以一定的学习率和适应度轨迹计算得到；第二个公式表示适应度轨迹随着时间的迭代公式，它由当前时刻的适应度轨迹以一定的比例，并加上状态值对权值的偏导得到。

步骤12：当还有下一可达状态，则进入下一个状态，跳转到步骤3；否则跳转到步骤13。

本发明中所提出的免疫耐受机制包含四个关键操作：耐受操作、克隆选择操作、免疫操作、变异操作。其中耐受操作是指在学习中使用抗体记忆已学习过的知识。克隆选择操作是指通过高斯变异对当前个体进行扩展，扩展为种群规模为N的种群，即种群中个体的每一个分量权值表示成当前个体的相对应位置的分量权值加上高斯变异值。免疫操作中将某次迭代中的最优个体整体看成是疫苗，在一定的免疫概率下，使用疫苗对种群中的个体进行疫苗注射，即对种群中的个体按各个基因位进行基因替换。如原始个体的基因共有M位，对该个体的每一位分别使用疫苗的对应基因位进行基因替换，得到M个个体。从该M个个体中选择最优个体，如果该最优个体优于原始个体，则替换原始个体；否则，原始个体保持不变。其中的个体优劣判断是通过当前系统与真实环境的误差大小进行判断的。变异操作是指在一定的变异概率下，对种群中个体的随机基因位进行高斯变异。这些操作，使得在每一次的迭代过程中均保留了最优个体，并且保持了一定的随机性，使得本发明中的方法能够进行全局寻优。

实施例

下面通过机器人路径规划的实例来说明本发明中基于免疫耐受机制的强化学习算法的实现过程。

(1)首先，确定机器人路径地图，采用20×20的栅格地图，使用矩阵M表示，M中的元素0表示可通过区域，元素1表示障碍物。

(2)其次，初始化参数，见步骤1。

(3)从起始位置开始，如果在k时间步内，机器人位置基本没有发生变化，即在当前时间步之前的第k步的位置与当前位置的距离大于一定的阈值D_max，则使用免疫来优化学习系统，跳转到(4)，否则跳转到(5)。

(4)对神经网络中的权值执行步骤3～步骤7。

(5)如图6所示，与当前位置相邻的8个位置为邻居位置。根据系统参数，分别计算8个位置的状态值，具体计算参见步骤8中的公式，即通过神经网络得到输出值，选择其中具有最大状态值的位置作为下一个位置。如果下一位置可到达，即既没有超出地图区域，也不是障碍物，则进入下一个位置；否则，保持当前位置不变。

(6)根据位置跳转情况，得到奖赏值r。奖赏值r由两部分组成，避障奖赏r₁和趋近目标奖赏r₂，具体如下三个公式所述。

r＝ω×r₁+(1-ω)×r₂

其中，ω为r₁奖赏占总的奖赏r的权值。

(7)执行步骤10～步骤12。

(8)通过以上操作，可画出机器人路径规划的较佳路径，如图7所示。

Claims

1.基于免疫耐受机制的强化学习算法，其特征在于：

首先，设计TD(λ)的基函数向量及权值向量；

2.如权利要求1所述的基于免疫耐受机制的强化学习算法，其特征在于：具体步骤如下，

其中L_initial=0.01，常数C=1000；

步骤2：初始化动作集；设置起始状态，适应度轨迹；

W_population(i)＝W_current(i)+N(μ,σ)

步骤6：以一定的免疫概率，对种群中的个体执行免疫操作，进行疫苗注射；

步骤7：以一定的变异概率，对种群中的个体执行高斯变异；

V(x_t)＝φ(x_t)×W_t

步骤10：根据执行效果，得到奖赏值r；

W_t+1＝W_t+L_t×[r_t+β×V(x_t+1)-V(x_t)]×Z_t+1

Z_{t + 1} = β \times λ \times Z_{t} + \frac{&PartialD; V (x_{t})}{&PartialD; W_{t}}

3.如权利要求2所述的基于免疫耐受机制的强化学习算法，其特征在于：步骤6中，具体操作如下，

1)取初始个体，设置popu=1；

4)取下一个个体，popu=popu+1；

如果popu<种群规模N，则跳转到2），否则结束步骤6，进入步骤7。

4.如权利要求2所述的基于免疫耐受机制的强化学习算法，其特征在于：步骤7中，具体操作如下，

1)取初始个体，设置popu=1；

2)若随机数rand<变异概率p_v，则跳转到3)，否则跳转到4)；

W_population(i_rand)＝W_population(i_rand)+N(μ,σ)

4)取下一个个体，popu=popu+1；

5)如果popu<种群规模N，则跳转到2），否则结束步骤7，进入步骤8。