CN104932267B

CN104932267B - 一种采用资格迹的神经网络学习控制方法

Info

Publication number: CN104932267B
Application number: CN201510304299.4A
Authority: CN
Inventors: 刘智斌; 刘晓峰
Original assignee: Qufu Normal University
Current assignee: Shandong Haida Robot Technology Co ltd; Qufu Normal University
Priority date: 2015-06-04
Filing date: 2015-06-04
Publication date: 2017-10-03
Anticipated expiration: 2035-06-04
Also published as: CN104932267A

Abstract

本发明公开了一种采用资格迹的神经网络学习控制方法，该采用资格迹的神经网络学习控制算法，将BP神经网络应用于强化学习，BP神经网络的模型拓扑结构包括输入层、隐层和输出层，运用资格迹，本方法把局部梯度从输出层传递到隐层，实现隐层权值的更新，能大大提高学习效率；在此基础上采用基于资格迹的残差梯度法，不仅对神经网络输出层进行权值更新，而且对隐层进行了优化权值更新，保证了BP神经网络在强化学习过程中良好的收敛性能。BP神经网络作为强化学习值函数拟合器，其输入层接收状态信息，依据BP神经网络输出层的输出值V和环境反馈的报酬值r，利用TD算法训练BP神经网络，Agent依据输出值V选取行为a，从而实现自适应控制。

Description

一种采用资格迹的神经网络学习控制方法

技术领域

本发明属于神经网络学习控制领域，具体涉及一种采用资格迹的神经网络学习控制方法。

背景技术

基于表格的强化学习方法，在未知环境中进行学习，表现出了极好的自适应能力。然而，这种方法只能解决状态空间和行为空间较小的问题。随着问题规模的增大，状态空间往往呈指数增加，“维数灾难”问题就显得尤为突出。采用表格法解决大规模问题，在离散空间中从状态到行为的映射需要精确对应，这样往往占用大量的内存空间。若将这一对应关系用连续函数代替，用函数值代替表格，则能够取得较好的效果。从状态空间到函数值的映射，其建立方法分为线性参数拟合方法和非线性参数拟合方法。由于进行理论分析相对简单，线性参数拟合方法常常应用于强化学习问题中。而非线性参数方法，在数据拟合方面也得到了广泛的应用。非线性参数拟合方法比较典型的工具是神经网络。神经网络具有较强的自适应能力和泛化性能，将神经网络与强化学习相结合，用神经网络代替表格，能够取得较好的效果。针对基于表格的强化学习，Sutton提出了瞬时差分TD(λ)方法，为每个访问状态设立一个资格迹，每执行一步更新，这步更新也向后传递若干步，使学习速度大大加快。针对TD(λ)方法，Dayan等证明了它的收敛性。Sutton提出了在连续状态空间中的瞬时差分法，并提出基于直接梯度法的资格迹方法。

将BP神经网络(BP neural networks，BPNN)运用于强化学习在国内外很多文献都有过介绍，但这些方法基本上采用单步更新。在学习过程中引入资格迹，能大大提高神经网络的训练效率，但是这就使得神经网络的训练过程，特别是神经网络隐层权值的更新，将变得更加复杂，基于拟合器的强化学习方法在学习过程中更新其权值，常用的方法有直接梯度法和残差梯度法。由于直接梯度法类似于监督学习中的最速下降法，这种方法学习速度较快，但是往往收敛性能不理想。而残差梯度法能够保证较好的收敛性，但是它的收敛速度非常缓慢。Baird提出了一种残差法，这种方法既能保证使用残差梯度法的收敛性，又确保使用直接梯度法的收敛速度，取得了良好的性能。然而，Baird只给出了输出层权值更新的计算方法，没有涉及隐层的情形。

发明内容

本发明的目的是根据现有基于神经网络强化学习过程中，存在效率不高和收敛速度慢的不足，结合资格迹方法提出了一种强化学习过程的多步更新的算法，并且在该算法中运用了一种改进的残差法，在神经网络的训练过程中将各层权值进行线性优化加权，既获得了直接梯度法的学习速度又获得了残差法的收敛性的一种采用资格迹的神经网络学习控制方法。

本发明具体采用如下技术方案：

一种采用资格迹的神经网络学习控制方法，将BP神经网络应用于强化学习，所述BP神经网络的模型拓扑结构包括输入层、隐层和输出层，运用资格迹，把局部梯度从输出层传递到隐层，实现隐层权值的更新，采用基于资格迹的残差梯度法，不仅对BP神经网络输出层权值更新，而且对隐层进行了优化权值更新，具体包括如下步骤：

S1.启动基于BP神经网络的强化学习过程，学习Agent在环境的交互中，不断获得评价性的反馈信息作为回报，再将回报值做加权累加，Agent在行为选择过程中，选择能够取得最大积累回报的行为作为其最优行为：

Agent在状态x∈X下的可执行行为记作a∈A，它从行为集合A中选择使Q^π(x,a)最大的行为作为其最优行为，Q^π(x,a)的定义如下：

Q^π(x,a)＝E{r_t+1+γr_t+2+γ²r_t+3+…|x_t＝x,a_t＝x,π} (1)

其中：0＜γ＜1，

在问题模型未知的情形下，利用强化学习算法表示为：

Agent在每次迭代中更新Q(x,a)值，在多次迭代后Q(x,a)值收敛，在Q(x,a)值定义的基础上，V值定义如下：

在状态x下，求得当前最优策略为π^*：

S2.采用BP神经网络作为强化学习值函数拟合器，所述BP神经网络的输入层接收状态信息，依据BP神经网络的输出层的输出值V和环境反馈的报酬值r，利用TD算法训练BP神经网络，Agent依据输出值V选取行为a；

Agent从一个状态X_t进入另一个状态X_t+1，获取报酬值r_t，在状态X_t下的函数值为V(X_t)，V(X_t)用拟合函数表示，对于输入状态X_t，它的目标输出值为r_t+γV(X_t+1)，在更新过程中相应拟合函数的权值更新为：

其中，其中，w表示BP神经网络的权值向量；α表示权值更新系数，体现学习速率，其取值范围是：0＜α≤1，向量X＝[x₁，x₂，…，x_i，…，x_m]^T为状态向量；X、X_t、X_k均为状态输入向量,向量X_t表示t时刻的状态输入向量，X_k为t时刻之前k步对应的状态输入向量；

设定输入层节点个数为m+1，隐层节点个数为n+1，输出层节点个数为1，向量Y＝[y₁,y₂,…,y_i,…,x_m]^T为BP神经网络的输入向量，状态向量X中的分量依次赋值给BP神经网络输入向量Y中的对应分量，y_i←x_i，固定输入y₀←1，隐层节点到输出层节点的连接权值为：

W²＝[w₀,w₁,w₂,…,w_n] (6)

输入层到隐层的连接权值为：

由神经元节点p连接到神经元节点q的突触权值的修正值为：

Δw_qp＝αδ_qy_p (8)

其中，δ_q为神经元节点q的局部梯度，y_p输入值，

在该三层BP神经网络中，输出神经元只有一个，其局部梯度为：

其中，为输出节点的激活函数，为在v处的导数，

神经元j作为隐层节点，其局部梯度为:

其中，i为输入层节点索引；

S3.引入资格迹的直接梯度法进行计算，为加快训练速度，将一步误差更新向后传播若干步，表现在BP神经网络上，就是累积更新权值，隐层节点到输出层节点的连接权值的权值更新公式为：

令

通过迭代实现每一步的资格迹：

通过式(12)求得的每步资格迹与最后一步状态变换误差值的乘积，得到BP神经网络的连接突触权值更新值，

隐层到输出层的任意连接突触更新Δw_j为：

为了求得输入层到隐层的连接突触权值，由式(13)，在时间步t，获得误差值r_t+γV(X_t+1)-V(X_t)，传播到时间步k的误差值为：

(r_t+γV(X_t+1)-V(X_t))λ^t-k (14)

在时间步k，输出神经元的局部梯度为：

对于神经元j作为隐层节点，在时间步k，其局部梯度为：

到时间步k，由神经元节点i连接到神经元节点j的突触权值的修正值为:

在时间步t，引入资格迹后的由神经元节点i连接到神经元节点j的突触权值的修正值为:

经过(11)式到(18)式的计算，BP神经网络的隐层到输出层突触权值的更新依照直接梯度法进行调整，BP神经网络输入层到输出层突触权值的更新依赖于输出层节点局部梯度到隐层节点局部梯度的反传；

S4.利用采用基于资格迹的残差梯度法，将资格迹引入权值更新，同时将权值更新扩展到BP神经网络的隐层，利用所述S3的方法，将具有三层节点的BP神经网络的连接突触权值更新用一个(m+2)n+1维向量ΔW_d表示为：

ΔW_d＝[Δw₀，Δw₁，…，Δw_n，Δw₁₀，Δw₂₀，…，Δw_n0，Δw₁₁，…，Δw_ji，…，Δw_nm](19)

式(19)中的前n+1项是隐层到输出层的连接突触权值更新，后(m+1)n项是输入层到隐层的连接突触权值更新；

采用基于资格迹的残差梯度法更新BP神经网络的连接突触权值，将具有三层节点的BP神经网络的连接突触权值更新用一个(m+2)n+1维向量ΔW_rg表示为：

ΔW_rg＝[Δw₀，Δw₁，…，Δw_n，Δw₁₀，Δw₂₀，…，Δw_n0，Δw₁₁，…，Δw_ji，…，Δw_nm](20)

1)若ΔW_d·ΔW_rg＞0，则二向量之间的夹角为锐角，ΔW_d减小带来残差梯度更新量ΔW_rg减小，使拟合函数收敛；

2)若ΔW_d·ΔW_rg＜0，则二向量之间的夹角为钝角，ΔW_d减小带来残差梯度更新量ΔW_rg增加，使拟合函数发散；

为了避免发散，又能够使BP神经网络的训练过程较为快速，引入残差更新向量ΔW_r，其值为向量ΔW_d和ΔW_rg的加权平均值，定义为：

ΔW_r＝(1-φ)ΔW_d+φΔW_rg (21)

其中，φ∈[0,1]

φ的选取，应使ΔW_r与ΔW_rg的夹角为锐角，同时让ΔW_r尽量与ΔW_d离得近一些，以下求使向量ΔW_r与向量ΔW_rg垂直的φ_⊥值：

ΔW_r·ΔW_rg＝0 (22)

满足式(22)的向量ΔW_r与向量ΔW_rg垂直，

求解式(22)，得到φ_⊥值为：

φ的选取只需在φ_⊥值上增加一个较小的正值μ，使之略偏向向量ΔW_rg一点，

φ＝φ_⊥+μ (24)

3)若ΔW_d·ΔW_rg＝0，则二向量之间的夹角为直角，这样有：

φ_⊥＝0

φ的选取为：φ＝φ_⊥+μ＝μ (25)

经过(21)式到(25)式的运算，保证在迭代过程中权值收敛，通过这种方法训BP练神经网络的各层权值，其更新不会引起函数值发散，同时将BP神经网络的各层权值都加以考虑，使得权值更新向量ΔW_r不会引起用残差梯度法得到的权值更新向量ΔW_rg向其相反的方向变化，从而保证收敛。

优选地，所述S4中基于资格迹的残差梯度法为：

采用BP神经网络拟合值函数，Agent从一个状态X_t转移到下一状态X_t+1，获得报酬值r_t，在状态X_t下的函数值为V(X_t)，V(X_t)用拟合函数来表示，对于状态X_t，它的目标输出值为r_t+γV(X_t+1)，其误差E_rr的计算公式为：

为使误差E_rr趋于最小，采用残差梯度法，求得每次迭代BP神经网络权值的变化量Δw，将V(X_t)和V(X_t+1)都视为变化量，由式(26)求得拟合函数的权值按残差梯度法更新为：

其中，α表示权值更新系数，体现学习速率，其取值范围是：0＜α≤1，采用式(27)对BP神经网络进行权值迭代更新，能保证值函数收敛，

由式(27)变形得:

式(28)中，项的求值跟公式(5)的求法相同，项的求值跟公式(5)中的求法基本相同，输入值为目标状态，

引入资格迹后，求得相应的拟合函数的权值按残差梯度法更新为：

由式(29)变形得：

式(30)中，等式右侧第一项使用采用资格迹的直接梯度法求值，等式右侧第二项跟第一项的求值方法相同，输入值为目标状态。

本发明的有益效果是：在运用BP神经网络基础上，结合资格迹方法提出一种算法，实现了强化学习过程的多步更新。解决了输出层的局部梯度向隐层节点的反向传播问题，从而实现了BP神经网络隐层权值的快速更新，通过一种改进的残差法，在BP神经网络的训练过程中将各层权值进行线性优化加权，既获得了直接梯度法的学习速度又获得了残差梯度法的收敛性能，将其应用于BP神经网络隐层的权值更新，改善了值函数的收敛性能。

附图说明

图1为基于BP神经网络的强化学习模型；

图2为基于强化学习的倒立摆平衡控制模型；

图3仿真实验的学习过程曲线示意图；

图4为仿真试验中小车位置随时间变化示意图；

图5为仿真实验中摆杆角度随时间变化示意图；

图6为仿真实验中控制力随时间变化示意图。

具体实施方式

下面结合附图和具体实施例多本发明的具体实施方式做进一步说明：

如图1所示，一种采用资格迹的神经网络学习控制方法，将BP神经网络(误差反向传播神经网络)应用于强化学习，所述BP神经网络的模型拓扑结构包括输入层、隐层和输出层，运用资格迹，把局部梯度从输出层传递到隐层，实现隐层权值的更新，采用基于资格迹的残差梯度法，不仅对BP神经网络输出层权值更新，而且对隐层进行了优化权值更新，具体包括如下步骤：

S1.启动基于BP神经网络的强化学习过程，学习Agent(一种处于一定环境下包装的计算机系统)在环境的交互中，不断获得评价性的反馈信息作为回报，再将回报值做加权累加，Agent在行为选择过程中，选择能够取得最大积累回报的行为作为其最优行为：

Q^π(x,a)＝E{r_t+1+γr_t+2+γ²r_t+3+…|x_t＝x,a_t＝x,π} (1)

其中：0＜γ＜1，

在问题模型未知的情形下，利用强化学习算法表示为：

Agent在每次迭代中更新Q(s,a)值，在多次迭代后Q(s,a)值收敛，在Q(s,a)值定义的基础上，V值定义如下：

在状态x下，求得当前最优策略为π^*：

S2.采用BP神经网络作为强化学习值函数拟合器，所述BP神经网络的输入层接收状态信息，依据BP神经网络的输出层的输出值V和环境反馈的报酬值r，利用TD(强化学习)算法训练BP神经网络，Agent依据输出值V选取行为a；

W²＝[w₀,w₁,w₂,…,w_n] (6)

输入层到隐层的连接权值为：

由神经元节点p连接到神经元节点q的突触权值的修正值为：

Δw_qp＝αδ_qy_p (8)

其中，δ_q为神经元节点q的局部梯度，y^p输入值，

其中，为输出节点的激活函数，为在v处的导数，

神经元j作为隐层节点，其局部梯度为：

其中，i为输入层节点索引；

令

通过迭代实现每一步的资格迹：

隐层到输出层的任意连接突触更新Δw_j为：

(r_t+γV(X_t+1)-V(X_t))λ^t-k (14)

在时间步k，输出神经元的局部梯度为：

对于神经元j作为隐层节点，在时间步k，其局部梯度为：

到时间步k，由神经元节点i连接到神经元节点j的突触权值的修正值为：

在时间步t，引入资格迹后的由神经元节点i连接到神经元节点j的突触权值的修正值为：

ΔW_d＝[Δw₀，Δw₁，…，Δw_n，Δw₁₀，Δw₂₀，…，Δw_n0，Δw₁₁，…，Δw_ij，…，Δw_nm](19)

ΔW_r＝(1-φ)ΔW_d+φΔW_rg (21)

其中，φ∈[0,1]

ΔW_r·ΔW_rg＝0 (22)

满足式(22)的向量ΔW_r与向量ΔW_rg垂直，

求解式(22)，得到φ_⊥值为：

φ＝φ_⊥+μ (24)

3)若ΔW_d·ΔW_rg＝0，则二向量之间的夹角为直角，这样有：

φ_⊥＝0

φ的选取为：φ＝φ_⊥+μ＝μ (25)

经过(21)式到(25)式的运算，保证在迭代过程中权值收敛，通过这种方法训练BP神经网络的各层权值，其更新不会引起函数值发散，同时将BP神经网络的各层权值都加以考虑，使得权值更新向量ΔW_r不会引起用残差梯度法得到的权值更新向量ΔW_rg向其相反的方向变化，从而保证收敛。

所述S4中基于资格迹的残差梯度法为：

由式(27)变形得:

由式(29)变形得：

如图2所示，一个小车可以在一个水平轨道上自由运动，小车上安装了一个钢性的自由摆杆，摆杆处在不稳定状态下。小车在可控力F的作用下左右运动，小车运动的轨道范围是[-2.4,2.4]m。本问题是：在力的作用下小车在导轨上运动，学习系统力图让摆杆保持足够长时间的竖直状态而不倒掉。当小车运动超出轨道范围[-2.4,2.4]m，则本轮实验失败；当小车的摆杆与垂直方向的夹角θ超过的某一数值也认定为实验失败。将倒立摆的水平位移x、水平运动速度夹角θ和θ对时间的导数作为BP神经网络的输入值。当倒立摆在水平导轨上超出轨道范围[-2.4,2.4]m或θ夹角超出范围[-12°,12°]都会得到奖惩值-1，在其它状态范围，得到的奖惩值为0。

倒立摆系统运动的参数方程描述为：

在式(26)和式(27)中设置参数为：重力加速度g＝-9.8m/s²，小车重量m_c＝1.0kg，摆杆重量m＝0.1kg，摆杆一半的长度l＝0.5m，小车在导轨上的摩擦系数μ_c＝0.0005，摆杆与小车的摩擦系数μ_p＝0.000002。对参数方程的更新采用欧拉方程计算，时间步长设定为0.02秒，这样可以很方便地求得小车的运动速度和位置以及摆杆的角速度和摆角度。

在仿真实验中按物理定律给出运动方程式，但倒立摆学习系统事先并不知道其运动规律，它的知识结构是在不断学习过程中逐步建立起来的。在实验中，设定参数为：学习率α＝0.2，折扣因子γ＝0.95，资格迹系数λ＝0.8，探索行为选择概率ε＝0.1，改进残差法参数μ＝0.1。BP神经网络采用4-16-1结构，隐层节点采用sigmoid型激活函数，输出层节点采用线性函数。

为了验证算法的有效性，将倒立摆控制仿真实验进行40次。每次实验都初始化BP神经网络的权值参数，每次实验包含若干轮(episode)的学习过程，每一轮可能成功，也可能失败。每轮实验从一个有效的随机位置开始，由力控制倒立摆的平衡，若倒立摆在一轮学习过程中能保持10000步不倒掉，就认为它学习到的知识能够成功地控制倒立摆。若本轮控制实验失败或能保持成功步数达到10000步，则重新开始新一轮的学习。

表1给出了一个统计表，记录了40次仿真实验中，每次实验系统能成功控制倒立摆所经历的学习轮数。在这40次实验中，采用本文的算法，学习系统都能有效地学习并成功地控制倒立摆。其中，最多学习轮数为：18；最少学习轮数为：8；平均学习轮数为：12.05。

表1

仿真实验的学习过程曲线如图3所示，从实验中抽取第11次实验，对其实验过程进行观察，发现按照本文的方法在经历了前9轮的失败后，从第10轮开始，系统能成功地实现倒立摆控制。前10轮的学习步数分别为：7、10、10、36、18、74、64、706、2411、10000。

将本文方法结果与其他方法结果做一个对比。Barto等提出了AHC方法，将四维参数作为输入，采用两个单层神经网络分别作为ASE和ACE，实现控制倒立摆，其参数设置跟本文相同。这种方法将连续状态离散化，没有导入先验知识，在实现中较为复杂。Anderson等在AHC方法基础上，提出方法并实现了连续状态的控制。Berenji提出一种GARIC方法，采用模糊逻辑的方法，实现了基于泛化规则智能控制结构的强化学习系统来控制倒立摆平衡。Lin等提出了一种RFALCON方法来解决倒立摆问题，他们植入了模糊先验知识，通过调节Critic网络和Action网络进行动态的参数学习。Moriarty等研究了基于表格的Q学习算法实现倒立摆平衡问题，同时提出了一个基于符号的、自适应进化神经网络的SANE算法。蒋国飞等采用基于Q学习算法和BP神经网络来研究倒立摆控制问题，实现了倒立摆的无模型控制，这种方法没有运用资格迹技术。Lagoudakis等利用LSPI算法，采用基于基函数逼近和最小策略迭代法对倒立摆问题进行了研究。Bhatnagar等实现了PG算法，他们采用了自然梯度法和函数拟合的思想进行时域差分学习，在线训练值函数的参数。Martín等提出一种基于加权K近邻的强化学习方法kNN-TD，将当前状态最临近的K个状态的Q值进行加权拟合，求得当前Q值，这样较好地对Q值进行了泛化。为提高学习效率，他们进而提出了基于资格迹的kNN-TD(λ)算法。Lee等提出一种RFWAC算法，采用了增量构建的径向基网络来构成，以接受域加权回归作为其理论基础。接受域用来构建局部模型，其形状和规模可以进行自适应控制。Vien等提出一种ACTAMERRL算法，这种方法植入训练者早期的训练知识，再进行强化学习。采用的学习框架易于实现，这种方法较好地运用于倒立摆的训练上。各种方法的性能比较如表2所示。

表2

为了进一步分析本文算法的性能，图4—6分别给出了系统学习到第50轮时小车位置、摆杆角度以及外界对小车控制力随时间变化的曲线图，图4和图5设定测试时间为300秒，行为次数为30000步，从曲线图中看出，小车的位置和角速度都在规定范围之内，可见本算法取得了较好的学习和控制效果，图6只给出的测试时间为50秒，行为次数在2500步内，外界对倒立摆系统进行控制的时间-作用力曲线。

在表2中GARIC方法充分利用了先验知识进行强化学习，性能有了较大的提高，使学习轮数提高到300：RFALCON方法同样引入了先验知识，使学习轮数提高到15，本文实验结果没有植入先验知识，获得了较好的学习性能，植入部分先验知识，重做以上实验，先验知识描述如下：

IFθ＞0ANDTHEN F＞0；

IFθ＜0ANDTHEN F＜0；

同样进行40次实验，每次实验学习系统都能有效地学习并成功地控制倒立摆。表3给出了一个统计表，记录了植入上述知识后，每次实验系统能成功控制倒立摆所经历的学习轮数，其中，最多学习轮数为：14；最少学习轮数为：5；平均学习轮数为：7.93。可见，植入先验知识能大大提高强化学习的效率。

表3

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种采用资格迹的神经网络学习控制方法，其特征在于，将BP神经网络应用于强化学习，所述BP神经网络的模型拓扑结构包括输入层、隐层和输出层，运用资格迹，把局部梯度从输出层传递到隐层，实现隐层权值的更新，同时采用基于资格迹的残差梯度法，不仅对BP神经网络输出层权值更新，而且对隐层进行了优化权值更新，具体包括如下步骤：

Q^π(x,a)＝E{r_t+1+γr_t+2+γ²r_t+3+…|x_t＝x,a_t＝x,π} (1)

其中：0<γ<1，

在问题模型未知的情形下，利用强化学习法表示为：

<mrow> <mi>Q</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>Q</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&alpha;</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>+</mo> <mi>&gamma;</mi> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <msup> <mi>a</mi> <mo>&prime;</mo> </msup> </munder> <mi>Q</mi> <mo>(</mo> <mrow> <msup> <mi>x</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msup> <mi>a</mi> <mo>&prime;</mo> </msup> </mrow> <mo>)</mo> <mo>-</mo> <mi>Q</mi> <mo>(</mo> <mrow> <mi>x</mi> <mo>,</mo> <mi>a</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>V</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>a</mi> <mo>&Element;</mo> <mi>A</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> </munder> <mi>Q</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

在状态x下，求得当前最优策略为π^*：

<mrow> <mi>&Delta;</mi> <mi>w</mi> <mo>=</mo> <mi>&alpha;</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mi>t</mi> </msub> <mo>+</mo> <mi>&gamma;</mi> <mi>V</mi> <mo>(</mo> <msub> <mi>X</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> <mo>-</mo> <mi>V</mi> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mfrac> <mrow> <mo>&part;</mo> <mi>V</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>w</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

其中，w表示BP神经网络的权值向量；α表示权值更新系数，体现学习速率，其取值范围是：0<α≤1，向量X＝[x₁，x₂，…，x_i，…，x_m]^T为状态输入向量；X、X_t、X_k均为状态输入向量,向量X_t表示t时刻的状态输入向量，X_k为t时刻之前k步对应的状态输入向量；

设定输入层节点个数为m+1，隐层节点个数为n+1，输出层节点个数为1，向量Y＝[y₀,y₁,y₂,…,y_i,…,x_m]^T为BP神经网络的输入向量，状态向量X中的分量依次赋值给BP神经网络输入向量Y中的对应分量，y_i←x_i，固定输入y₀←1，隐层节点到输出层节点的连接权值为：

W²＝[w₀,w₁,w₂,…,w_n] (6)

输入层到隐层的连接权值为：

由神经元节点p连接到神经元节点q的突触权值的修正值为：

△w_qp＝αδ_qy_p (8)

其中，δ_q为神经元节点q的局部梯度，y_p为输入值，

其中，为输出节点的激活函数，为在v处的导数，神经元j作为隐层节点，其局部梯度为：

其中，i为输入层节点索引；

<mrow> <msub> <mi>&Delta;w</mi> <mi>t</mi> </msub> <mo>=</mo> <mi>&alpha;</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mi>t</mi> </msub> <mo>+</mo> <mi>&gamma;</mi> <mi>V</mi> <mo>(</mo> <msub> <mi>X</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> <mo>-</mo> <mi>V</mi> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>t</mi> </munderover> <msup> <mi>&lambda;</mi> <mrow> <mi>t</mi> <mo>-</mo> <mi>k</mi> </mrow> </msup> <mfrac> <mrow> <mo>&part;</mo> <mi>V</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>w</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>

令

通过迭代实现每一步的资格迹:

<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>e</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </munderover> <msup> <mi>&lambda;</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> <mo>-</mo> <mi>k</mi> </mrow> </msup> <mfrac> <mrow> <mo>&part;</mo> <mi>V</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>w</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mfrac> <mrow> <mo>&part;</mo> <mi>V</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>w</mi> </mrow> </mfrac> <mo>+</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>t</mi> </munderover> <msup> <mi>&lambda;</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> <mo>-</mo> <mi>k</mi> </mrow> </msup> <mfrac> <mrow> <mo>&part;</mo> <mi>V</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>w</mi> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mfrac> <mrow> <mo>&part;</mo> <mi>V</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>w</mi> </mrow> </mfrac> <mo>+</mo> <msub> <mi>&lambda;e</mi> <mi>t</mi> </msub> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>

隐层到输出层的任意连接突触更新△w_j为:

(r_t+γV(X_t+1)-V(X_t))λ^t-k (14)

在时间步k，输出神经元的局部梯度为:

对于神经元j作为隐层节点，在时间步k，其局部梯度为：

S4.利用采用基于资格迹的残差梯度法，将资格迹引入权值更新，同时将权值更新扩展到BP神经网络的隐层，利用所述S3的方法，将具有三层节点的BP神经网络的连接突触权值更新用一个(m+2)n+1维向量△W_d表示为：

ΔW_d＝[Δw₀，Δw₁，…，Δw_n，Δw₁₀，Δw₂₀，…，Δw_n0，Δw₁₁，…，Δw_ji，…，Δw_nm] (19)

采用基于资格迹的残差梯度法更新BP神经网络的连接突触权值，将具有三层节点的BP神经网络的连接突触权值更新用一个(m+2)n+1维向量△W_rg表示为：

ΔW_rg＝[Δw₀，Δw₁，…，Δw_n，Δw₁₀，Δw₂₀，…，Δw_n0，Δw₁₁，…，Δw_ji，…，Δw_nm] (20)

1)若△W_d·△W_rg>0，则二向量之间的夹角为锐角，△W_d减小带来残差梯度更新量△W_rg减小，使拟合函数收敛；

2)若△W_d·△W_rg<0，则二向量之间的夹角为钝角，△W_d减小带来残差梯度更新量△W_rg增加，使拟合函数发散；

引入残差更新向量△W_r，其值为向量△W_d和△W_rg的加权平均值，定义为：

△W_r＝(1-φ)△W_d+φ△W_rg (21)

其中，φ∈[0,1]

φ的选取，应使△W_r与△W_rg的夹角为锐角，同时让△W_r尽量与△W_d离得近一些，以下求使向量△W_r与向量△W_rg垂直的φ_⊥值：

△W_r·△W_rg＝0 (22)

满足式(22)的向量△W_r与向量△W_rg垂直，

求解式(22)，得到φ_⊥值为：

<mrow> <msub> <mi>&phi;</mi> <mo>&perp;</mo> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&Delta;W</mi> <mi>d</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>&Delta;W</mi> <mrow> <mi>r</mi> <mi>g</mi> </mrow> </msub> </mrow> <mrow> <msub> <mi>&Delta;W</mi> <mi>d</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>&Delta;W</mi> <mrow> <mi>r</mi> <mi>g</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>&Delta;W</mi> <mrow> <mi>r</mi> <mi>g</mi> </mrow> </msub> <mo>&CenterDot;</mo> <msub> <mi>&Delta;W</mi> <mrow> <mi>r</mi> <mi>g</mi> </mrow> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>23</mn> <mo>)</mo> </mrow> </mrow>

φ的选取只需在φ_⊥值上增加一个较小的正值μ，使之略偏向向量△W_rg一点，

φ＝φ_⊥+μ (24)

3)若△W_d·△W_rg＝0，则二向量之间的夹角为直角，这样有：

φ_⊥＝0

φ的选取为：φ＝φ_⊥+μ＝μ (25)

经过(21)式到(25)式的运算，保证在迭代过程中权值收敛，通过这种方法训练BP神经网络的各层权值，其更新不会引起函数值发散，同时将BP神经网络的各层权值都加以考虑，使得权值更新向量△W_r不会引起用残差梯度法得到的权值更新向量△W_rg向其相反的方向变化，从而保证收敛。

2.如权利要求1所述的一种采用资格迹的神经网络学习控制方法，其特征在于，所述S4中基于资格迹的残差梯度法为：

<mrow> <mi>E</mi> <mi>r</mi> <mi>r</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msup> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mi>t</mi> </msub> <mo>+</mo> <mi>&gamma;</mi> <mi>V</mi> <mo>(</mo> <msub> <mi>X</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> <mo>-</mo> <mi>V</mi> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>26</mn> <mo>)</mo> </mrow> </mrow>

为使误差E_rr趋于最小，采用残差梯度法，求得每次迭代BP神经网络权值的变化量△w，将V(X_t)和V(X_t+1)都视为变化量，由式(26)求得拟合函数的权值按残差梯度法更新为：

<mrow> <mi>&Delta;</mi> <mi>w</mi> <mo>=</mo> <mi>&alpha;</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mi>t</mi> </msub> <mo>+</mo> <mi>&gamma;</mi> <mi>V</mi> <mo>(</mo> <msub> <mi>X</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> <mo>-</mo> <mi>V</mi> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>&part;</mo> <mi>V</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>w</mi> </mrow> </mfrac> <mo>-</mo> <mi>&gamma;</mi> <mfrac> <mrow> <mo>&part;</mo> <mi>V</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>w</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>27</mn> <mo>)</mo> </mrow> </mrow>

其中，α表示权值更新系数，体现学习速率，其取值范围是：0<α≤1，采用式(27)对BP神经网络进行权值迭代更新，能保证值函数收敛，

由式(27)变形得：

<mrow> <mi>&Delta;</mi> <mi>w</mi> <mo>=</mo> <mi>&alpha;</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mi>t</mi> </msub> <mo>+</mo> <mi>&gamma;</mi> <mi>V</mi> <mo>(</mo> <msub> <mi>X</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> <mo>-</mo> <mi>V</mi> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mfrac> <mrow> <mo>&part;</mo> <msub> <mi>V</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>w</mi> </mrow> </mfrac> <mo>-</mo> <mi>&gamma;</mi> <mi>&alpha;</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mi>t</mi> </msub> <mo>+</mo> <mi>&gamma;</mi> <mi>V</mi> <mo>(</mo> <msub> <mi>X</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> <mo>-</mo> <msub> <mi>V</mi> <mi>t</mi> </msub> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mfrac> <mrow> <mo>&part;</mo> <mi>V</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>w</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>28</mn> <mo>)</mo> </mrow> </mrow>

式(28)中，项的求值跟公式(5)的求法相同，项的求值跟公式(5)中的求法基本相同，输入值为目标状态；

<mrow> <msub> <mi>&Delta;w</mi> <mi>t</mi> </msub> <mo>=</mo> <mi>&alpha;</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mi>t</mi> </msub> <mo>+</mo> <mi>&gamma;</mi> <mi>V</mi> <mo>(</mo> <msub> <mi>X</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> <mo>-</mo> <mi>V</mi> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>t</mi> </munderover> <msup> <mi>&lambda;</mi> <mrow> <mi>t</mi> <mo>-</mo> <mi>k</mi> </mrow> </msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>&part;</mo> <mi>V</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>w</mi> </mrow> </mfrac> <mo>-</mo> <mi>&gamma;</mi> <mfrac> <mrow> <mo>&part;</mo> <mi>V</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>w</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>29</mn> <mo>)</mo> </mrow> </mrow>

由式(29)变形得：

<mrow> <mi>&Delta;</mi> <mi>w</mi> <mo>=</mo> <mi>&alpha;</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mi>t</mi> </msub> <mo>+</mo> <mi>&gamma;</mi> <mi>V</mi> <mo>(</mo> <msub> <mi>X</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> <mo>-</mo> <mi>V</mi> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>t</mi> </munderover> <msup> <mi>&lambda;</mi> <mrow> <mi>t</mi> <mo>-</mo> <mi>k</mi> </mrow> </msup> <mfrac> <mrow> <mo>&part;</mo> <mi>V</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>w</mi> </mrow> </mfrac> <mo>-</mo> <mi>&gamma;</mi> <mi>&alpha;</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mi>t</mi> </msub> <mo>+</mo> <mi>&gamma;</mi> <mi>V</mi> <mo>(</mo> <msub> <mi>X</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> <mo>-</mo> <mi>V</mi> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>t</mi> </munderover> <msup> <mi>&lambda;</mi> <mrow> <mi>t</mi> <mo>-</mo> <mi>k</mi> </mrow> </msup> <mfrac> <mrow> <mo>&part;</mo> <mi>V</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <mi>w</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>30</mn> <mo>)</mo> </mrow> </mrow>

式(30)中，等式右侧第一项采用资格迹的直接梯度法求值，等式右侧第二项的求值方法与第一项求值方法相同，输入值为目标状态。