CN111665718B

CN111665718B - 一种基于q学习算法的对角递归神经网络控制方法

Info

Publication number: CN111665718B
Application number: CN202010502825.9A
Authority: CN
Inventors: 王宏志; 王婷婷; 胡黄水; 韩优佳
Original assignee: Changchun University of Technology
Current assignee: Changchun University of Technology
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2022-05-10
Anticipated expiration: 2040-06-05
Also published as: CN111665718A

Abstract

本发明设计了一种基于Q学习算法的对角递归神经网络(DRNN)控制方法(Q‑DRNN)，Q‑DRNN将Q学习的强搜索能力与DRNN的自带递归环结构、动态映射能力以及适应时变性等优势有机结合，用于提高无刷直流电机(BLDCM)的工作稳定性。在Q‑DRNN中，DRNN通过隐含层中独有的递归环对输出变量进行迭代，并对其关键权重进行优化，以加快迭代速度。同时，引入改进的Q学习对DRNN的权动量项因子进行修正，使DRNN具有自学习和在线修正的能力，使得系统的抗干扰能力增强、鲁棒性增强，从而使无刷直流电机达到更好的控制效果。

Description

一种基于Q学习算法的对角递归神经网络控制方法

技术领域

本发明属于无刷直流电机控制方法领域，具体涉及一种基于Q学习算法的对角递归神经网络控制方法。

背景技术

无刷直流电机由于其具有结构简单、出力大和效率高等特点，已在国防、航空航天、机器人、工业过程控制、精密机床、汽车电子、家用电器和办公自动化等领域中得到了较好的应用。无刷直流电机在现代电机调速系统中具有重要地位，因此，研究响应速度快、调节能力强、控制精度高的无刷直流电机调速控制方法具有重要的现实意义和应用前景。

PID控制是最早的线性控制方法之一，有着悠久的历史。它仍然是工业控制系统中最常用的控制算法。通常，P(比例)、I(积分)和D(微分)可以组合成多种控制器。然而，典型的PI、PD或PID控制器的不确定性、非线性和手动调节参数使其难以确定合适的增益以实现控制系统的最优性能。随着计算机技术和智能控制理论的发展，各种类型的智能算法优化PID控制器在过去的几十年里被提出。学者们提出了滑模控制器来实现对电机的速度控制。然而，滑模控制不可避免地存在抖振问题，导致系统整体性能下降。模糊逻辑控制算法被提出，但算法依赖于专家知识规则库。基于遗传算法的PI控制器增益优化，遗传算法的初始种群可能并不合适。采用粒子群算法(PSO)，但是所提出的算法存在收敛速度慢、局部最优等问题。学者们提出了许多方法来简化或改进它。基于神经网络的算法已显示出良好的效果。

基于神经网络的PID增益更新算法已成功应用于伺服电机、数控机床等控制领域。针对无刷直流电机的控制系统，已设计出单神经元PI控制器。其中，一种基于神经网络的PID控制器，它由一个最多包含三个隐藏节点的混合局部递归神经网络构成，从而形成类似于PID的结构。该控制器易于实现，但其参数个数难以确定。此外，基于梯度下降的训练算法是一个耗时的过程。为此，提出了一些优化方法，采用PSO对自适应PID神经网络中的权值进行初始化，利用改进的梯度下降算法对PID神经网络的参数进行调整。该方法的缺点是PSO对PID神经网络的初始化需要较长的时间。

近年来，机器学习(ML)已经成为一个热门话题。强化学习(Reinforcementlearning)是ML的一个分支，其目的是寻找在某些状态转换时必须遵循的最优策略，使所选操作的总收益最大化。Q学习是目前最流行、最成功的强化学习方法之一。因此，本发明结合Q学习强大的搜索能力和DRNN的独有递归环结构、动态映射能力以及对时变的适应性等优点，提出了一种提高无刷直流电机性能的Q-DRNN控制方法。

发明内容

本发明设计的基于Q学习算法的对角递归神经网络(DRNN)控制方法(Q-DRNN)对无刷直流电机的转速进行控制，Q-DRNN将Q学习的强搜索能力与DRNN的自带递归环结构、动态映射能力以及适应时变性等优势有机结合，用于提高无刷直流电机(BLDCM)的工作稳定性。在Q-DRNN中，DRNN通过隐含层中独有的递归环对输出变量进行迭代，并对其关键权重进行优化，以加快迭代速度。同时，引入改进的Q学习对DRNN的权动量项因子进行修正，使DRNN具有自学习和在线修正的能力，使得系统的抗干扰能力增强、鲁棒性增强，从而使无刷直流电机达到更好的控制效果。

本发明提出的一种基于Q学习算法的对角递归神经网络控制方法，具体包括如下控制步骤：

一种基于Q学习算法的对角递归神经网络控制方法，其特征在于，包括如下步骤：

S1:建立三层对角递归神经网络，网络结构与前馈网络类似，是由输入层、隐含层和输出层3部分组成，不同之处在于其隐含层的各神经元有自带递归环，其中各层神经元节点数分布为3-6-1，各层间初始权重W_ij(0)、W_jt(0)在区间[-0.5,0.5]中随机产生，确定学习率η及权动量项因子ξ₀；初始化Q学习的(s,a)所以参数，观察当前状态S(0)，并令k＝0。

S2:计算基于Q学习算法优化的DRNN控制误差e(k)，Q学习的动作a(k)由动作概率分布从动作集合中选择，观察下一个状态S(k+1)。

S3:计算对角递归神经网络输出层的输出u_t(k)，计算此时Q-DRNN控制输出u(k)，即为无刷直流电机控制系统的控制输入。

S4:获得奖惩信号R(k)，计算此状态下Q学习的Q值，计算贪婪动作。

S5:修正Q-DRNN的关键权重W_ij(k)、W_jj(k)和W_jt(k)。

S6:更新动作概率分布，令k＝k+1，返回S2，直到Q-DRNN第k次迭代的函数值Q^k收敛于最优值函数Q^*为止。

S7:将最终控制输出输入到无刷直流电机控制系统中实现最优控制。

进一步的，所述步骤S1:建立三层对角递归神经网络，还包括:

采样得到输入转速Y_d(k)和输出转速y(k),计算转速误差e(k)＝Y_d(k)－y(k),根据转速误差e(k),对e(k),e(k)-e(k-1),e(k)-2e(k-1)+e(k-2)进行归一化处理，作为Q-DRNN的输入x₁,x₂,x₃。

所述步骤S3中对角递归神经网络输出层的输出u_k(k)按下计算：

u_t(k)＝O_t(k)＝f₂[Σ⁶ _j＝1W_jt×f₁(Σ³ _i＝1W_ij×x_i+W_jj×O_j(k-1)－θ_j)－θ_t]

其中，x_i为网络的实际输入，W_ij，W_jj，W_jt，θ_j，θ_t分别代表输入层和隐含层之间权重、隐含层自递归环权重、隐含层和输出层之间权重、第j隐含层神经元的偏置、第k输出层神经元的偏置，O_t(k)，O_j(k-1)分别为第t输出层第k次输出和第j隐含层第k-1次输出，f₁(x)、f₂(x)是隐藏层和输出层的激活函数。

此时Q-DRNN控制输出u(k)，即为无刷直流电机控制系统的控制输入：u(k)＝K×u_t(k)

其中，K为增益系数。

所述步骤S4:获得奖惩信号R(k)。

对于所有的Q学习，始终存在一个奖惩功能。这里引入的奖惩功能与系统的输入有关。由于系统误差e(k)的理想目标为零，优化过程中误差越小，说明学习方向是奖励方向，可以继续朝着这个方向调整；误差越大，说明学习方向就是惩罚方向，应该向相反的方向调整。奖惩函数R(k)可以设计为系统误差e(k)实际值的积分与目标值误差的平方，即R(k)＝－[∫|e(k)|dk－0]²

此时进行Q值的迭代计算：

Q(s_k,a_k)＝γmaxQ(s_k+1,a)+R(s_k+1,s_k)

式中γ为折扣因子，s为状态，a为动作。智能体接收外部环境中的输入状态s_k，并通过内部推理机制输出相应的动作a_k。在a_k的作用下，外部环境变成一个新的状态s_k+1。同时，它为agent生成即时奖惩信号r_k+1。r_k+1是对在外部环境状态s_k下智能体动作a_k的评价。如果行为策略获得正回报，从外部环境中得到奖励，智能体选择行动的倾向会增加，否则倾向会减少。Q(s_k+1,a)为s_k+1状态下的最大值R(s_k+1,s_k)为奖惩矩阵返还的数值。

Q学习算法在当前状态下总是选择具有最高Q值的动作,称为贪婪策略π*,如下式:

π*(k)＝argmaxQ^k(s,a)

所述步骤S5中修正Q-DRNN的关键权重W_ij(k)、W_jj(k)和W_jt(k)，具体包括：

定义Q-DRNN控制方法的性能指标为J_k，关键权重W_ij(k)、W_jj(k)和W_jt(k)采用引入动量项的最速梯度下降法调整：

式中xy可取ij、jj和jt，η(η>0)为学习速率，ξ(k)[0≤ξ(k)<1]为动量项因子。DRNN中引入动量项实质上相当于阻尼项，它减小了学习过程的振荡趋势，改善了收敛性。

在Q学习的过程中，本文把权值的动量项因子修正项△r作为动作集，Q-DRNN的输入项x_i(i＝1,2,3)作为状态集。动量项因子ξ的修正式为

ξ(k)＝ξ₀△r,0≤△r≤1

△r＝exp[e(k)]

当误差e(k)越趋近于0时，△r越趋近于1，ξ修正越小。

所述步骤S6中更新动作概率分布：

P_s ^k+1(a_g)＝P_s ^k(a_g)+β[1－P_s ^k(a_g)]

式中β(0<β<1)值的大小代表动作搜索速度的快慢，可以看出当β的值越接近于1时说明现在的动作策略越接近贪婪策略。P_s ^k(a)代表第k次迭代时状态s下选择动作a的概率。若探索和利用的迭代次数达到某一临界值，Q^k收敛于最优值函数Q^*。

令k＝k+1，返回S2重新计算以上步骤，直到Q^k收敛于最优值函数Q^*为止。

本发明的有益效果在于，本发明将Q学习的强搜索能力与DRNN的自带递归环结构、动态映射能力以及适应时变性等优势有机结合，DRNN通过隐含层中独有的递归环对输出变量进行迭代，并对其关键权重进行优化，以加快迭代速度。同时，引入改进的Q学习对DRNN的权动量项因子进行修正，使DRNN具有自学习和在线修正的能力，使得系统的抗干扰能力增强、鲁棒性增强，在控制过程中，Q-DRNN可以不断地监控参数的变化以及参数的实时反馈，从而使无刷直流电机达到更好的控制效果。

附图说明

图1所示为本发明基于Q学习算法的对角递归神经网络控制方法示意图。

图2所示为本发明基于Q学习算法的对角递归神经网络控制方法具体流程图。

具体实施方式

下面结合附图对本发明的实施例作进一步的详细说明。应当注意的是，下述实施例中描述的技术特征及技术特征的组合不应当被认为是孤立的，它们可以被相互组合从而达到更好的技术效果。

如图1所示，本发明提出的一种基于Q学习算法的对角递归神经网络控制方法，具体架构包括Q学习算法优化型DRNN模块、无刷直流电机，具体控制方法如下:采样获得无刷直流电机输入转速Y_d(k)和输出转速y(k),计算转速误差e(k)＝Y_d(k)－y(k),根据转速误差e(k),对e(k),e(k)-e(k-1),e(k)-2e(k-1)+e(k-2)进行归一化处理，作为Q-DRNN的输入x₁,x₂,x₃。此时，Q学习的动作a(k)由动作概率分布从动作集合中选择，观察Q学习状态S(k+1)。计算DRNN输出层的输出u_t(k)，计算此时Q-DRNN控制输出u(k)，即为无刷直流电机控制系统的控制输入。获得奖惩信号R(k)，计算此状态下Q学习的Q值，并计算贪婪动作。修正Q-DRNN的关键权重W_ij(k)、W_jj(k)和W_jt(k)，同时更新动作概率分布。令k＝k+1，重复以上步骤，直到Q^k收敛于最优值函数Q^*为止。将最终控制输出输入到无刷直流电机控制系统中实现最优控制。

如图2所述，本发明提出的一种基于Q学习算法的对角递归神经网络控制方法，具体包括如下控制步骤:

S1:建立三层对角递归神经网络，确定各参数初值；

其中各层神经元节点数分布为3-6-1，各层间初始权重W_ij(0)、W_jt(0)在区间[-0.5,0.5]中随机产生，确定学习率η及权动量项因子ξ₀；初始化Q学习的(s,a)所以参数，观察当前状态S(0)，并令k＝0。

采样获得输入转速Y_d(k)和输出转速y(k),计算转速误差e(k)＝Y_d(k)－y(k),根据转速误差e(k),对e(k),e(k)-e(k-1),e(k)-2e(k-1)+e(k-2)进行归一化处理，作为Q-DRNN的输入x₁,x₂,x₃。

对角递归神经网络输出层的输出u_t(k)按下式计算：

其中，x_i为网络的实际输入，W_ij，W_jj，W_jt，θ_j，θ_t分别代表输入层和隐含层之间权重、隐含层自递归环权重、隐含层和输出层之间权重、第j隐含层神经元的偏置、第k输出层神经元的偏置，f₁(x)、f₂(x)是隐藏层和输出层的激活函数。

其中，K为增益系数。

此时进行Q值的迭代计算：

Q(s_k,a_k)＝γmaxQ(s_k+1,a)+R(s_k+1,s_k)

π*(k)＝argmaxQ^k(s,a)

S5:修正Q-DRNN的关键权重W_ij(k)、W_jj(k)和W_jt(k)。

ξ(k)＝ξ₀△r,0≤△r≤1

△r＝exp[e(k)]

当误差e(k)越趋近于0时，△r越趋近于1，ξ修正越小。

S6:更新动作概率分布，令k＝k+1，返回S2，直到Q^k收敛于最优值函数Q^*为止。

更新动作概率分布公式：

P_s ^k+1(a_g)＝P_s ^k(a_g)+β[1－P_s ^k(a_g)]

本发明所设计的Q学习算法优化型对角递归神经网络控制方法Q-DRNN，通过DRNN隐含层中独有的递归环对输出变量进行迭代，并对其关键权重进行优化，以加快迭代速度。同时，引入改进的Q学习对DRNN的权动量项因子进行修正，使DRNN具有自学习和在线修正的能力，使得系统的抗干扰能力增强、鲁棒性增强，从而使无刷直流电机达到更好的控制效果。

Claims

1.一种基于Q学习算法的对角递归神经网络控制方法，其特征在于，包括如下步骤：

S1:建立三层对角递归神经网络，网络结构由输入层、隐含层和输出层3部分组成，其隐含层的各神经元有自带递归环，其中各层神经元节点数分布为3-6-1，各层间初始权重W_ij(0)、W_jt(0)在区间[-0.5,0.5]中随机产生，确定学习率η及权动量项因子ξ₀；初始化Q学习的(s,a)所有参数，观察当前状态S(0)，并令k＝0；

S2:计算基于Q学习算法的对角递归神经网络Q-DRNN控制误差e(k)，Q学习的动作a(k)由动作概率分布从动作集合中选择，观察下一个状态S(k+1)；

S3:计算对角递归神经网络输出层的输出u_t(k)，计算此时Q-DRNN控制输出u(k)，即为无刷直流电机控制系统的控制输入；

S4:获得奖惩信号R(k)，计算此状态下Q学习的Q值，计算贪婪动作；

S5:修正Q-DRNN的关键权重W_ij(k)、W_jj(k)和W_jt(k)；

S6:更新动作概率分布，令k＝k+1，返回S2，直到Q^k收敛于最优值函数Q^*为止；

S7:将最终控制输出输入到无刷直流电机控制系统中实现最优控制；

上述步骤S3中对角递归神经网络输出层的输出u_t(k)按下式计算：

其中，x_i为Q-DRNN的输入项，W_ij，W_jj，W_jt，θ_j，θ_t分别代表输入层和隐含层之间权重、隐含层自递归环权重、隐含层和输出层之间权重、第j隐含层神经元的偏置、第t 输出层神经元的偏置，O_t(k)，O_j(k-1)分别为第t输出层第k次输出和第j隐含层第k-1次输出，f₁(x)、f₂(x)是隐藏层和输出层的激活函数；

此时Q-DRNN控制输出u(k)，即为无刷直流电机控制系统的控制输入，由下式计算得到：

u(k)＝K×u_t(k)

其中，K为增益系数；

上述步骤S5中修正Q-DRNN的关键权重W_ij(k)、W_jj(k)和W_jt(k)，具体包括：

式中xy可取ij、jj和jt，η为学习速率且η>0，ξ(k)为动量项因子且0≤ξ(k)<1；DRNN中引入动量项实质上相当于阻尼项，减小了学习过程的振荡趋势，改善了收敛性；

在Q学习的过程中，把权值的动量项因子修正项△r作为动作集，Q-DRNN的输入项x_i，i＝1,2,3作为状态集；动量项因子ξ(k)的修正式为

ξ(k)＝ξ₀△r,0≤△r≤1

△r>1

△r＝exp[e(k)]

当转速误差e(k)越趋近于0时，△r越趋近于1，ξ(k)修正越小；

上述步骤S6中更新动作概率分布，令k＝k+1，返回S2重新计算以上步骤，直到Q^k收敛于最优值函数Q^*为止，更新动作概率分布如下：

P_s ^k+1(a_g)＝P_s ^k(a_g)+β[1－P_s ^k(a_g)]

式中β值的大小代表动作搜索速度的快慢，且0<β<1，当β的值越接近于1时说明现在的动作策略越接近贪婪策略；P_s ^k(a)代表第k次迭代时状态s下选择动作a的概率；若探索和利用的迭代次数达到某一临界值，Q^k收敛于最优值函数Q^*。

2.权利要求1所述的一种基于Q学习算法的对角递归神经网络控制方法，其特征在于，所述步骤S1：建立三层对角递归神经网络，还包括:

采样得到输入转速Y_d(k)和输出转速y(k)，计算转速误差e(k)＝Y_d(k)－y(k)，根据转速误差e(k)，对e(k)，e(k)-e(k-1)，e(k)-2e(k-1)+e(k-2)进行归一化处理，作为Q-DRNN的输入项x₁,x₂,x₃。

3.权利要求1所述的一种基于Q学习算法的对角递归神经网络控制方法,其特征在于，所述步骤S4：获得奖惩信号R(k)；

引入的奖惩功能与系统的输入有关，由于转速误差e(k)的理想目标为零，优化过程中误差越小，说明学习方向是奖励方向，可以继续朝着这个方向调整；误差越大，说明学习方向就是惩罚方向，应该向相反的方向调整；奖惩函数R(k)可以设计为转速误差e(k)实际值的积分与目标值误差的平方，即

R(k)＝－[∫|e(k)|dk－0]²

此时进行Q值的迭代计算：

Q(s_k,a_k)＝γmaxQ(s_k+1,a)+R(s_k+1,s_k)

式中γ为折扣因子，s为状态，a为动作；智能体接收外部环境中的输入状态s_k，并通过内部推理机制输出相应的动作a_k；在a_k的作用下，外部环境变成一个新的状态s_k+1；同时，它为agent生成即时奖惩信号r_k+1；r_k+1是对在外部环境状态s_k下智能体动作a_k的评价；如果行为策略获得正回报，从外部环境中得到奖励，智能体选择行动的倾向会增加，否则倾向会减少；Q(s_k+1,a)为s_k+1状态下的最大值R(s_k+1,s_k)为奖惩矩阵返还的数值；

π*(k)＝argmaxQ^k(s,a)。

4.权利要求1所述的一种基于Q学习算法的对角递归神经网络控制方法，其特征在于，所设计的基于Q学习算法的对角递归神经网络Q-DRNN控制方法，通过对角递归神经网络隐含层中独有的递归环对输出变量进行迭代，并对其关键权重进行优化，以加快迭代速度；同时，引入改进的Q学习对对角递归神经网络的权动量项因子进行修正，使对角递归神经网络具有自学习和在线修正的能力，使得系统的抗干扰能力增强、鲁棒性增强，从而使无刷直流电机达到控制效果。