CN111665718B - 一种基于q学习算法的对角递归神经网络控制方法 - Google Patents

一种基于q学习算法的对角递归神经网络控制方法 Download PDF

Info

Publication number
CN111665718B
CN111665718B CN202010502825.9A CN202010502825A CN111665718B CN 111665718 B CN111665718 B CN 111665718B CN 202010502825 A CN202010502825 A CN 202010502825A CN 111665718 B CN111665718 B CN 111665718B
Authority
CN
China
Prior art keywords
drnn
learning
output
action
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010502825.9A
Other languages
English (en)
Other versions
CN111665718A (zh
Inventor
王宏志
王婷婷
胡黄水
韩优佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Technology
Original Assignee
Changchun University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Technology filed Critical Changchun University of Technology
Priority to CN202010502825.9A priority Critical patent/CN111665718B/zh
Publication of CN111665718A publication Critical patent/CN111665718A/zh
Application granted granted Critical
Publication of CN111665718B publication Critical patent/CN111665718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明设计了一种基于Q学习算法的对角递归神经网络(DRNN)控制方法(Q‑DRNN),Q‑DRNN将Q学习的强搜索能力与DRNN的自带递归环结构、动态映射能力以及适应时变性等优势有机结合,用于提高无刷直流电机(BLDCM)的工作稳定性。在Q‑DRNN中,DRNN通过隐含层中独有的递归环对输出变量进行迭代,并对其关键权重进行优化,以加快迭代速度。同时,引入改进的Q学习对DRNN的权动量项因子进行修正,使DRNN具有自学习和在线修正的能力,使得系统的抗干扰能力增强、鲁棒性增强,从而使无刷直流电机达到更好的控制效果。

Description

一种基于Q学习算法的对角递归神经网络控制方法
技术领域
本发明属于无刷直流电机控制方法领域,具体涉及一种基于Q学习算法的对角递归神经网络控制方法。
背景技术
无刷直流电机由于其具有结构简单、出力大和效率高等特点,已在国防、航空航天、机器人、工业过程控制、精密机床、汽车电子、家用电器和办公自动化等领域中得到了较好的应用。无刷直流电机在现代电机调速系统中具有重要地位,因此,研究响应速度快、调节能力强、控制精度高的无刷直流电机调速控制方法具有重要的现实意义和应用前景。
PID控制是最早的线性控制方法之一,有着悠久的历史。它仍然是工业控制系统中最常用的控制算法。通常,P(比例)、I(积分)和D(微分)可以组合成多种控制器。然而,典型的PI、PD或PID控制器的不确定性、非线性和手动调节参数使其难以确定合适的增益以实现控制系统的最优性能。随着计算机技术和智能控制理论的发展,各种类型的智能算法优化PID控制器在过去的几十年里被提出。学者们提出了滑模控制器来实现对电机的速度控制。然而,滑模控制不可避免地存在抖振问题,导致系统整体性能下降。模糊逻辑控制算法被提出,但算法依赖于专家知识规则库。基于遗传算法的PI控制器增益优化,遗传算法的初始种群可能并不合适。采用粒子群算法(PSO),但是所提出的算法存在收敛速度慢、局部最优等问题。学者们提出了许多方法来简化或改进它。基于神经网络的算法已显示出良好的效果。
基于神经网络的PID增益更新算法已成功应用于伺服电机、数控机床等控制领域。针对无刷直流电机的控制系统,已设计出单神经元PI控制器。其中,一种基于神经网络的PID控制器,它由一个最多包含三个隐藏节点的混合局部递归神经网络构成,从而形成类似于PID的结构。该控制器易于实现,但其参数个数难以确定。此外,基于梯度下降的训练算法是一个耗时的过程。为此,提出了一些优化方法,采用PSO对自适应PID神经网络中的权值进行初始化,利用改进的梯度下降算法对PID神经网络的参数进行调整。该方法的缺点是PSO对PID神经网络的初始化需要较长的时间。
近年来,机器学习(ML)已经成为一个热门话题。强化学习(Reinforcementlearning)是ML的一个分支,其目的是寻找在某些状态转换时必须遵循的最优策略,使所选操作的总收益最大化。Q学习是目前最流行、最成功的强化学习方法之一。因此,本发明结合Q学习强大的搜索能力和DRNN的独有递归环结构、动态映射能力以及对时变的适应性等优点,提出了一种提高无刷直流电机性能的Q-DRNN控制方法。
发明内容
本发明设计的基于Q学习算法的对角递归神经网络(DRNN)控制方法(Q-DRNN)对无刷直流电机的转速进行控制,Q-DRNN将Q学习的强搜索能力与DRNN的自带递归环结构、动态映射能力以及适应时变性等优势有机结合,用于提高无刷直流电机(BLDCM)的工作稳定性。在Q-DRNN中,DRNN通过隐含层中独有的递归环对输出变量进行迭代,并对其关键权重进行优化,以加快迭代速度。同时,引入改进的Q学习对DRNN的权动量项因子进行修正,使DRNN具有自学习和在线修正的能力,使得系统的抗干扰能力增强、鲁棒性增强,从而使无刷直流电机达到更好的控制效果。
本发明提出的一种基于Q学习算法的对角递归神经网络控制方法,具体包括如下控制步骤:
一种基于Q学习算法的对角递归神经网络控制方法,其特征在于,包括如下步骤:
S1:建立三层对角递归神经网络,网络结构与前馈网络类似,是由输入层、隐含层和输出层3部分组成,不同之处在于其隐含层的各神经元有自带递归环,其中各层神经元节点数分布为3-6-1,各层间初始权重Wij(0)、Wjt(0)在区间[-0.5,0.5]中随机产生,确定学习率η及权动量项因子ξ0;初始化Q学习的(s,a)所以参数,观察当前状态S(0),并令k=0。
S2:计算基于Q学习算法优化的DRNN控制误差e(k),Q学习的动作a(k)由动作概率分布从动作集合中选择,观察下一个状态S(k+1)。
S3:计算对角递归神经网络输出层的输出ut(k),计算此时Q-DRNN控制输出u(k),即为无刷直流电机控制系统的控制输入。
S4:获得奖惩信号R(k),计算此状态下Q学习的Q值,计算贪婪动作。
S5:修正Q-DRNN的关键权重Wij(k)、Wjj(k)和Wjt(k)。
S6:更新动作概率分布,令k=k+1,返回S2,直到Q-DRNN第k次迭代的函数值Qk收敛于最优值函数Q*为止。
S7:将最终控制输出输入到无刷直流电机控制系统中实现最优控制。
进一步的,所述步骤S1:建立三层对角递归神经网络,还包括:
采样得到输入转速Yd(k)和输出转速y(k),计算转速误差e(k)=Yd(k)-y(k),根据转速误差e(k),对e(k),e(k)-e(k-1),e(k)-2e(k-1)+e(k-2)进行归一化处理,作为Q-DRNN的输入x1,x2,x3
所述步骤S3中对角递归神经网络输出层的输出uk(k)按下计算:
ut(k)=Ot(k)=f26 j=1Wjt×f13 i=1Wij×xi+Wjj×Oj(k-1)-θj)-θt]
其中,xi为网络的实际输入,Wij,Wjj,Wjt,θj,θt分别代表输入层和隐含层之间权重、隐含层自递归环权重、隐含层和输出层之间权重、第j隐含层神经元的偏置、第k输出层神经元的偏置,Ot(k),Oj(k-1)分别为第t输出层第k次输出和第j隐含层第k-1次输出,f1(x)、f2(x)是隐藏层和输出层的激活函数。
此时Q-DRNN控制输出u(k),即为无刷直流电机控制系统的控制输入:u(k)=K×ut(k)
其中,K为增益系数。
所述步骤S4:获得奖惩信号R(k)。
对于所有的Q学习,始终存在一个奖惩功能。这里引入的奖惩功能与系统的输入有关。由于系统误差e(k)的理想目标为零,优化过程中误差越小,说明学习方向是奖励方向,可以继续朝着这个方向调整;误差越大,说明学习方向就是惩罚方向,应该向相反的方向调整。奖惩函数R(k)可以设计为系统误差e(k)实际值的积分与目标值误差的平方,即R(k)=-[∫|e(k)|dk-0]2
此时进行Q值的迭代计算:
Q(sk,ak)=γmaxQ(sk+1,a)+R(sk+1,sk)
式中γ为折扣因子,s为状态,a为动作。智能体接收外部环境中的输入状态sk,并通过内部推理机制输出相应的动作ak。在ak的作用下,外部环境变成一个新的状态sk+1。同时,它为agent生成即时奖惩信号rk+1。rk+1是对在外部环境状态sk下智能体动作ak的评价。如果行为策略获得正回报,从外部环境中得到奖励,智能体选择行动的倾向会增加,否则倾向会减少。Q(sk+1,a)为sk+1状态下的最大值R(sk+1,sk)为奖惩矩阵返还的数值。
Q学习算法在当前状态下总是选择具有最高Q值的动作,称为贪婪策略π*,如下式:
π*(k)=argmaxQk(s,a)
所述步骤S5中修正Q-DRNN的关键权重Wij(k)、Wjj(k)和Wjt(k),具体包括:
定义Q-DRNN控制方法的性能指标为Jk,关键权重Wij(k)、Wjj(k)和Wjt(k)采用引入动量项的最速梯度下降法调整:
Figure GDA0003560788690000031
式中xy可取ij、jj和jt,η(η>0)为学习速率,ξ(k)[0≤ξ(k)<1]为动量项因子。DRNN中引入动量项实质上相当于阻尼项,它减小了学习过程的振荡趋势,改善了收敛性。
在Q学习的过程中,本文把权值的动量项因子修正项△r作为动作集,Q-DRNN的输入项xi(i=1,2,3)作为状态集。动量项因子ξ的修正式为
ξ(k)=ξ0△r,0≤△r≤1
Figure GDA0003560788690000032
△r=exp[e(k)]
当误差e(k)越趋近于0时,△r越趋近于1,ξ修正越小。
所述步骤S6中更新动作概率分布:
Ps k+1(ag)=Ps k(ag)+β[1-Ps k(ag)]
Figure GDA0003560788690000041
Figure GDA0003560788690000042
式中β(0<β<1)值的大小代表动作搜索速度的快慢,可以看出当β的值越接近于1时说明现在的动作策略越接近贪婪策略。Ps k(a)代表第k次迭代时状态s下选择动作a的概率。若探索和利用的迭代次数达到某一临界值,Qk收敛于最优值函数Q*
令k=k+1,返回S2重新计算以上步骤,直到Qk收敛于最优值函数Q*为止。
本发明的有益效果在于,本发明将Q学习的强搜索能力与DRNN的自带递归环结构、动态映射能力以及适应时变性等优势有机结合,DRNN通过隐含层中独有的递归环对输出变量进行迭代,并对其关键权重进行优化,以加快迭代速度。同时,引入改进的Q学习对DRNN的权动量项因子进行修正,使DRNN具有自学习和在线修正的能力,使得系统的抗干扰能力增强、鲁棒性增强,在控制过程中,Q-DRNN可以不断地监控参数的变化以及参数的实时反馈,从而使无刷直流电机达到更好的控制效果。
附图说明
图1所示为本发明基于Q学习算法的对角递归神经网络控制方法示意图。
图2所示为本发明基于Q学习算法的对角递归神经网络控制方法具体流程图。
具体实施方式
下面结合附图对本发明的实施例作进一步的详细说明。应当注意的是,下述实施例中描述的技术特征及技术特征的组合不应当被认为是孤立的,它们可以被相互组合从而达到更好的技术效果。
如图1所示,本发明提出的一种基于Q学习算法的对角递归神经网络控制方法,具体架构包括Q学习算法优化型DRNN模块、无刷直流电机,具体控制方法如下:采样获得无刷直流电机输入转速Yd(k)和输出转速y(k),计算转速误差e(k)=Yd(k)-y(k),根据转速误差e(k),对e(k),e(k)-e(k-1),e(k)-2e(k-1)+e(k-2)进行归一化处理,作为Q-DRNN的输入x1,x2,x3。此时,Q学习的动作a(k)由动作概率分布从动作集合中选择,观察Q学习状态S(k+1)。计算DRNN输出层的输出ut(k),计算此时Q-DRNN控制输出u(k),即为无刷直流电机控制系统的控制输入。获得奖惩信号R(k),计算此状态下Q学习的Q值,并计算贪婪动作。修正Q-DRNN的关键权重Wij(k)、Wjj(k)和Wjt(k),同时更新动作概率分布。令k=k+1,重复以上步骤,直到Qk收敛于最优值函数Q*为止。将最终控制输出输入到无刷直流电机控制系统中实现最优控制。
如图2所述,本发明提出的一种基于Q学习算法的对角递归神经网络控制方法,具体包括如下控制步骤:
S1:建立三层对角递归神经网络,确定各参数初值;
其中各层神经元节点数分布为3-6-1,各层间初始权重Wij(0)、Wjt(0)在区间[-0.5,0.5]中随机产生,确定学习率η及权动量项因子ξ0;初始化Q学习的(s,a)所以参数,观察当前状态S(0),并令k=0。
采样获得输入转速Yd(k)和输出转速y(k),计算转速误差e(k)=Yd(k)-y(k),根据转速误差e(k),对e(k),e(k)-e(k-1),e(k)-2e(k-1)+e(k-2)进行归一化处理,作为Q-DRNN的输入x1,x2,x3
S2:计算基于Q学习算法优化的DRNN控制误差e(k),Q学习的动作a(k)由动作概率分布从动作集合中选择,观察下一个状态S(k+1)。
S3:计算对角递归神经网络输出层的输出ut(k),计算此时Q-DRNN控制输出u(k),即为无刷直流电机控制系统的控制输入。
对角递归神经网络输出层的输出ut(k)按下式计算:
ut(k)=Ot(k)=f26 j=1Wjt×f13 i=1Wij×xi+Wjj×Oj(k-1)-θj)-θt]
其中,xi为网络的实际输入,Wij,Wjj,Wjt,θj,θt分别代表输入层和隐含层之间权重、隐含层自递归环权重、隐含层和输出层之间权重、第j隐含层神经元的偏置、第k输出层神经元的偏置,f1(x)、f2(x)是隐藏层和输出层的激活函数。
此时Q-DRNN控制输出u(k),即为无刷直流电机控制系统的控制输入:u(k)=K×ut(k)
其中,K为增益系数。
S4:获得奖惩信号R(k),计算此状态下Q学习的Q值,计算贪婪动作。
对于所有的Q学习,始终存在一个奖惩功能。这里引入的奖惩功能与系统的输入有关。由于系统误差e(k)的理想目标为零,优化过程中误差越小,说明学习方向是奖励方向,可以继续朝着这个方向调整;误差越大,说明学习方向就是惩罚方向,应该向相反的方向调整。奖惩函数R(k)可以设计为系统误差e(k)实际值的积分与目标值误差的平方,即R(k)=-[∫|e(k)|dk-0]2
此时进行Q值的迭代计算:
Q(sk,ak)=γmaxQ(sk+1,a)+R(sk+1,sk)
式中γ为折扣因子,s为状态,a为动作。智能体接收外部环境中的输入状态sk,并通过内部推理机制输出相应的动作ak。在ak的作用下,外部环境变成一个新的状态sk+1。同时,它为agent生成即时奖惩信号rk+1。rk+1是对在外部环境状态sk下智能体动作ak的评价。如果行为策略获得正回报,从外部环境中得到奖励,智能体选择行动的倾向会增加,否则倾向会减少。Q(sk+1,a)为sk+1状态下的最大值R(sk+1,sk)为奖惩矩阵返还的数值。
Q学习算法在当前状态下总是选择具有最高Q值的动作,称为贪婪策略π*,如下式:
π*(k)=argmaxQk(s,a)
S5:修正Q-DRNN的关键权重Wij(k)、Wjj(k)和Wjt(k)。
定义Q-DRNN控制方法的性能指标为Jk,关键权重Wij(k)、Wjj(k)和Wjt(k)采用引入动量项的最速梯度下降法调整:
Figure GDA0003560788690000061
式中xy可取ij、jj和jt,η(η>0)为学习速率,ξ(k)[0≤ξ(k)<1]为动量项因子。DRNN中引入动量项实质上相当于阻尼项,它减小了学习过程的振荡趋势,改善了收敛性。
在Q学习的过程中,本文把权值的动量项因子修正项△r作为动作集,Q-DRNN的输入项xi(i=1,2,3)作为状态集。动量项因子ξ的修正式为
ξ(k)=ξ0△r,0≤△r≤1
Figure GDA0003560788690000064
△r=exp[e(k)]
当误差e(k)越趋近于0时,△r越趋近于1,ξ修正越小。
S6:更新动作概率分布,令k=k+1,返回S2,直到Qk收敛于最优值函数Q*为止。
更新动作概率分布公式:
Ps k+1(ag)=Ps k(ag)+β[1-Ps k(ag)]
Figure GDA0003560788690000062
Figure GDA0003560788690000063
式中β(0<β<1)值的大小代表动作搜索速度的快慢,可以看出当β的值越接近于1时说明现在的动作策略越接近贪婪策略。Ps k(a)代表第k次迭代时状态s下选择动作a的概率。若探索和利用的迭代次数达到某一临界值,Qk收敛于最优值函数Q*
令k=k+1,返回S2重新计算以上步骤,直到Qk收敛于最优值函数Q*为止。
S7:将最终控制输出输入到无刷直流电机控制系统中实现最优控制。
本发明所设计的Q学习算法优化型对角递归神经网络控制方法Q-DRNN,通过DRNN隐含层中独有的递归环对输出变量进行迭代,并对其关键权重进行优化,以加快迭代速度。同时,引入改进的Q学习对DRNN的权动量项因子进行修正,使DRNN具有自学习和在线修正的能力,使得系统的抗干扰能力增强、鲁棒性增强,从而使无刷直流电机达到更好的控制效果。

Claims (4)

1.一种基于Q学习算法的对角递归神经网络控制方法,其特征在于,包括如下步骤:
S1:建立三层对角递归神经网络,网络结构由输入层、隐含层和输出层3部分组成,其隐含层的各神经元有自带递归环,其中各层神经元节点数分布为3-6-1,各层间初始权重Wij(0)、Wjt(0)在区间[-0.5,0.5]中随机产生,确定学习率η及权动量项因子ξ0;初始化Q学习的(s,a)所有参数,观察当前状态S(0),并令k=0;
S2:计算基于Q学习算法的对角递归神经网络Q-DRNN控制误差e(k),Q学习的动作a(k)由动作概率分布从动作集合中选择,观察下一个状态S(k+1);
S3:计算对角递归神经网络输出层的输出ut(k),计算此时Q-DRNN控制输出u(k),即为无刷直流电机控制系统的控制输入;
S4:获得奖惩信号R(k),计算此状态下Q学习的Q值,计算贪婪动作;
S5:修正Q-DRNN的关键权重Wij(k)、Wjj(k)和Wjt(k);
S6:更新动作概率分布,令k=k+1,返回S2,直到Qk收敛于最优值函数Q*为止;
S7:将最终控制输出输入到无刷直流电机控制系统中实现最优控制;
上述步骤S3中对角递归神经网络输出层的输出ut(k)按下式计算:
ut(k)=Ot(k)=f26 j=1Wjt×f13 i=1Wij×xi+Wjj×Oj(k-1)-θj)-θt]
其中,xi为Q-DRNN的输入项,Wij,Wjj,Wjt,θj,θt分别代表输入层和隐含层之间权重、隐含层自递归环权重、隐含层和输出层之间权重、第j隐含层神经元的偏置、第t 输出层神经元的偏置,Ot(k),Oj(k-1)分别为第t输出层第k次输出和第j隐含层第k-1次输出,f1(x)、f2(x)是隐藏层和输出层的激活函数;
此时Q-DRNN控制输出u(k),即为无刷直流电机控制系统的控制输入,由下式计算得到:
u(k)=K×ut(k)
其中,K为增益系数;
上述步骤S5中修正Q-DRNN的关键权重Wij(k)、Wjj(k)和Wjt(k),具体包括:
定义Q-DRNN控制方法的性能指标为Jk,关键权重Wij(k)、Wjj(k)和Wjt(k)采用引入动量项的最速梯度下降法调整:
Figure FDA0003560788680000011
式中xy可取ij、jj和jt,η为学习速率且η>0,ξ(k)为动量项因子且0≤ξ(k)<1;DRNN中引入动量项实质上相当于阻尼项,减小了学习过程的振荡趋势,改善了收敛性;
在Q学习的过程中,把权值的动量项因子修正项△r作为动作集,Q-DRNN的输入项xi,i=1,2,3作为状态集;动量项因子ξ(k)的修正式为
ξ(k)=ξ0△r,0≤△r≤1
Figure FDA0003560788680000023
△r>1
△r=exp[e(k)]
当转速误差e(k)越趋近于0时,△r越趋近于1,ξ(k)修正越小;
上述步骤S6中更新动作概率分布,令k=k+1,返回S2重新计算以上步骤,直到Qk收敛于最优值函数Q*为止,更新动作概率分布如下:
Ps k+1(ag)=Ps k(ag)+β[1-Ps k(ag)]
Figure FDA0003560788680000021
Figure FDA0003560788680000022
式中β值的大小代表动作搜索速度的快慢,且0<β<1,当β的值越接近于1时说明现在的动作策略越接近贪婪策略;Ps k(a)代表第k次迭代时状态s下选择动作a的概率;若探索和利用的迭代次数达到某一临界值,Qk收敛于最优值函数Q*
2.权利要求1所述的一种基于Q学习算法的对角递归神经网络控制方法,其特征在于,所述步骤S1:建立三层对角递归神经网络,还包括:
采样得到输入转速Yd(k)和输出转速y(k),计算转速误差e(k)=Yd(k)-y(k),根据转速误差e(k),对e(k),e(k)-e(k-1),e(k)-2e(k-1)+e(k-2)进行归一化处理,作为Q-DRNN的输入项x1,x2,x3
3.权利要求1所述的一种基于Q学习算法的对角递归神经网络控制方法,其特征在于,所述步骤S4:获得奖惩信号R(k);
引入的奖惩功能与系统的输入有关,由于转速误差e(k)的理想目标为零,优化过程中误差越小,说明学习方向是奖励方向,可以继续朝着这个方向调整;误差越大,说明学习方向就是惩罚方向,应该向相反的方向调整;奖惩函数R(k)可以设计为转速误差e(k)实际值的积分与目标值误差的平方,即
R(k)=-[∫|e(k)|dk-0]2
此时进行Q值的迭代计算:
Q(sk,ak)=γmaxQ(sk+1,a)+R(sk+1,sk)
式中γ为折扣因子,s为状态,a为动作;智能体接收外部环境中的输入状态sk,并通过内部推理机制输出相应的动作ak;在ak的作用下,外部环境变成一个新的状态sk+1;同时,它为agent生成即时奖惩信号rk+1;rk+1是对在外部环境状态sk下智能体动作ak的评价;如果行为策略获得正回报,从外部环境中得到奖励,智能体选择行动的倾向会增加,否则倾向会减少;Q(sk+1,a)为sk+1状态下的最大值R(sk+1,sk)为奖惩矩阵返还的数值;
Q学习算法在当前状态下总是选择具有最高Q值的动作,称为贪婪策略π*,如下式:
π*(k)=argmaxQk(s,a)。
4.权利要求1所述的一种基于Q学习算法的对角递归神经网络控制方法,其特征在于,所设计的基于Q学习算法的对角递归神经网络Q-DRNN控制方法,通过对角递归神经网络隐含层中独有的递归环对输出变量进行迭代,并对其关键权重进行优化,以加快迭代速度;同时,引入改进的Q学习对对角递归神经网络的权动量项因子进行修正,使对角递归神经网络具有自学习和在线修正的能力,使得系统的抗干扰能力增强、鲁棒性增强,从而使无刷直流电机达到控制效果。
CN202010502825.9A 2020-06-05 2020-06-05 一种基于q学习算法的对角递归神经网络控制方法 Active CN111665718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010502825.9A CN111665718B (zh) 2020-06-05 2020-06-05 一种基于q学习算法的对角递归神经网络控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010502825.9A CN111665718B (zh) 2020-06-05 2020-06-05 一种基于q学习算法的对角递归神经网络控制方法

Publications (2)

Publication Number Publication Date
CN111665718A CN111665718A (zh) 2020-09-15
CN111665718B true CN111665718B (zh) 2022-05-10

Family

ID=72386513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010502825.9A Active CN111665718B (zh) 2020-06-05 2020-06-05 一种基于q学习算法的对角递归神经网络控制方法

Country Status (1)

Country Link
CN (1) CN111665718B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112034715B (zh) * 2020-09-17 2021-07-13 福州大学 一种基于改进q学习算法的电机伺服系统无模型反馈控制器设计方法
CN112131788B (zh) * 2020-09-18 2022-09-02 江西兰叶科技有限公司 用于教学的电机设计方法及系统
CN113031614B (zh) * 2021-03-11 2022-09-30 上海海事大学 一种远洋船舶航向控制复合优化节油方法
CN113379068B (zh) * 2021-06-29 2023-08-08 哈尔滨工业大学 基于结构化数据的深度学习架构搜索方法
CN114012733B (zh) * 2021-11-29 2023-05-23 江苏科技大学 一种用于pc构件模具划线的机械臂控制方法
CN114670856B (zh) * 2022-03-30 2022-11-25 湖南大学无锡智能控制研究院 一种基于bp神经网络的参数自整定纵向控制方法及系统
CN115191833B (zh) * 2022-07-27 2024-05-03 深圳安吉尔饮水产业集团有限公司 一种带动态学习的即热系统的控制算法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5448681A (en) * 1992-03-27 1995-09-05 National Semiconductor Corporation Intelligent controller with neural network and reinforcement learning
CN108448978A (zh) * 2018-03-26 2018-08-24 吉林大学 一种有刷直流电机强化学习自适应控制方法
CN109143863A (zh) * 2018-09-13 2019-01-04 武汉科技大学 非线性系统的快速自学习改进adrc控制方法
CN109766745A (zh) * 2018-11-22 2019-05-17 四川大学 强化学习三态组合长短时记忆神经网络系统及训练和预测方法
CN109946975A (zh) * 2019-04-12 2019-06-28 北京理工大学 一种未知伺服系统的强化学习最优跟踪控制方法
CN110488600A (zh) * 2019-09-01 2019-11-22 长春工业大学 Lqr优化型无刷直流电机调速神经网络pid控制器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5448681A (en) * 1992-03-27 1995-09-05 National Semiconductor Corporation Intelligent controller with neural network and reinforcement learning
CN108448978A (zh) * 2018-03-26 2018-08-24 吉林大学 一种有刷直流电机强化学习自适应控制方法
CN109143863A (zh) * 2018-09-13 2019-01-04 武汉科技大学 非线性系统的快速自学习改进adrc控制方法
CN109766745A (zh) * 2018-11-22 2019-05-17 四川大学 强化学习三态组合长短时记忆神经网络系统及训练和预测方法
CN109946975A (zh) * 2019-04-12 2019-06-28 北京理工大学 一种未知伺服系统的强化学习最优跟踪控制方法
CN110488600A (zh) * 2019-09-01 2019-11-22 长春工业大学 Lqr优化型无刷直流电机调速神经网络pid控制器

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A reinforcement learning unit matching recurrent neural network for the;Feng Li等;《Measurement》;20191031;第145卷;第191-203页全文 *
无线网络中基于深度Q学习的传输调度方案;朱江 等;《通信学报》;20180430;第39卷(第4期);第35-44页全文 *
永磁同步电机的改进对角递归神经网络PI控制策略;彭熙伟等;《电机与控制学报》;20190430;第23卷(第04期);第126-132页全文 *

Also Published As

Publication number Publication date
CN111665718A (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
CN111665718B (zh) 一种基于q学习算法的对角递归神经网络控制方法
Bristow et al. A survey of iterative learning control
Li et al. Adaptive fuzzy finite-time tracking control for nonstrict full states constrained nonlinear system with coupled dead-zone input
CN104595106B (zh) 基于强化学习补偿的风力发电变桨距控制方法
Jagannathan Control of a class of nonlinear discrete-time systems using multilayer neural networks
CN109981103B (zh) 一种双二阶广义积分器锁频环的参数优化方法及系统
El-Sousy Intelligent mixed H2/H∞ adaptive tracking control system design using self-organizing recurrent fuzzy-wavelet-neural-network for uncertain two-axis motion control system
CN109189075B (zh) 一种舰船用模糊遗忘因子无模型自适应航向控制方法
CN111106772B (zh) 一种包含参数跟踪的感应电机状态强跟踪滤波估计方法
CN110531614B (zh) 新颖的无刷直流电机模糊神经网络pi控制器
CN112564557B (zh) 一种永磁同步电机的控制方法、装置、设备及存储介质
Jingzhuo et al. Predictive iterative learning speed control with on-line identification for ultrasonic motor
CN114063438B (zh) 一种数据驱动的多智能体系统pid控制协议自学习方法
CN115097736A (zh) 一种基于深度强化学习的自抗扰控制器参数优化方法
Ding et al. Nonlinear Decoupling Control With PI $^{\lambda} $ D $^{\mu} $ Neural Network for MIMO Systems
CN110488600B (zh) Lqr优化型无刷直流电机调速神经网络pid控制器
CN114527641A (zh) 基于人工电场算法优化的无刷直流电机模糊控制方法
CN112054728B (zh) 数控机床永磁同步电机驱动控制系统
Yang et al. Improving scalability of multi-agent reinforcement learning with parameters sharing
CN112861426A (zh) 基于改进粒子群算法的航空发动机加速过程最优控制方法
CN116594288A (zh) 一种基于天牛须模糊pid的控制方法及系统
Li et al. Morphing Strategy Design for UAV based on Prioritized Sweeping Reinforcement Learning
Wang et al. Adaptive Critic Tracking Design for Data-Based Nonaffine Predictive Control
Al-Dabooni et al. Mobile robot control based on hybrid neuro-fuzzy value gradient reinforcement learning
CN116954086B (zh) 一种抽水蓄能机组调节系统智能预测控制方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant